-
题名基于语义和版式的网上人物信息提取
- 1
-
-
作者
燕敏
岳萍
杜开峰
-
机构
四川托普信息技术职业学院计算机系
四川大学化工学院制药与生物工程系
-
出处
《微计算机信息》
2010年第12期145-147,共3页
-
文摘
本文利用本体思想,采用基于规则和统计相结合的算法,提出了一种网上人物信息提取算法,实现了半结构化人物信息的自动提取。通过程序统计的方法创建了一个包含4624个有效字段名的词典,用来检验提取出的字段名是否有效,当字段名有效时再提取其对应的字段值,大大提高了信息提取的准确率。实验结果表明,该算法对半结构化web人物网页信息提取具有较高的效率,平均准确率为97.6%,平均召回率为86.1%。
-
关键词
WEB信息抽取
抽取规则
半结构化网页
XML
版式分析
-
Keywords
the Web IE
IE regulations
the semi-structure web page
XML
the web page format analyzing
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-