基于语义和版式的网上人物信息提取

Extraction of people information from web based on semantic and format

下载PDF

导出

摘要本文利用本体思想,采用基于规则和统计相结合的算法,提出了一种网上人物信息提取算法,实现了半结构化人物信息的自动提取。通过程序统计的方法创建了一个包含4624个有效字段名的词典,用来检验提取出的字段名是否有效,当字段名有效时再提取其对应的字段值,大大提高了信息提取的准确率。实验结果表明,该算法对半结构化web人物网页信息提取具有较高的效率,平均准确率为97.6%,平均召回率为86.1%。 This paper presents an algorithm of extracting people information on web based on the combining of regulations and statistics,utilizing the idea of the ontology,to accomplish the auto-extracting information from the semi-structure people information.It established a field name dictionary which contained four thousands and six hundreds and twenty four effective field name by the method of program statistic,to check the effectiveness of the extracted field name.The precision of the IE was greatly raised because the field value was extracted only when the field name was effective.The final results display that the algorithm has high efficiency on web extraction of semi-structure people information,and the average precision and recall reach 97.6%and 86.1%,respectively.

作者燕敏岳萍杜开峰

机构地区四川托普信息技术职业学院计算机系四川大学化工学院制药与生物工程系

出处《微计算机信息》 2010年第12期145-147,共3页 Control & Automation

关键词 WEB信息抽取抽取规则半结构化网页 XML 版式分析 the Web IE IE regulations the semi-structure web page XML the web page format analyzing

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1孙斌(北京大学计算机系).信息提取技术概述[M].
2周俊生,戴新字,尹存燕等.自然语言信息抽取中的机器学习方法研究[J].
3LineEikvil(原著),陈鸿标(译),网上信息抽取技术纵览[M],2003.
4Bing Liu, Kevin Chen-Chuan Chang, Editorial: Special Issue on Web[J], 1-2.
5周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
6海量科技.中文智能分词.http://www.hylanda.com/producfffenci/[z].
7Line Eikvil.Information Extraction from World Wide Web-A Survey[J], 1999.
8李姗,黄水源.基于XML的WEB信息抽取模型设计[J].微计算机信息,2009(9):207-208. 被引量：5

二级参考文献11

1朱敏,王开建,苏博.基于XML的企业网络数据集成模型研究[J].微计算机信息,2006(05X):37-39. 被引量：16
2陈建辉,刘利民.基于模式发现的在线招聘信息抽取[J].微计算机信息,2006,22(09X):194-196. 被引量：5
3M. E. Califf. Relational Learning Techniques for Natural Language Information Extraction. Ph.D. thesis, Department of Computer Sciences, University of Texas, Austin, August 1998. Technical Report AI98-276.
4Chang CH, Lui SC, Wu YC. Applying pattern mining to Web information extraction [A]. In Proceedings of the Fifth Pacific Asia Conference on Knowledge Discovery and Data Mining [C]. Hong Kong, 2001
5Hammer J, Garcia-Molina H, Nestorov S, et al. Template-based wrapper in the TSIMMIS system (system demonstration)[A]. In: Proceedings of ACM SIGMOD Conference on Management of Data, Tucson, Arizona, 1997. 532～535
6Hammer J, Garcia-Molina H, Cho J, et al. Extracting semi-structured information from the Web[A]. In: Proceedings of Workshop on Management of Semi-Structured Data, Tucson, Arizona, 1997. 18～25
7Kushmerick N, Weld D, et al. Induction for information extraction[A]. In: Proceedings of the 15th International Joint Conference on Artificial Intelligent, Nagoya, 1997, 2: 729～737
8Ashish N, Knoblock C. Wrapper generation for semi-structured internet sources[A]. In: Proceedings of Workshop on Management of Semi-Structured Data, Tucson, Arizona, 1997. 10～17
9陈羡.[D].杭州: 浙江大学,2001,18～20.
10张绍华,徐林昊,杨文柱,薛文玲,李天柱.基于样本实例的Web信息抽取[J].河北大学学报（自然科学版）,2001,21(4):431-437. 被引量：19

共引文献37

1岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
2宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
3楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,33(1):71-73. 被引量：8
4刘颖,詹萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,24(6):53-58. 被引量：5
5翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
6翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
7严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
8彭莉,韩景生.玩具行业应对TBT风险预警系统的研究[J].玩具世界,2006(11):55-59.
9李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
10柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5

1冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
2朱敏,戴李君.基于SVM的文档图像的版式分析[J].计算机应用与软件,2012,29(8):245-247. 被引量：2
3李百怡,郑静华,张燕.网络课程页面版式分析[J].软件（教育现代化）（电子版）,2013,3(6):94-95.
4郑轶.基于条件随机场的人物信息抽取[J].计算技术与自动化,2015,34(4):132-136. 被引量：3
5蒋易强.基于本体的生产调度模型研究[J].深圳职业技术学院学报,2012,11(5):42-45.
6李卫东.基于DOM的半结构化网页信息抽取算法[J].河北省科学院学报,2009,26(1):21-24. 被引量：2
7金涛.网络爬虫在网页信息提取中的应用研究[J].现代计算机,2012,18(1):16-18. 被引量：11
8严宏伟,何俊.基于房源分析系统的垂直搜索引擎关键技术的探讨[J].中国科技信息,2007(5):153-155.
9李伟,黄颖.基于HtmlParser的网页信息提取[J].兵工自动化,2007,26(7):41-41. 被引量：4
10蔡霞,张森,周宇.模式发现在Web抽取中的应用及设计[J].控制工程,2003,10(3):227-229. 被引量：7

微计算机信息

2010年第12期

浏览历史

内容加载中请稍等...

基于语义和版式的网上人物信息提取

参考文献8

二级参考文献11

共引文献37

相关作者

相关机构

相关主题

浏览历史