半结构化网页中多记录信息的自动抽取方法被引量：2

Automatic Information Extraction from Semi-structured and Multi-record Web Pages

下载PDF

导出

摘要从多记录网页中准确的自动抽取出需要的信息,是Web信息处理中的一个重要研究课题。针对现有方法对噪声敏感的缺点,该文提出了基于记录子树的最大相似度发现记录模式的思想,以在同类记录的表现模式存在一定差异的情况下正确识别记录。在此基础上,实现了多记录网页自动抽取系统,该系统可以从多个学术论文检索网站中,自动获取结果网页,并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。 Extracting information effectively and accurately from semi - structured web pages is an important research problem in Web Information processing. Traditional algorithms are sensitive to noise. This paper puts forward a method for discovering the record model based on Maximal Similar Sub Tree, to identify records automatically and correctly when there are some differences in expression models of records that belong to the same type. Furthermore, a multi - record web page extraction system was is to extract information from result pages of paper searching websites automatically. The experiments made through with some common paper searching websites have demonstrated that this system has high efficiency and accuracy.

作者朱明王庆伟

机构地区中国科学技术大学自动化系

出处《计算机仿真》 CSCD 2005年第12期95-97,142,共4页 Computer Simulation

基金 863重大专项3TNET"宽带信息网流媒体业务分发集成平台的研制"(2003AA103810)

关键词互联网挖掘信息集成自动信息抽取 Web mining Information integration Automatic information extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Alberto H F Laender,Berthier A Ribeiro-Neto,Altigran S da Silva,Juliana S Teixeira.A brief survey of Web data extraction tools[J].ACM SIGMOD Record,June 2002,31(2):84-93.
2Valter Crescenzi,Giansalvatore Mecca,Paolo Merialdo.RoadRunner:Towards Automatic Data Extraction from Large Web Sites[C].Proceedings of the 27th International Conference on Very Large Data Bases,September 2001.109-118.
3Arvind Arasu.Hector Garcia-Molina.Extracting Structured Data from Web Pages[C].Proceedings of the 2003 ACM SIGMOD international conference on on Management of data,June 2003.337-348.
4Saikat Mukherjee,Guizhen Yang,Wenfang Tan,I V Ramakrishnan.Automatic Discovery of Semantic Structures in HTML Documents[C].Proceedings of the Seventh International Conference on Document Analysis and Recognition,August 2003.245-245.

同被引文献19

1何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
4王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
5潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
6Tombros A;Ali Z Factors Affecting Web Page Similarity 2005
7Dhyani D;Ng W K;Bhowmick S S A Survey of Web Metrics [外文期刊] 2002(04) DOI:10.1145/592642.592645
8Lin Z;King I;Lyu M R PageSim:A Novel Link-based Similarity Measure for the World Wide Web 2006
9Jeh G;Widom J SimRank:A Measure of Structural-Context Similarity 2002
10Lee M;Kim Y;Lee K Logical structure analysis:From HTML to XML [外文期刊] 2007(01) DOI:10.1016/j.csi.2006.02.001

引证文献2

1宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
2张瑞雪,宋明秋,公衍磊.逆序解析DOM树及网页正文信息提取[J].计算机科学,2011,38(4):213-215. 被引量：15

二级引证文献17

1王红艳,朱全银,严云洋,钱进.商品价格数据的两种WEB挖掘算法比较[J].微电子学与计算机,2011,28(10):168-172. 被引量：3
2朱学芳,冯曦曦.基于文本内容的农业网页信息抽取和分类研究[J].情报科学,2012,30(7):1012-1015. 被引量：3
3刘成,张凯,陈建勋.混合方式数据验证方案的研究[J].计算机工程与设计,2013,34(1):366-371. 被引量：1
4彭伟.Web气象信息树型提取算法与LED显示设计[J].实验室研究与探索,2013,32(1):203-208. 被引量：1
5倪晨,邱鹏,曹慧.基于B/S结构的中医药信息采集系统[J].山东科学,2013,26(4):56-59. 被引量：2
6邓俊,吾守尔.斯拉木,艾尼宛尔.托乎提,袁廷磊,赵志成.维吾尔文网页研究及Android维文浏览器的实现[J].中文信息学报,2014,28(1):118-124.
7吴茜,刘嘉勇,卿粼波.基于VIPS算法和模糊字典匹配的网页提取技术研究[J].信息网络安全,2014(10):49-53. 被引量：4
8王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2
9刘峰,徐川,金晋,牛毅.一种基于动态SHIM的视频拖拽点播方案[J].现代电子技术,2014,37(24):9-11.
10秦春秀,赵捧未,刘成山.基于对等节点知识地图的P2P主题社区发现[J].情报学报,2015,34(3):267-278. 被引量：1

1李卫东.基于DOM的半结构化网页信息抽取算法[J].河北省科学院学报,2009,26(1):21-24. 被引量：2
2罗俊.“棱镜”事件与互联网挖掘[J].信息安全与通信保密,2013,11(12):87-91.
3刘晓东,刘大有.数据挖掘专利综述[J].电子学报,2003,31(z1):1989-1993. 被引量：8
4尹振鹤.浅议搜索引擎[J].无线互联科技,2014,11(5):117-117. 被引量：1
5孟宪虎.基于ASP和ADO的WEB信息处理的探讨和开发[J].运城高等专科学校学报,2001,19(3):12-14.
6屈静,马瑞竹,杜春龙.油田的自动化监控系统探析[J].中国新技术新产品,2010(16):40-40. 被引量：2
7冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
8张乐.子记录模式下二叉排序树的算法分析[J].河海大学学报（自然科学版）,1989,17(2):111-114.
9陶灿,朱颖.是德科技推出新一代6位半和7位半矗性能数字万用表[J].中国计量,2015,0(4):54-54.

计算机仿真

2005年第12期

浏览历史

内容加载中请稍等...

半结构化网页中多记录信息的自动抽取方法被引量：2

参考文献4

同被引文献19

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

半结构化网页中多记录信息的自动抽取方法 被引量：2

参考文献4

同被引文献19

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

半结构化网页中多记录信息的自动抽取方法被引量：2