基于扩展DOM树的Web页面信息抽取被引量：12

INFORMATION EXTRACTION FROM WEB PAGE BASED ON EXTENDED DOM TREE

下载PDF

导出

摘要随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强。多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式。针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document ObjectModel)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取。该算法能对多信息块的Web页面进行信息抽取。 With the development of Intemet,the amount as well as the density of information has increased day by day. Most of the time, a single web page contains several information blocks which are close in layout and have similar mode in HTML grammar. A method of information extraction is designed in dealing with multiple information-block web pages. First,the definition of an extended D0M tree is put forward, and a given web page is dispersed into pieces of information. Then, by combining the hierarchy information with the vision features and semantic information,these discrete pieces of information are aggregated into information blocks. Finally the information block are extracted out by depth-traversing the extended DOM tree. This algorithm is applicable in dealing with web pages containing several information blocks.

作者王磊蒋建中郭军利

机构地区解放军信息工程大学通信工程系

出处《计算机应用与软件》 CSCD 北大核心 2007年第6期137-139,共3页 Computer Applications and Software

关键词 DOM树信息抽取包装器半结构化 DOM tree Information extraction Wrapper Semi-structured

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Ashish,Knoblock.Wrapper Generation for Semi-structured InternetSources[J].SIGMOD Record,1997,26(4):8-15.
2Line Eikvil.Information Extraction from World Wide Web-A Survey[M].Report No.945,Norwegian Computing Center,ISBN 82-539-0429-0,July,1999.
3Bouras C,Kapoulas V,Misedakis I.A Web-page Fragmentation Technique for Personalized Browsing[C].ACM SAC 2004,March,14-17,2004.
4Arnaud Sahuguet,Fabien Azavant.Building Light-weight Wrappers for Legacy Web Data-sources Using W4F[C].International Conference on Very Large Databases,Edinburgh,Scotland,1999:738-741.
5Cai Deng,Yu Shipeng,Wen Jirong,Ma Weiying.VIPS:a Vision-based Page Segmentation Algorithm[R].Technicla Report MSR-TR-2003-79,November,2003.
6李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
7Joachim Hammer,Hector Garcia-Molina,Junghoo Cho.Extracting Semi-structured Information from the Web[C].Proceedings of the First Workshop on Management of Semi-structured Data,Tucson,Arizona,1997:18-25.
8张树瑜,朱仲英.基于MT决策树的Web信息抽取研究[J].计算机工程与应用,2004,40(13):69-71. 被引量：4

二级参考文献28

1苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：25
2Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
3Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
4Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
5Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
6Mitchell T. Machine Learning. New York: McGraw Hill, 1997
7Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
8Birbeck M et al. Professional XML. Wrox Press Inc, 2000
9Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621
10Chamberlin D, Robie J, Florescu D. Quilt: An XML query language for heterogeneous data sources. In: Proc International Workshop on the Web and Databases (WebDB'2000), Dallas, Texas, 2000. 53-62

共引文献102

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

同被引文献80

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2辛玉玲.搜索引擎相关技术研究概述[J].舰船电子工程,2008,28(10):37-39. 被引量：2
3傅灵丽,代俊秋,刘金河.Web应用系统的自动化测试解决方案[J].河北工业大学学报,2010,39(4):23-26. 被引量：4
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
6王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
7于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
8陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
9王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
10郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13

引证文献12

1谭鹏许,张来顺,滕婕.基于DTA的信息抽取技术研究[J].计算机应用与软件,2009,26(12):228-230.
2胡金柱,周星,舒江波,熊春秀.基于启发式规则的网页主题信息精确定位方法[J].计算机应用研究,2010,27(2):494-497. 被引量：6
3刘文杰,田伟,马廷淮,崔萌萌.一种基于网页DOM树的信息采集系统[J].武汉理工大学学报,2010,32(16):119-122. 被引量：3
4蔡李,单艳,薛化建,苏国平.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555. 被引量：3
5钱程,阳小兰.一种支持Ajax框架的网络爬虫的设计与实现[J].计算机与数字工程,2012,40(4):69-71. 被引量：3
6宋健豪,赵刚.基于启发式规则优化的网页元素提取方法[J].信息安全与技术,2012,3(6):66-69. 被引量：2
7杨文超,乔鸿.基于DOM树的可适应性多信息块Web信息抽取[J].网络安全技术与应用,2012(11):62-64. 被引量：1
8县小平.垂直搜索引擎探索[J].甘肃高师学报,2013,18(2):51-53.
9向程冠,熊世桓.一种基于特征树的Web碎片信息抽取算法[J].兰州理工大学学报,2014,40(1):104-107. 被引量：3
10孙学波,张大伟.一种基于分隔条的网页分块算法[J].计算机应用与软件,2014,31(7):286-289. 被引量：2

二级引证文献29

1龙珑,宁德鹏,宁葵.启发式规则网页主题定位方法绿网系统的应用[J].计算机技术与发展,2011,21(10):226-228.
2蔡李,单艳,薛化建,苏国平.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555. 被引量：3
3钱程,阳小兰.一种支持Ajax框架的网络爬虫的设计与实现[J].计算机与数字工程,2012,40(4):69-71. 被引量：3
4宋健豪,赵刚.基于启发式规则优化的网页元素提取方法[J].信息安全与技术,2012,3(6):66-69. 被引量：2
5冉兆春.针对移动终端的网页设计优化研究[J].计算机光盘软件与应用,2013,16(8):300-300.
6张超.基于DOM模式的成绩报送辅助系统的设计与实现[J].经济师,2013(6):147-148.
7李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3
8王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2
9邓垦,胡勇.基于DOM树的通用论坛抽取技术[J].网络安全技术与应用,2015(1):20-20. 被引量：1
10秦利波,宋言东.应用型本科院校网络教学平台构建模式研究[J].现代教育技术,2015,25(3):76-83. 被引量：11

1刘亚清,陈荣.基于隐马尔可夫模型的Web信息抽取[J].计算机工程,2009,35(18):25-27. 被引量：6
2于芳,胡山泉,肖伟东.基于ASP.NET平台对XML文件的深度遍历[J].湘南学院学报,2008,29(2):86-89. 被引量：1
3张洁.Java解析xml文件的研究与应用[J].硅谷,2014,7(6):120-120. 被引量：2
4贾素来.XML文档解析技术分析[J].电脑开发与应用,2007,20(2):63-63. 被引量：3
5刘必广.基于扩展DOM树的XML SCHEMA文档转换为数据库模式算法[J].武夷学院学报,2011,30(2):56-60.
6袁佳溢,路林吉.基于深度遍历的S7-300系列可编程控制器梯形图程序自动生成算法研究[J].微型电脑应用,2013(1):28-30.
7桂秀娟.静态网页制作设计[J].智富时代,2015,0(4X):203-203.
8王素萍.《电子商务网页制作》中HTML语法的教学探究[J].电子制作,2012,20(11X):87-87.
9陈莉莉,张丽,刘正龙.搜索引擎中基于状态的Ajax动态网页提取研究[J].计算机应用与软件,2013,30(7):217-220. 被引量：9
10谈谈网页设计中两个实用的IE小插件[J].软件王,2003(2):29-29.

计算机应用与软件

2007年第6期

浏览历史

内容加载中请稍等...

基于扩展DOM树的Web页面信息抽取被引量：12

参考文献8

二级参考文献28

共引文献102

同被引文献80

引证文献12

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于扩展DOM树的Web页面信息抽取 被引量：12

参考文献8

二级参考文献28

共引文献102

同被引文献80

引证文献12

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于扩展DOM树的Web页面信息抽取被引量：12