基于XPath比较的Web数据抽取方法被引量：4

Approach for Web Data Extraction Based on XPath Comparison

下载PDF

导出

摘要研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息. The method of extracting data from a Web page that contains several data blocks is studied. After the comparison of each data block＇s XPath, it can be found that they are very similar. Based on this observation, an XPath-comparison-base Extraction Rules Generation Algorithm（XERG） is proposed. When the data block extraction rules are ready, the inner-block information can be extracted by relative XPath or regular expressions. Experimental results show that this method is able to obtain data blocks and extract data from them very accurately.

作者陈晓锋张凌董守斌

机构地区华南理工大学广东省计算机网络重点实验室

出处《郑州大学学报（理学版）》 CAS 2007年第2期161-166,共6页 Journal of Zhengzhou University:Natural Science Edition

基金国家自然科学资金资助项目编号90412015 60603022

关键词 WEB数据抽取 XPath比较 XERG 正则表达式 Web data extraction XPath comparison XERG regular expression

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王煜,王光明.比较购物现状之研究[J].计算机时代,2005(8):1-2. 被引量：5
2张慧颖,曲著伟.基于子树匹配的交互式Web数据抽取方法[J].计算机工程,2006,32(9):78-80. 被引量：8
3Baumgartner R,Flesca S,Gottlob G.Visual Web information extraction with Lixto[C]∥Processing of the Very Large Data Bases (VLDB),Roma,Italy,2001:119-128.
4W3C.http:∥www.w3.org/DOM/.
5大洋书城:http:∥bookcity.dayoo.com.
6Lawrence S,Giles C L.Searching the World Wide Web[J].Science Magazine,1998,280:98-100.
7精彩网上书城:http:∥www.exvv.com.

二级参考文献7

1Arasu A,Garcia-Molina H.Extracting Structured Data from Web Pages[C].ACM SIGMOD'03,2003:337-348.
2Valiente G.An Efficient Bottom-up Distance Between Trees[C].Proc.of the 8^th International Symposium on String Processing and Information Retrieval,Santiago,Chile,2001:212-219.
3Ribeiro-Neto B,Alberto H F,da Silva L A S.Top-down Extraction of Semi-structured Data[Z].IEEE Computer Society,1999:176-184.
4Selkow S M.The Tree-to-tree Editing Problem[J].Information Processing Letters,1977,6(6):184-186.
5http://www marketingman.net/wmtheo/zh211.htm.网站评比:评比什么?如何评比?--美国主要评比网站的评比方法比较研究.2005.1
6Line Eikvil.Information Extraction from World Wide Web A Survey(199).Survery Report,1999.
7Alexa排名,一个不见硝烟的战场.http://www cfan.com cn/pages/20050301/890.htm,2005.2.

共引文献11

1何章鸿,董守斌.基于XPath的广告数据提取研究[J].江西师范大学学报（自然科学版）,2008,32(2):153-156. 被引量：1
2乔红.关于比较购物的分析研究[J].价格月刊,2008(11):65-66. 被引量：1
3珠杰,欧珠,格桑多吉.基于DOM修剪的藏文Web信息提取[J].计算机工程,2008,34(24):58-60. 被引量：7
4刘书华,陈国奎.基于PowerBuilder的网页数据抓取[J].计算机系统应用,2009,18(2):171-175. 被引量：9
5刘桂峰,李林,崔志明.一种自动抽取Web数据对象的方法[J].计算机应用与软件,2009,26(6):48-51. 被引量：2
6苏秀芝,楼新远.正则表达式与XML配置文件相结合的数据提取[J].计算机与现代化,2009(9):30-31. 被引量：2
7曲著伟,李敏强.基于数据区域发现的信息抽取规则生成方法[J].计算机工程,2009,35(22):59-61. 被引量：4
8冯秀珍,陈旎.电子资源元数据的自动识别研究[J].情报杂志,2010,29(4):130-133. 被引量：3
9普布卓玛.我国比较购物网站现状及发展对策研究[J].中国电子商务,2011(3):12-13.
10王旭仁,杨硕,何发镁,王彦丽,张为群.Web页面细粒度数据抽取方法研究[J].计算机工程与设计,2014,35(2):700-704.

同被引文献18

1胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3杨敬伟,杨文柱,高悦.基于DOM的Web信息抽取规则的构造与实现[J].河北大学学报（自然科学版）,2007,27(2):209-212. 被引量：5
4邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8
5Crescenzi V, Mecca G, Merialdo P. Roadrunner: towards automatic data extraction from large Web sites[ C]//Proceedings of the 27th International Conference on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001 : 109 - 118.
6Yang Jaeyoung, Tae- Hyung Kim, Joongmin Choi. An interface agent for wrapper - based information extraction [JJ. Lecture Notes in Computer Science, 2005 (3371):291 - 302.
7Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web - data extraction [ C ]// Proceedings of ACM WIDM'2003. New York: ACM Press, 2003: 1- 8.
8Arasu A, Garcia- Molina H. Extracting structured data from Web pages[C]//Proceedings of the 2003 ACM SIGMOD international conference on Management of data. New York: ACM Press, 2003 : 337 - 348.
9Zhu Jun, Nie Zaiqing, Wen Jirong, et al. Simultaneous record detection and attribute labeling in web data extraction[ C] // Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM Press, 2006:494- 503.
10Wang J, Lochovsky F. Data - rich section extraction from HTML pages [ C]//Proceedings of the 3rd International Conference on Web Information Systems Engineering. Washinglon: IEEE Computer Society, 2002: 313 - 322.

引证文献4

1庞秋奔,顾平,杨小梅.基于分块重要性模型与Xpath的Web信息抽取的研究[J].计算机与现代化,2009(8):73-75.
2陈洪平,方巍,李林,崔志明.复杂Web页的Wrapper自动化生成技术研究[J].微电子学与计算机,2010,27(4):62-65.
3马瑞民,钱浩.基于时间频率加权DOM的Web信息抽取方法[J].长江大学学报（自然科学版）,2011,8(1):86-88. 被引量：2
4刘斌,张晓婧.Web信息抽取系统的设计[J].微型电脑应用,2013(3):8-10. 被引量：2

二级引证文献4

1刘斌,张晓婧.Web信息抽取系统的设计[J].微型电脑应用,2013(3):8-10. 被引量：2
2高云.基于DOM验证蒙提霍尔悖论的设计与实现[J].山西大同大学学报（自然科学版）,2017,33(1):1-6.
3白钰洁.基于开始定界符的自动Web信息抽取[J].微型电脑应用,2019,35(11):141-142. 被引量：1
4朱焕亮.基于自动化测试框架的用例研究与实现[J].制造业自动化,2016,38(6):147-149. 被引量：2

1王艳,刘双红,罗慧敏.XML在Web数据抽取中的应用研究[J].郑州航空工业管理学院学报（社会科学版）,2005,24(4):150-151.
2张成洪,古晓洪,白延红.Web数据抽取技术研究进展[J].计算机科学,2004,31(2):129-131. 被引量：13
3仇岗,杨琴.Web数据抽取技术的研究和探讨[J].电子世界,2015(13):36-37. 被引量：1
4李贵,李征宇,陈韶刚,韩子扬,孙平,孙焕良.面向领域的Web数据抽取与集成[J].计算机科学,2013,40(06A):157-159. 被引量：1
5张小莉,夏冉,姚建民.浅谈基于XML的web页面信息抽取方法的设计和实现[J].科技风,2008(1):74-74.
6郑志军,林霞光,郑守淇.一种基于神经网络的数据挖掘方法[J].西安建筑科技大学学报（自然科学版）,2000,32(1):28-30. 被引量：14
7朱建华.一种基于Web的新闻抽取方法[J].情报杂志,2010,29(B12):139-141.
8王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量：21
9一种从网页中抽取评论内容的方法和装置[J].电脑与电信,2014(5):32-32.
10一种从网页中抽取评论内容的方法和装置[J].电脑与电信,2014,0(4):23-23.

郑州大学学报（理学版）

2007年第2期

浏览历史

内容加载中请稍等...

基于XPath比较的Web数据抽取方法被引量：4

参考文献7

二级参考文献7

共引文献11

同被引文献18

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于XPath比较的Web数据抽取方法 被引量：4

参考文献7

二级参考文献7

共引文献11

同被引文献18

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于XPath比较的Web数据抽取方法被引量：4