一种基于扩展DOM树的Web数据自动抽取方法被引量：1

Automatically extracting web data based on expanded DOM tree

下载PDF

导出

摘要 Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果. Web data extraction is a hotspot of research nowadays, however, there is no uniform and effective extraction method up to now. This paper presents a research idea. At first, Web page DOM（document object model） tree was expanded and added with visual features and links features, then the nodes and sub trees＇ novelty degree of some similar pages＇ expanded DOM tree were calculated, and then the object data were identified in the light of sub trees＇ novelty and data were extracted according to the role of data, finally the object data were saved as XML documents. The experimental analysis validates that this method has better effect of data extraction.

作者陈远斌

机构地区哈尔滨工程大学网络信息中心

出处《应用科技》 CAS 2009年第8期52-55,共4页 Applied Science and Technology

关键词 WEB数据抽取扩展DOM树新颖度 Web data extraction expended DOM tree novelty degree

分类号 TN742.1 [电子电信—电路与系统]

引文网络
相关文献

参考文献8

1SAHUGUET A, AZAVANT F. WysiWyg Web Wrapper Factory (W4F)[ C]// Proceedings of WWW Conference. Colorado, 1999 : 32 -45.
2LIU L,PU C. An XML-enabled wrapper construction system for Web information sources [ C ]// Proceedings of the 16th International Conference on Data Engineering. San Diego, USA,2000 : 122-135.
3CRESCENZI V,MECCA G. RoadRunner: towards automatic data extraction from large Web site[ C]//27th VLDB. Roma, Italy ,2001:222-235.
4FINN A, KUSHMERICK A, SMYTH B. Fact or fiction:Content classification for digital libraries[ C ]//The 2nd DELOS Network of Excel-lence Workshop on Personalisation and Recommender Systems in Digital Libraries. Dublin, Ireland ,2001.
5KAASINEN E,AALTONEN M, KOLARI J ,et al. Two approaches to bringing Internet services to WAP devices [ C ]// Proc of the 9th Intel World Wide Web Conf on Computer Networks. Amsterdam : North-Holland Publishing Co, 2000 : 231-246.
6BUYUKKOKTEN O,GARCIA-MOLINA H, PAEPCKE A. Seeing the whole in part :Text summarization for Web browsing on handheld devices[C]//. Proc of the 10th Int Conf on World Wide Web. New York : ACM Press. 2001:652-662.
7胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
8张树瑜,杜国宁,朱仲英.基于Web的半结构化信息抽取技术研究[J].系统工程与电子技术,2004,26(5):610-612. 被引量：6

二级参考文献18

1苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
2Meng X F, Lu H J, Wang H Y, et al. SG-WRAP: A schemaguided wrapper generator demonstration. In: Proc of ICDE'2002. Los Alamitos, CA: IEEE Computer Society Press, 2002.331 ～332
3Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web-data extraction. In: Proc of ACM WIDM' 2003. New York: ACM Press, 2003. 1～8
4Meng X F, Wang H Y, Hu D D, et al. Sg-wram: Schema guided wrapper maintenance. In: Proc of ICDE' 2003. Los Alamitos,CA: IEEE Computer Society Press, 2003. 750～752
5Meng X F, Lu H J, Wang H Y, et al. Schema-guided data extraction from the Web. Journal of Computer Science and Technology, 2002, 17(4): 377～388
6V Crescenzi, G Mecca, P Merialdo. ROADRUNNER: Towards automatic data extraction from large Web sites. In: Proc of VLDB'2001. San Francisco, CA: Morgan Kaufmann, 2001. 109～118
7A Arasu, H Garcia-Molina. Extracting structured data from Web pages. In: Proc of ACM SIGMOD'03. New York: ACM Press,2003. 337～348
8St(e)phane Grumbach, Giansalvatore Mecca. In search of the lost schema. In: Proc of ICDT'1999. Berlin: Springer, 1999. 314～331
9Voert A. Automatic Extraction of Information Blocks Using PAT Trees ICI. Proc. of the National Computer Symposium, Taipei, Taiwan,1999(6) :223-226.
10John D. The Anatomy of Large-Scale Hypertertextual Web Search Engine[C]. In: Proc ofthe7th Int'l world wide Web Conf. Brisbane. Austrilian, 1999.

共引文献25

1邓绪斌,朱扬勇.ReDE:一个基于正则表达式的生物数据抽取方法[J].计算机研究与发展,2005,42(12):2184-2191. 被引量：8
2李石君,欧伟杰,简伟,黄河.基于有限状态自动机提取不规范表结构Web信息[J].武汉大学学报（工学版）,2005,38(6):128-132.
3陈海山,吴芸.广义表的二叉链式存储表示及其算法设计[J].计算机工程与应用,2005,41(35):38-41. 被引量：4
4王凯,王辉,渠芳.信息抽取系统在高校数字图书馆的应用[J].现代情报,2006,26(4):86-88. 被引量：3
5李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
6张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
7巫志勇.基于XMLHTTP的网站数据自动采集[J].福建电脑,2007,23(7):124-125. 被引量：2
8王昌辉,王远景.基于URL路径的Web信息检索模型的研究[J].贵州教育学院学报,2008,24(9):36-39. 被引量：6
9贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
10梁党卫,彭文滔,边利亚.垂直搜索引擎中过滤器的设计与实现[J].计算机应用与软件,2009,26(12):148-151. 被引量：2

同被引文献10

1刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
2王文钧,李巍.垂直搜索引擎的现状与发展探究[J].情报科学,2010,28(3):477-480. 被引量：32
3黄艳国,康裕荣,许伦辉.基于道路线形的加速度干扰与行车舒适性分析[J].中外公路,2011,31(3):287-290. 被引量：7
4马壮林,邵春福,胡大伟,马社强.高速公路交通事故起数时空分析模型[J].交通运输工程学报,2012,12(2):93-99. 被引量：39
5孔令铮.交通事故致因中的人为因素分析[J].中国安全科学学报,2013,23(1):28-34. 被引量：49
6康维新,曹宇亭.交通事件的语义理解[J].应用科技,2013,40(2):5-10. 被引量：3
7冯忠祥,雷叶维,张卫华,王锟,韩松.道路环境对绕城高速公路交通事故严重程度影响分析[J].中国公路学报,2016,29(5):116-123. 被引量：36
8岳丽欣,刘文云.国内外政府数据开放现状比较研究[J].图书情报工作,2016,60(11):60-67. 被引量：30
9王文博,陈红,韦凌翔.交通事故时间序列预测模型研究[J].中国安全科学学报,2016,26(6):52-56. 被引量：21
10李显生,李明明,任有,严佳晖,陈小夏.城市不同道路线形下的驾驶人注视特性[J].吉林大学学报（工学版）,2016,46(5):1447-1452. 被引量：8

引证文献1

1南春丽,史潇,裴勃丽.交通事故点相关道路线形Web数据获取[J].应用科技,2017,44(6):36-40. 被引量：1

二级引证文献1

1秦雅琴,马玲玲.网络爬虫技术在交通信息获取中的应用综述[J].武汉理工大学学报（交通科学与工程版）,2020,44(3):456-461. 被引量：10

1采用多普勒雷达的目标识别处理[J].电光系统,2002(2):48-51.
2马林.雷达目标识别技术综述[J].现代雷达,2011,33(6):1-7. 被引量：26
3便于显示Web页的工具：大型显示器[J].电子产品世界,1997,4(3):51-51.
4洪留荣.Web页中的三种通信[J].微型机与应用,1999,18(7):57-58.
5张宗福.一种基于LCS的微博相似页面检测方法[J].集成技术,2013,2(3):5-9.
6段勤,王丽芳,将泽军.基于微核结构的可二次开发语音平台[J].航空计算技术,2010,40(5):103-106.
7李华.酷!!! 电视冲浪[J].中国经济和信息化,1998(1):43-43.
8董晓宁,张萌.基于凌阳单片机的语音识别系统设计[J].电子工程师,2008,34(2):18-21. 被引量：5
9陈多.Java Applet通讯技术的实现[J].湖南工程学院学报（自然科学版）,2005,15(2):69-71. 被引量：1
10熊光彩,莫蓉,赵歆波,张定华.XML文档对象模型研究与应用[J].计算机工程与设计,2002,23(5):1-4. 被引量：8

应用科技

2009年第8期

浏览历史

内容加载中请稍等...

一种基于扩展DOM树的Web数据自动抽取方法被引量：1

参考文献8

二级参考文献18

共引文献25

同被引文献10

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于扩展DOM树的Web数据自动抽取方法 被引量：1

参考文献8

二级参考文献18

共引文献25

同被引文献10

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于扩展DOM树的Web数据自动抽取方法被引量：1