基于子树匹配的交互式Web数据抽取方法被引量：8

Approach for Interactive Web Data Extraction Based on Sub-tree Matching

下载PDF

导出

摘要查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。 There is high structural comparability among the HTML codes of Web data rows in query-related Web pages, Naturally, the structures of sub DOM trees are similar to each other, An approach based on sub-tree matching algorithm for interactive query related Web data extraction is represented, The result of the experiment shows high accuracy in terms of recall and precision.

作者张慧颖曲著伟

机构地区天津大学管理学院

出处《计算机工程》 CAS CSCD 北大核心 2006年第9期78-80,共3页 Computer Engineering

关键词 WEB数据抽取 Top-down树匹配 DOM Web data extraction Top-down tree matching DOM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Arasu A,Garcia-Molina H.Extracting Structured Data from Web Pages[C].ACM SIGMOD'03,2003:337-348.
2Valiente G.An Efficient Bottom-up Distance Between Trees[C].Proc.of the 8^th International Symposium on String Processing and Information Retrieval,Santiago,Chile,2001:212-219.
3Ribeiro-Neto B,Alberto H F,da Silva L A S.Top-down Extraction of Semi-structured Data[Z].IEEE Computer Society,1999:176-184.
4Selkow S M.The Tree-to-tree Editing Problem[J].Information Processing Letters,1977,6(6):184-186.

同被引文献45

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2扎西次仁.《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J].中国藏学,1997(2):122-133. 被引量：19
3欧阳柳波,李学勇,杨贯中,李国徽.基于近似匹配模型的XML元数据检索[J].计算机应用,2005,25(4):820-823. 被引量：9
4王煜,王光明.比较购物现状之研究[J].计算机时代,2005(8):1-2. 被引量：5
5富平.国家数字图书馆标准规范建设[J].国家图书馆学刊,2005,14(4):13-16. 被引量：12
6刘宣春.学位论文库元数据标准的研究[J].现代图书情报技术,2005(12):63-66. 被引量：3
7荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
8吴鹏,强韶华,苏新宁.政府信息资源元数据描述框架研究[J].中国图书馆学报,2007,33(1):66-68. 被引量：8
9土弥三菩扎.藏文文法四种合编[M].北京:民族出版社,2005.
10刘汇丹,芮建武,吴建.藏文网页的编码识别与转换[M]//民族语言文字信息技术研究.北京:西苑出版社,2007.

引证文献8

1陈晓锋,张凌,董守斌.基于XPath比较的Web数据抽取方法[J].郑州大学学报（理学版）,2007,39(2):161-166. 被引量：4
2珠杰,欧珠,格桑多吉.基于DOM修剪的藏文Web信息提取[J].计算机工程,2008,34(24):58-60. 被引量：7
3刘书华,陈国奎.基于PowerBuilder的网页数据抓取[J].计算机系统应用,2009,18(2):171-175. 被引量：9
4刘桂峰,李林,崔志明.一种自动抽取Web数据对象的方法[J].计算机应用与软件,2009,26(6):48-51. 被引量：2
5曲著伟,李敏强.基于数据区域发现的信息抽取规则生成方法[J].计算机工程,2009,35(22):59-61. 被引量：4
6冯秀珍,陈旎.电子资源元数据的自动识别研究[J].情报杂志,2010,29(4):130-133. 被引量：3
7王旭仁,杨硕,何发镁,王彦丽,张为群.Web页面细粒度数据抽取方法研究[J].计算机工程与设计,2014,35(2):700-704.
8赵迎,鲁阳,凌静,江凌云.基于树的物联网标识识别算法的研究[J].计算机技术与发展,2019,29(8):42-46.

二级引证文献29

1庞秋奔,顾平,杨小梅.基于分块重要性模型与Xpath的Web信息抽取的研究[J].计算机与现代化,2009(8):73-75.
2欧永红,姚耀文.一种基于IE缓存的Web图片获取方法[J].计算机系统应用,2009,18(12):208-211. 被引量：2
3李波,孙建.通用网页数据采集系统设计[J].科技与生活,2010(2):17-17.
4胡立明.因特网信息抓取的研究与探讨[J].黑龙江科技信息,2010(9):76-76. 被引量：1
5陈洪平,方巍,李林,崔志明.复杂Web页的Wrapper自动化生成技术研究[J].微电子学与计算机,2010,27(4):62-65.
6詹佳佳.基于Web-Harvest的Web信息抽取系统的设计与应用[J].现代图书情报技术,2010(3):76-81. 被引量：1
7珠杰,罗潘.基于HTML Parser的网页信息提取技术研究[J].西藏大学学报（社会科学版）,2010,25(3):41-44. 被引量：3
8龚成清.基于linux的网页抓取器的设计[J].电脑开发与应用,2011,24(2):73-74. 被引量：1
9张志远,徐涛,冯霞.航班信息抽取规则的自动生成技术[J].计算机工程,2011,37(6):65-67. 被引量：2
10范宝梅,韩勇,齐永阳.个性化电子地图中用户信息订制服务的实现[J].地理空间信息,2011,9(2):144-146. 被引量：1

1董长林.ASP与数据库在网站开发中的应用[J].陕西气象,2007(1):38-40. 被引量：4
2陈建军.XML数据服务器的构建方案[J].宁波大学学报（理工版）,2003,16(2):161-163.
3孔振宇,迟关心,马骏,刘晋春.交互式Web与CGI编程技术[J].微型机与应用,1997,16(10):43-44.
4刘兴卫,张志浩,陈福民.交互式Web开发技术PHP与Oracle数据库访问[J].计算机应用研究,2001,18(8):92-94. 被引量：5
5卢春燕,雷景生.基于模糊关联的交互式Web信息检索技术[J].广西师范大学学报（自然科学版）,2007,25(2):107-110. 被引量：4
6李坚,张大力.开发动态交互式Web的关键技术[J].计算机应用研究,1999,16(10):45-47. 被引量：10
7樊孝忠,傅继彬,王劲松.基于CSCW的交互式Web教学系统[J].北京理工大学学报,2001,21(1):137-140. 被引量：1
8古超,王静..NET下AJAX技术的研究与应用[J].微计算机应用,2007,28(7):780-784. 被引量：3
9林建明,陈庆章,赵小敏,吕凌燕.交互式Web应用的JSP实现方案[J].计算机工程,2001,27(8):183-185. 被引量：6
10陈淑敏,张瑞军.ASP技术在电子商务中的应用[J].集团经济研究,2007(08Z):310-310.

计算机工程

2006年第9期

浏览历史

内容加载中请稍等...

基于子树匹配的交互式Web数据抽取方法被引量：8

参考文献4

同被引文献45

引证文献8

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于子树匹配的交互式Web数据抽取方法 被引量：8

参考文献4

同被引文献45

引证文献8

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于子树匹配的交互式Web数据抽取方法被引量：8