一种基于树结构的Web数据自动抽取方法被引量：21

Automatically Extracting Web Data Using Tree Structure

下载PDF

导出

摘要介绍了一种基于树结构的自动从HTML页面中抽取数据的方法在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大。 Extracting data from Web pages using wrappers is a fundamental problem arising in a large variety of applications of vast practical interests Proposed in this paper is a novel approach to the problem of automatically extracting data from Web pages It is based on the proposed page model that the data values are located in the semantic blocks, and semantic blocks are the main differences among HTML pages The approach automatically extracts data in four steps, discovering semantic blocks, differentiating roles on data items, inducing schema and computing extraction rule The intensive experiments on real Web sites show that the proposed approach can effectively extract desired data with high accuracies and with linear complexity

作者胡东东孟小峰

机构地区中国人民大学信息学院

出处《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1607-1613,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目 ( 60 0 73 0 14 60 2 73 0 18) 国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 2AA1160 3 0 ) 教育部科学技术重点基金项目 ( 0 3 0 44 ) 教育部优秀青年教师资助计划基金项目

关键词 WEB 抽取自动树结构语义块 Web extract automatic tree structure semantic block

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Meng X F, Lu H J, Wang H Y, et al. SG-WRAP: A schemaguided wrapper generator demonstration. In: Proc of ICDE'2002. Los Alamitos, CA: IEEE Computer Society Press, 2002.331 ～332
2Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web-data extraction. In: Proc of ACM WIDM' 2003. New York: ACM Press, 2003. 1～8
3Meng X F, Wang H Y, Hu D D, et al. Sg-wram: Schema guided wrapper maintenance. In: Proc of ICDE' 2003. Los Alamitos,CA: IEEE Computer Society Press, 2003. 750～752
4Meng X F, Lu H J, Wang H Y, et al. Schema-guided data extraction from the Web. Journal of Computer Science and Technology, 2002, 17(4): 377～388
5V Crescenzi, G Mecca, P Merialdo. ROADRUNNER: Towards automatic data extraction from large Web sites. In: Proc of VLDB'2001. San Francisco, CA: Morgan Kaufmann, 2001. 109～118
6A Arasu, H Garcia-Molina. Extracting structured data from Web pages. In: Proc of ACM SIGMOD'03. New York: ACM Press,2003. 337～348
7St(e)phane Grumbach, Giansalvatore Mecca. In search of the lost schema. In: Proc of ICDT'1999. Berlin: Springer, 1999. 314～331

同被引文献161

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2赫枫龄,左万利.利用超链接信息改进网页爬行器的搜索策略[J].吉林大学学报（信息科学版）,2005,23(1):59-63. 被引量：8
3彭智勇,罗义,单喆,李青.基于对象代理模型的工作流视图实现[J].计算机学报,2005,28(4):651-660. 被引量：7
4成瑜,何洁月.本体驱动的半结构化Web生物数据抽取[J].计算机工程,2006,32(5):192-194. 被引量：5
5朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
6李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
7张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
8许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
9陈晓锋,张凌,董守斌.基于XPath比较的Web数据抽取方法[J].郑州大学学报（理学版）,2007,39(2):161-166. 被引量：4
10刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41

引证文献21

1邓绪斌,朱扬勇.ReDE:一个基于正则表达式的生物数据抽取方法[J].计算机研究与发展,2005,42(12):2184-2191. 被引量：8
2李石君,欧伟杰,简伟,黄河.基于有限状态自动机提取不规范表结构Web信息[J].武汉大学学报（工学版）,2005,38(6):128-132.
3陈海山,吴芸.广义表的二叉链式存储表示及其算法设计[J].计算机工程与应用,2005,41(35):38-41. 被引量：4
4李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
5张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
6贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
7陈远斌.一种基于扩展DOM树的Web数据自动抽取方法[J].应用科技,2009,36(8):52-55. 被引量：1
8袁鸿雁.基于本体的HTML表格识别技术的研究[J].长春工程学院学报（自然科学版）,2010,11(1):108-110.
9陈洪平,方巍,李林,崔志明.复杂Web页的Wrapper自动化生成技术研究[J].微电子学与计算机,2010,27(4):62-65.
10王宇,谭松波,廖祥文,曾依灵.基于扩展领域模型的有名属性抽取[J].计算机研究与发展,2010,47(9):1567-1573. 被引量：13

二级引证文献60

1步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
2赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
3陈海山,钱锋,田英,雷鸣.Josephus问题的算法设计与应用研究[J].计算机工程与应用,2007,43(1):61-64. 被引量：9
4孙玉强,王明斐,孙富琴,顾玉宛.语法分析存储结构的分析与操作算法[J].福建电脑,2007,23(2):22-22.
5朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37
6邓绪斌.一种无改写的正则表达式分析树构造算法[J].计算机应用与软件,2007,24(12):65-66. 被引量：2
7贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
8宋友,梁士兴,黄璐.通用文本处理方法的研究与设计[J].计算机工程,2010,36(6):1-4. 被引量：3
9姚振军,黄德根,纪翔宇.正则表达式在汉英对照中国文化术语抽取中应用[J].大连理工大学学报,2010,50(2):291-295. 被引量：9
10王敏.广义表存储结构与算法设计分析[J].延安大学学报（自然科学版）,2010,29(2):38-40. 被引量：2

1龚远超.Java和C++的区别[J].中国高新技术企业,2007(6):100-100.
2DDR2与DDR的主要区别[J].电脑自做,2004(8):100-100.
3朱建华.一种基于Web的新闻抽取方法[J].情报杂志,2010,29(B12):139-141.
4吴永琢.用VB构建Internet的应用[J].中国科技信息,2006(02A):75-75.
5张绪辉,罗忠.浅谈计算机网络中的服务[J].福建电脑,2007,23(9):58-59. 被引量：1
6罗娟,方锐,朱秋萍.Web与数据库技术[J].计算机工程,1998,24(8):42-44. 被引量：45
7王湘群.HTML页面与Domino/Notes文档数据的互换及其应用[J].微计算机应用,2006,27(4):419-421. 被引量：2
8王舒.从C++到Java[J].计算机应用研究,1997,14(3):55-58. 被引量：1
9张小莉,夏冉,姚建民.浅谈基于XML的web页面信息抽取方法的设计和实现[J].科技风,2008(1):74-74.
10张坤,赵璐.Visual Basic在计算机网络编程中的应用研究[J].今日科苑,2009(12):172-172.

计算机研究与发展

2004年第10期

浏览历史

内容加载中请稍等...

一种基于树结构的Web数据自动抽取方法被引量：21

参考文献7

同被引文献161

引证文献21

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

一种基于树结构的Web数据自动抽取方法 被引量：21

参考文献7

同被引文献161

引证文献21

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

一种基于树结构的Web数据自动抽取方法被引量：21