期刊文献+

一种基于树结构的Web数据自动抽取方法 被引量:21

Automatically Extracting Web Data Using Tree Structure
下载PDF
导出
摘要 介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则 在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 。 Extracting data from Web pages using wrappers is a fundamental problem arising in a large variety of applications of vast practical interests Proposed in this paper is a novel approach to the problem of automatically extracting data from Web pages It is based on the proposed page model that the data values are located in the semantic blocks, and semantic blocks are the main differences among HTML pages The approach automatically extracts data in four steps, discovering semantic blocks, differentiating roles on data items, inducing schema and computing extraction rule The intensive experiments on real Web sites show that the proposed approach can effectively extract desired data with high accuracies and with linear complexity
出处 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1607-1613,共7页 Journal of Computer Research and Development
基金 国家自然科学基金项目 ( 60 0 73 0 14 60 2 73 0 18) 国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 2AA1160 3 0 ) 教育部科学技术重点基金项目 ( 0 3 0 44 ) 教育部优秀青年教师资助计划基金项目
关键词 WEB 抽取 自动 树结构 语义块 Web extract automatic tree structure semantic block
  • 相关文献

参考文献7

  • 1Meng X F, Lu H J, Wang H Y, et al. SG-WRAP: A schemaguided wrapper generator demonstration. In: Proc of ICDE'2002. Los Alamitos, CA: IEEE Computer Society Press, 2002.331 ~332
  • 2Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web-data extraction. In: Proc of ACM WIDM' 2003. New York: ACM Press, 2003. 1~8
  • 3Meng X F, Wang H Y, Hu D D, et al. Sg-wram: Schema guided wrapper maintenance. In: Proc of ICDE' 2003. Los Alamitos,CA: IEEE Computer Society Press, 2003. 750~752
  • 4Meng X F, Lu H J, Wang H Y, et al. Schema-guided data extraction from the Web. Journal of Computer Science and Technology, 2002, 17(4): 377~388
  • 5V Crescenzi, G Mecca, P Merialdo. ROADRUNNER: Towards automatic data extraction from large Web sites. In: Proc of VLDB'2001. San Francisco, CA: Morgan Kaufmann, 2001. 109~118
  • 6A Arasu, H Garcia-Molina. Extracting structured data from Web pages. In: Proc of ACM SIGMOD'03. New York: ACM Press,2003. 337~348
  • 7St(e)phane Grumbach, Giansalvatore Mecca. In search of the lost schema. In: Proc of ICDT'1999. Berlin: Springer, 1999. 314~331

同被引文献161

引证文献21

二级引证文献60

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部