摘要
介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则 在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 。
Extracting data from Web pages using wrappers is a fundamental problem arising in a large variety of applications of vast practical interests Proposed in this paper is a novel approach to the problem of automatically extracting data from Web pages It is based on the proposed page model that the data values are located in the semantic blocks, and semantic blocks are the main differences among HTML pages The approach automatically extracts data in four steps, discovering semantic blocks, differentiating roles on data items, inducing schema and computing extraction rule The intensive experiments on real Web sites show that the proposed approach can effectively extract desired data with high accuracies and with linear complexity
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1607-1613,共7页
Journal of Computer Research and Development
基金
国家自然科学基金项目 ( 60 0 73 0 14
60 2 73 0 18)
国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 2AA1160 3 0 )
教育部科学技术重点基金项目 ( 0 3 0 44 )
教育部优秀青年教师资助计划基金项目
关键词
WEB
抽取
自动
树结构
语义块
Web
extract
automatic
tree structure
semantic block