期刊文献+

基于网页结构树的Web信息抽取方法 被引量:24

Web Information Extraction Based on Web Structure Tree
下载PDF
导出
摘要 提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。 This paper proposes an algorithm that is used to construct the Web structure tree and a Web information extraction method based on Web page structure tree. While extracting information, it locates the information that should be extracted in the Web page structure tree and matches the pattern information with the terminal information in Web page structure tree. The Web information extraction is the terminal information extraction in Web page structure tree. This method can efficiently extract information from Web pages.
作者 陈琼 苏文健
出处 《计算机工程》 EI CAS CSCD 北大核心 2005年第20期54-55,140,共3页 Computer Engineering
基金 国家自然科学基金资助项目(60003019) 广东省自然科学基金资助项目(990582) 广东省科技攻关资助项目项目(C10201)
关键词 信息抽取 半结构 网页结构树 模式 Information extraction Semi-structure Web page structure tree Pattern
  • 相关文献

参考文献5

  • 1Laender H F, Ribeiro-Neto B A, A S da Silva, et al.A Brief Survey of Web Data Extraction Tools.SIGMOD Record, 2002, 31(2): 84-93
  • 2Sahuguet A, Azavan F.Building Intelligent Web Applications Using Lightweight Wrappers.Data and Knowledge Engineering, 2001,36 (3), 283-316
  • 3Crescenzi V, Mecca G, Merialdo P.RoadRunner: Towards Automatic Data Extraction from Large Web Sites.Rome, Italy: In: Proceeding of the 26th International Conference on Very Large Database Systems, 2001:109-118
  • 4Liu L, Pu C, Han W.XWRAP: An XML-enable Wrapper Construction System for Web Information Sources.San Diego, California: In: Proceedings of the 16th IEEE International Conference on Data Engineering, 2000: 611-621
  • 5李晶,陈恩红.Web信息抽取[J].计算机科学,2003,30(6):78-81. 被引量:17

二级参考文献1

共引文献16

同被引文献157

引证文献24

二级引证文献54

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部