期刊文献+

抽取Web信息的包装器归纳学习构造 被引量:2

Wrapper Induction Generation for Extracting the Web Infomation
下载PDF
导出
摘要 开发Web信息集成系统的关键是为需集成的各个Web信息源构造包装器。鉴于存在的HTLR类包装器对需抽取信息的Web页限制过严,影响了其表达能力,该文扩展了HTLR,提出了DHTLR类包装器的概念和归纳学习构造算法,较HTLR增强了表达能力,能适用于更广泛的信息源。 The key component in the Web information integration system is the wrapper construction for each Web sites needed. To deal with this problem that existing HTLR class of wrapper is too restrict to the Web pages extracted and narrow the applicability, this paper extends the HTLR wrapper, presenting the DHTLR class of wrapper and the induction generation algorithm. The DHTLR wrapper improves the HTLR wrapper , so its more applicable and can be used in more Web sites.
出处 《计算机工程》 CAS CSCD 北大核心 2003年第17期60-62,共3页 Computer Engineering
基金 国家自然科学基金项目(60173045) 武汉大学青年科研基金项目(9910)
关键词 信息集成 信息抽取 包装器归纳学习 Information integration Information extraction Wrapper induction
  • 相关文献

参考文献3

  • 1Kushmerick N. Wrapper Inductin for Information Extraction [PHD thesis]. Computer Science Dept. University of Washington,1997.
  • 2Hammer J, Breunig M, Garcia-Molina H. Template-based Wrappers in the "FSIMMIS System. In Procccdings of23^rd ACM SIGMOD International Conference on Management of Data, Tucson, Arizona, 1997.
  • 3Kushmerick N. Wrapper Induction: Etticiency aald Expressiveness.Artificial Intelligence, 2000,118 (1-2): 15-68.

同被引文献8

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部