期刊文献+

基于Heritrix的Web信息抽取 被引量:6

Web Information Extraction Based on Heritrix
原文传递
导出
摘要 针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。 This paper introduces a method of accurate information extraction based on Heritrix according to the shortage of Web information extraction technology. The system is composed of three respective module. Different from usual way of information extraction, the method is focus on precision as well as generality. It can extract the minimum unit of information according to the field of table in database.
出处 《图书情报工作》 CSSCI 北大核心 2009年第9期112-115,共4页 Library and Information Service
关键词 HERITRIX 信息抽取 HTMLPARSER Web数据采集 Heritrix information extraction HTMLparser Web information acquisition
  • 相关文献

参考文献6

二级参考文献62

共引文献31

同被引文献100

引证文献6

二级引证文献11

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部