基于Heritrix的Web信息抽取被引量：6

Web Information Extraction Based on Heritrix

导出

摘要针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。 This paper introduces a method of accurate information extraction based on Heritrix according to the shortage of Web information extraction technology. The system is composed of three respective module. Different from usual way of information extraction, the method is focus on precision as well as generality. It can extract the minimum unit of information according to the field of table in database.

作者陈俊彬曹树金

机构地区中山大学资讯管理系

出处《图书情报工作》 CSSCI 北大核心 2009年第9期112-115,共4页 Library and Information Service

关键词 HERITRIX 信息抽取 HTMLPARSER Web数据采集 Heritrix information extraction HTMLparser Web information acquisition

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1蒲筱哥.基于Web的信息抽取技术研究综述[J].现代情报,2007,27(10):215-219. 被引量：18
2火善栋.基于网页结构特征的网页主要文本信息抽取策略[J].现代计算机,2008,14(4):73-75. 被引量：4
3金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
4冀高峰,汤庸,道炜,吴桂宾,黄帆,王鹏.基于XML的自动学习Web信息抽取[J].计算机科学,2008,35(3):87-90. 被引量：10
5Heritrix-home page. [2007 -06 - 10 ]. http://crawler. archive. org,/ .
6HTMLparser-home page [ 2007 - 06 - 15 ]. http://htmlparser sourceforge. net/.

二级参考文献62

1李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量：23
2王源,陈亚军.基于高斯混合模型的EM学习算法[J].山西师范大学学报（自然科学版）,2005,19(1):46-49. 被引量：18
3钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
4邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
5吴振慧.Web信息抽取的研究[J].电脑知识与技术,2006(12):21-21. 被引量：1
6Lawrence S, Giles C L. Searching the world wide web [J]. Science, 1998, 280 (4): 98-100,
7Grishman R, Sundheim B. message Understanding Conference on Computational Linguistics COLING - 96, 1996 - 08.
8http://www.cymfony.com/index.html[EB]. 2007. 5
9http://www.bhasha.com/[EB].2007.5.
10http://www.linguamaties.com/index.html [EB].2007. 5.

共引文献31

1柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
2宋玉忠.Web抽取技术在数字图书馆中的应用[J].四川图书馆学报,2009(3):46-49. 被引量：2
3王花,张阳.基于XPath和XSLT的农产品信息抽取系统[J].农机化研究,2010,32(6):186-189.
4王立建,尹四清.基于Web页面有效信息抽取的分类方法[J].电脑开发与应用,2010,23(6):71-73. 被引量：1
5陈诗琴,李文江.基于.NET的农产品市场行情信息采集——以重庆农产品市场行情查询网为例[J].现代图书情报技术,2010(6):88-92.
6谭锋,李天真,崔亮亮.Web信息抽取系统研究综述[J].科技创新导报,2010,7(34):2-2. 被引量：3
7柳佳刚,龙军,李泽军.一种用于Web信息抽取的页面信息本体自动学习方法[J].计算技术与自动化,2011,30(1):119-123. 被引量：2
8吴一占,马静,谭胜.基于本体学习与动态内容识别的信息抽取系统自优化研究[J].情报学报,2011,30(5):487-494. 被引量：1
9孙全红,张贞贞.基于树结构的Web表格信息抽取方法[J].华北水利水电学院学报,2011,32(3):108-110. 被引量：1
10王存昕,蒋文蓉.针对淘宝商家客户管理系统的研究与开发[J].上海第二工业大学学报,2011,28(2):165-170. 被引量：2

同被引文献100

1李春燕,张珊珊.近十年西文文献编目研究综述(1999-2008年)[J].图书馆建设,2009(11):47-51. 被引量：3
2张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
3冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12
4吴晓伟,宋文官,徐福缘.企业竞争情报分析方法来源及发展[J].情报杂志,2006,25(4):2-6. 被引量：23
5盛小平.构建以知识为中心的图书馆学学科体系[J].图书馆杂志,2006,25(3):3-7. 被引量：24
6周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
7吴晓伟,宋文官,徐福缘.竞争情报软件发展现状和趋势研究[J].情报杂志,2006,25(6):2-5. 被引量：27
8盛小平,吴菁.知识管理流派浅析[J].国家图书馆学刊,2007,16(1):55-61. 被引量：11
9何燕,穗志方,段慧明,李素建.基于专业术语词典的自动领域本体构造[J].情报学报,2007,26(1):65-70. 被引量：13
10梁冰,赵泽江.国内竞争情报软件比较评价研究[J].情报杂志,2007,26(6):70-72. 被引量：13

引证文献6

1詹佳佳.基于Web-Harvest的Web信息抽取系统的设计与应用[J].现代图书情报技术,2010(3):76-81. 被引量：1
2蔡卫平,艾新革.广州地区图书馆学研究综述(2009)[J].图书馆论坛,2010,30(6):151-155.
3王西锋,张晓孪.Web招聘信息抽取中命名实体识别的研究[J].计算机与数字工程,2012,40(5):34-37. 被引量：2
4吴菊英,贾炅昊,冯秀芳.基于农业领域的网络爬虫[J].电脑开发与应用,2012,25(8):30-32. 被引量：2
5宋继伟,石进,吕美香,牛青,陈彬,秦宝宝,董尹.信息情报化的关键——构建CIS分析模块的思考[J].图书情报工作,2012,56(24):33-38. 被引量：1
6徐春凤,王艳春,翟宏宇.全自动网页信息采集系统[J].长春理工大学学报（自然科学版）,2015,38(2):151-154. 被引量：5

二级引证文献11

1谭锋,李天真,崔亮亮.Web信息抽取系统研究综述[J].科技创新导报,2010,7(34):2-2. 被引量：3
2文益民,易新河,李忧喜,文博奚.高校人才培养全过程与信息技术深度融合中的数据挖掘[J].高教论坛,2016(4):18-24. 被引量：7
3张爽.互联网页面信息的采集与处理技术分析[J].信息系统工程,2016,29(6):29-29.
4张锋.基于URL和网页类型的网页信息采集研究[J].电子制作,2017,0(2):28-29.
5吴永亮,贾志杰,陈建平,朱月琴.基于大数据智能的找矿模型构建与预测[J].中国矿业,2017,26(9):79-84. 被引量：13
6郭培铭.基于文献特征提取网页信息的算法研究[J].现代计算机,2019,25(2):37-40.
7谭翔纬.基于主题的网络爬虫系统的研究与实现[J].科学与信息化,2016,0(22):28-30.
8方玉萍,万荣,方达.中文文本未登录词识别的研究[J].电脑知识与技术,2019,15(7Z):203-204.
9王晓楠,李杨,张海峰,张宇,杨雪峰.网络爬虫技术在农业生产数据获取中的研究和应用[J].农业工程技术,2021,41(3):49-51.
10马丽丽,杨硕.科学数据情报化及其在图书馆学科化服务中的应用研究[J].图书馆界,2024(5):34-38.

1华京生,李萍.基于Heritrix+Lucene的高校图书馆网站全文搜索引擎构建[J].情报探索,2013(9):101-105. 被引量：1
2诸葛晴怡,佘静涛.校园网搜索引擎的研究与开发[J].浙江高校图书情报工作,2014(2):9-16. 被引量：1
3关原成.发明创造知识讲谈[J].科学之友,2000(8):32-33.
4朱轶婷.面向文献建设需求的学科核心作者数据库构建策略研究[J].图书馆,2015(5):79-82. 被引量：2
5张莉萍.基于领域本体构建的Web信息抽取[J].嘉兴学院学报,2010,22(6):107-111. 被引量：4
6龙丽,庞弘燊.国外Web信息抽取研究综述[J].图书馆学刊,2008,30(5):13-16. 被引量：8
7顾玮玮.浅析家庭档案的特点、功能和普及的基本要求[J].档案与建设,2009(11):18-19. 被引量：4
8白如江,王效岳,亢丽芸.基于Heritrix的网络学术文献获取研究[J].图书情报工作,2012,56(11):99-104. 被引量：2
9张春雅.专利文献源的情报功能及开发利用[J].四川电力技术,1997,20(1):19-22.
10潘仁彬.关于图书馆目录中的几个概念的思考[J].图书馆学研究,1988(6):81-83.

图书情报工作

2009年第9期

浏览历史

内容加载中请稍等...

基于Heritrix的Web信息抽取被引量：6

参考文献6

二级参考文献62

共引文献31

同被引文献100

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Heritrix的Web信息抽取 被引量：6

参考文献6

二级参考文献62

共引文献31

同被引文献100

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Heritrix的Web信息抽取被引量：6