Heritrix在电子信息垂直搜索平台中的应用被引量：2

Application of Heritrix in Vertical Search Platform of Electronic Information

下载PDF

导出

摘要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源. This paper mainly introduces the basic concepts of the vertical search engine and web crawler, and describes the architecture of Heritrix system, The Heritrix workflow is analyzed. Aiming at some imper- fections in Heritirx, our project designs how to grab directionally a certain type of information. The ELFHash algorithm is introduced. The multi-threaded crawl of information in the telecommunications information search platform is realized by extending the Heritrix to provide information source for the establishment of a vertical search enghae for electronic information.

作者赵永鑫雷霖

机构地区西华大学数学与计算机学院成都大学电子信息工程学院

出处《成都大学学报（自然科学版）》 2013年第2期156-158,共3页 Journal of Chengdu University（Natural Science Edition）

基金四川省科技基础条件平台资助项目

关键词 HERITRIX ELFHash算法多线程电子信息垂直搜索引擎 Heritrix ELFHash algorithm multi-threaded electronic information vertical search engine

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2刘杰.垂直搜索引擎的应用研究[J].企业技术开发,2011,30(7):45-46. 被引量：3
3白坤,耿国华.基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J].计算机应用与软件,2009,26(1):212-215. 被引量：21
4朱敏,罗省贤.基于Heritrix的面向特定主题的聚焦爬虫研究[J].计算机技术与发展,2012,22(2):65-68. 被引量：7
5白万民,苏希乐.Heritrix在垂直搜索引擎中的应用[J].计算机时代,2011(9):7-9. 被引量：7
6邱哲,符滔滔,王学松.开发自己的搜索引擎——Lucene+Heritrix[M].北京:人民邮电出版社,2010.

二级参考文献52

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2黄建莲.中国搜索引擎服务市场的现状及发展[J].华北科技学院学报,2005,2(3):113-115. 被引量：8
3沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
4严莉莉,王倩倩,孟杰,张燕平.基于聚类的个性化元搜索引擎设计[J].计算机技术与发展,2007,17(4):186-188. 被引量：7
5车东.在应用中加入全文检索功能-基于Java的全文索引引擎Lucene简介[EB/OL].Http:www.chedong.com/tech/lucene.html,2002.
6Lucene Open Source Material. Http ://lucene. apache. org/java/docs/ index. html.
7陈光.Lucene研究之一[EB/OL].2004.http://www.jalorsoft.com/holen/holen_lucene_02.html.
8罗刚,王振东.自己动手写网络爬虫[M].清华大学出版社,2011.
9Pinkerton B. Finding what people want: experiences with the web crawler [ C ]//Proceedings of the Second World - Wide Web Conference. Chicago, Illinois : [ s. n. ], 1994.
10Heritrix官方网站[EB/OL].[2011-04].http://crawler.archive.org.

共引文献182

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：2
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
5李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
6孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
7王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
8陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
9李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1
10杜光芹,张化祥,赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,18(2):94-97. 被引量：3

同被引文献9

1Bin He, Mitesh pate.l, zhen zhang, et al. Accessing the deep web[J]. Communications of the ACM, 2007,50 (5) :94 - 101.
2Raghavan, S. , H. Garcia - Molina. Crawling the hidden web. 2000.
3Barbosa, L. , J. Freire,A. Silva. Organizing Hidden -Web Databases by Clustering Visible Web Docu- ments[C], in Data Engineering, 2007. ICDE 2007. IEEE 23rd International Conference on. 2007.
4Liu Dong Fei,Fan Xian Shuang.Study and Application of Web Crawler Algorithm Based on Heritrix[J].Advanced Materials Research.2011(219)
5朱敏,罗省贤.基于Heritrix的面向特定主题的聚焦爬虫研究[J].计算机技术与发展,2012,22(2):65-68. 被引量：7
6樊多妮,李禹生.基于Heritrix的网络主题爬虫算法研究与应用——以粮食网站交易信息为例[J].现代物业（下旬刊）,2012(9):97-100. 被引量：1
7张敏,孙敏.基于Heritrix限定爬虫的设计与实现[J].计算机应用与软件,2013,30(4):33-35. 被引量：13
8刘高军,夏景隆.基于Heritrix的网络爬虫研究与应用[J].软件导刊,2013,12(5):123-125. 被引量：4
9李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184. 被引量：45

引证文献2

1徐枫,归伟夏.基于Heritrix视频资源抓取的研究与实现[J].集成技术,2014,3(3):85-91. 被引量：1
2罗成,程耀东,胡庆宝,李海波.DeepWeb可配置聚焦爬虫设计与实现[J].核电子学与探测技术,2014,34(3):353-358. 被引量：3

二级引证文献4

1邓炳光,郭慧兰,张治中.移动互联网用户行为分析系统中聚焦爬虫的设计与实现[J].重庆邮电大学学报（自然科学版）,2015,27(3):359-365. 被引量：4
2魏少鹏,夏小玲.基于Chrome扩展的爬虫系统设计与实现[J].软件导刊,2016,15(3):76-80. 被引量：5
3高琰,余游,冯林.大数据情报分析平台在图书馆管理与服务中的应用[J].四川图书馆学报,2018(3):29-32. 被引量：6
4杨云鹏.互联网存档中的视频采集研究--以国家图书馆为例[J].新世纪图书馆,2021(3):22-26.

1刘■,王若梅.Hash算法在人工智能软件开发中的应用[J].软件,1994,15(3):26-31.
2柯品惠,郑秋鸿.Hash函数研究综述[J].福建电脑,2008,24(12):1-4. 被引量：9
3张琴.电子商务安全威胁与技术探析[J].科技广场,2009(3):96-97.
4王健.最超值的电视盒子天敏ELF电视精灵[J].电脑爱好者,2013(20):109-109.
5邹岳琳,王天军.基于Heritrix和Lucene的电力新闻垂直搜索引擎研究与实现[J].电子技术与软件工程,2016(3):23-23.
6陈浩,关巍.基于Heritrix体系结构的垂直搜索引擎研究[J].电脑知识与技术,2012,8(5X):3662-3664. 被引量：1
7陈本源,陈飞旭.微型C编译器设计[J].现代计算机,2015,21(12):60-66.
8王琦,张戈,何婧.基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J].计算机时代,2010(2):12-14. 被引量：6
9“电脑维修”栏目定向征稿启示[J].家电维修（大众版）,2012(4):34-34.
10用新版微博发定向微博[J].电脑迷,2012(10):92-92.

成都大学学报（自然科学版）

2013年第2期

浏览历史

内容加载中请稍等...

Heritrix在电子信息垂直搜索平台中的应用被引量：2

参考文献6

二级参考文献52

共引文献182

同被引文献9

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Heritrix在电子信息垂直搜索平台中的应用 被引量：2

参考文献6

二级参考文献52

共引文献182

同被引文献9

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Heritrix在电子信息垂直搜索平台中的应用被引量：2