期刊文献+

Heritrix在电子信息垂直搜索平台中的应用 被引量:2

Application of Heritrix in Vertical Search Platform of Electronic Information
下载PDF
导出
摘要 介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源. This paper mainly introduces the basic concepts of the vertical search engine and web crawler, and describes the architecture of Heritrix system, The Heritrix workflow is analyzed. Aiming at some imper- fections in Heritirx, our project designs how to grab directionally a certain type of information. The ELFHash algorithm is introduced. The multi-threaded crawl of information in the telecommunications information search platform is realized by extending the Heritrix to provide information source for the establishment of a vertical search enghae for electronic information.
作者 赵永鑫 雷霖
出处 《成都大学学报(自然科学版)》 2013年第2期156-158,共3页 Journal of Chengdu University(Natural Science Edition)
基金 四川省科技基础条件平台资助项目
关键词 HERITRIX ELFHash算法 多线程 电子信息 垂直搜索引擎 Heritrix ELFHash algorithm multi-threaded electronic information vertical search engine
  • 相关文献

参考文献6

二级参考文献52

  • 1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:153
  • 2黄建莲.中国搜索引擎服务市场的现状及发展[J].华北科技学院学报,2005,2(3):113-115. 被引量:8
  • 3沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量:17
  • 4严莉莉,王倩倩,孟杰,张燕平.基于聚类的个性化元搜索引擎设计[J].计算机技术与发展,2007,17(4):186-188. 被引量:7
  • 5车东.在应用中加入全文检索功能-基于Java的全文索引引擎Lucene简介[EB/OL].Http:www.chedong.com/tech/lucene.html,2002.
  • 6Lucene Open Source Material. Http ://lucene. apache. org/java/docs/ index. html.
  • 7陈光.Lucene研究之一[EB/OL].2004.http://www.jalorsoft.com/holen/holen_lucene_02.html.
  • 8罗刚,王振东.自己动手写网络爬虫[M].清华大学出版社,2011.
  • 9Pinkerton B. Finding what people want: experiences with the web crawler [ C ]//Proceedings of the Second World - Wide Web Conference. Chicago, Illinois : [ s. n. ], 1994.
  • 10Heritrix官方网站[EB/OL].[2011-04].http://crawler.archive.org.

共引文献182

同被引文献9

引证文献2

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部