期刊文献+

基于Heritrix和Lucene的专题搜索引擎研究

Research on the topical search engine based on Heritrix and Lucene
下载PDF
导出
摘要 专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。 thematic search engine,also known as vertical search engines,mainly used to meet specific user needs.Heritrix is an open source Web crawler Heritrix the WebUI start way is not easy for the majority of users.Changed the usual Heritrix usage abandon the way of the Heritrix of WebUI start Heritrix source code be modified to integrate Lucene into Heritrix build into a complete search engine,and through the listener to monitor the status of the search engine,search engines can automatic crawling and data updates.Meanwhile,the paper added Web filtering module,and query results sorting algorithm has been improved,easy-to-use search engine and query accuracy.
作者 贾超 卫文学
出处 《中国科技信息》 2012年第10期95-96,共2页 China Science and Technology Information
关键词 专题搜索引擎 HERITRIX LUCENE 排序算法 thematic search engine Heritrix Lucene sorting algorithm
  • 相关文献

参考文献7

二级参考文献12

  • 1黄建莲.中国搜索引擎服务市场的现状及发展[J].华北科技学院学报,2005,2(3):113-115. 被引量:8
  • 2车东.在应用中加入全文检索功能-基于Java的全文索引引擎Lucene简介[EB/OL].Http:www.chedong.com/tech/lucene.html,2002.
  • 3Lucene Open Source Material. Http ://lucene. apache. org/java/docs/ index. html.
  • 4陈光.Lucene研究之一[EB/OL].2004.http://www.jalorsoft.com/holen/holen_lucene_02.html.
  • 5Heritrix项目网站[EB/OL].http://www.archive.org.
  • 6Mohr, G., Kimpton, M., Stack, M. Ranitovic, I. Introduction to Heritrix, an archival quality Web crawler [C]. Proceedings of the 4th International Web Archiving Workshop 2004.
  • 7Sigurdsson, K[J]. Adaptive revisiting in Heritrix. Master's thesis, University of Iceland.2005.
  • 8陈光.Lucene研究之一[EB/OL].http://www.jalorsoft.com/holen/holen_lucene_01.html.
  • 9刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量:14
  • 10关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量:4

共引文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部