期刊文献+

基于Java技术的主题网络爬虫的研究与实现 被引量:7

Research and Realization of Topic Web Crawler Based on Java Technology
下载PDF
导出
摘要 主题网络爬虫的搜索策略是基于领域的搜索引擎的核心技术,爬虫搜索算法的性能直接关系着搜索引擎的性能。经过研究发现"最好优先算法"在重多搜索算法中表现的性能最优,但它本身也存在着收敛速度过快的缺陷,导致搜索引擎的"查全率"不高。针对这种情况,对"最好优先算法"做了调整与改进,并用Java技术给予了实现。 The search strategy of topic web crawler is the key technology of search engine based on the field.The function of crawler's search algorithm has direct impact on the function of search engine.The function of the Best-First algorithm is proved to be the best through research.But it has defect that its convergency speed is too quick.It's recall is not high.So,the Best-First algorithm is improved and realized by us.
出处 《微型电脑应用》 2009年第2期56-58,47,共4页 Microcomputer Applications
关键词 网络爬虫 专业搜索引擎 JAVA 线程 Web crawler Professional search engine Java Thread
  • 相关文献

参考文献5

  • 1Srmivasan P, Menczer F, Pant G.A general evaluation framework for topic crawler [ J ]. Information Retrieval, 2005,8(3):417447.
  • 2Heaton J. Programming Crawlers,Bots and Aggregators in Java [EB/OL]. http://www.jeffheaton.com2004.
  • 3Jeff Heaton[美],董兆丰译.网络机器人JAVA编程指南[M].北京:北京电子工业出版社.2002.238-252
  • 4佟晓筠等.面向主题的智能机器人ROBOT研究与实现.电子与信息学报,2003,25.
  • 5杜亚军,严兵,宋亮.爬行虫算法设计与程序实现[J].计算机应用,2004,24(1):33-35. 被引量:14

二级参考文献2

共引文献13

同被引文献35

引证文献7

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部