期刊文献+

聚焦爬虫爬行性能研究

下载PDF
导出
摘要 爬虫作为网页搜索下载程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总结出三类制约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。
作者 黄昊晶
出处 《科技资讯》 2011年第21期13-14,共2页 Science & Technology Information
基金 广东水利电力职业技术学院中青年科研基金项目-Deep Web数据源发现与聚焦爬虫研究 项目编号:09002
  • 相关文献

参考文献4

二级参考文献62

  • 1余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量:1
  • 2沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量:17
  • 3蒋宗礼,赵钦,肖华,王蕊.高性能并行爬行器[J].计算机工程与设计,2006,27(24):4762-4766. 被引量:7
  • 4张三峰,吴国新.一种面向动态异构网络的容错非对称DHT方法[J].计算机研究与发展,2007,44(6):905-913. 被引量:1
  • 5中国互联网络发展状况统计报告[EB/OL].http://tech.qq.com/a/20080724/000277.htm.2008-9-27.
  • 6Arasu A, Cho J. Searching the Web[J]. ACM Transactions on Internet Technology, 2001,1 (1) : 2-43.
  • 7Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[A]//Proceedings of the 6th Conference on Symposium on Opear-ting Systems Design & Implementation[C]. San Francisco, CA, 2004: 10-10.
  • 8Ghemawat S, Gobioff H, Leung Shun-Tak. The Google File System[A]//Proeeedings of the 19th ACM Symposium on Operating Systems Principles[C]. 2003:20-43.
  • 9Pike R, Dorward S, Griesemer R. Interpreting the Data:Parallel Analysis with Sawzall [J]. Scientific Programming Journal, 2005,13:277-298.
  • 10Chang F, Dean J, Ghemawat S. Bigtable: A Distributed Storage System for Structured Data[A]//7th USENIX Symposium on Operating Systems Design and Implementation[C]. 2006:205- 218.

共引文献233

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部