摘要
爬虫作为网页搜索下载程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总结出三类制约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。
出处
《科技资讯》
2011年第21期13-14,共2页
Science & Technology Information
基金
广东水利电力职业技术学院中青年科研基金项目-Deep Web数据源发现与聚焦爬虫研究
项目编号:09002