期刊文献+

基于Scrapy技术的分布式爬虫的设计与优化 被引量:5

下载PDF
导出
摘要 随着全球信息技术的发展,互联网中的信息量呈爆炸式增长,人们对信息的需求量也与日俱增,而传统的单机平台的爬虫技术已经无法实现现如今互联网中大量数据的获取。本文旨在设计一个基于Redis的主从模式分布式爬虫系统来突破传统单机爬虫的限制。本文中的爬虫系统基于python语言的Scrapy框架具体实现。此外,为了实现分布式,该系统还使用了Redis数据库进行url存储与调度分配,最终使用Mongo Db数据库储存解析后的网页信息。本文也对该系统进行了一定优化,首先,本文采用半分布式拓扑结构优化了整体主从架构;同时本文也采用二级哈希映射算法优化URL的分配,解决了系统内节点动态加入或退出对系统的影响;初次之外,本文还采用去重与增量爬取优化了服务器的资源效率并使用代理ip的方式来应对部分网站的防爬虫屏蔽现象。
作者 刘泽华 赵文琦 张楠 LIU Ze-hua;ZHAO Wen-qi;ZHANG Nan
机构地区 北京邮电大学 不详
出处 《信息技术与信息化》 2018年第2期121-126,共6页 Information Technology and Informatization
基金 “北京邮电大学大学生研究创新基金”资助~~
  • 相关文献

参考文献1

二级参考文献13

  • 1Loo B T,Cooper O,Krishnamurthy S.Distributed web crawling over DHTs[R].University of California,Berkeley,2004.
  • 2Singh A,et al.Apoidea:A Decentralized Peer-to-Peer Architecture for Crawling the World Wide Web Distributed Multimedia Information Retrieval[J].Distributed Multimedia Information Retrieval(Lecture Notes in Computer Science),2004,2924:126-142.
  • 3Boldi P,et al.UbiCrawler:a scalable fully distributed Web crawler[J].Software:Practice and Experience,2004,34 (8):711-726.
  • 4Zhu K,et al.A Full Distributed Web Crawler Based on Structured NetworkInformation Retrieval Technology[J].Information Retrieval Technology(Lecture Notes in Computer Science),2008,4993:478-483.
  • 5中国科学院声学研究所,一种网页爬虫协作方法:中国,CN201110375264.1[P].2012-05-30.
  • 6Maymounkov P,Mazieres D.Kademlia:A peer-to-peer information system based on the xor metric[C] //Peer-to-Peer Systems.2002:53-65.
  • 7Rao A,et al.Load Balancing in Structured P2P Systems[C] //Proc.2nd Int.Workshop on Peer-to-Peer Systems.Berlin/Heidelberg:Springer,2003:68-79.
  • 8Karger D R,Ruhl M.Simple efficient load balancing algorithms for peer-to-peer systems[C] //Proceedings of the sixteenth annual ACM symposium on Parallelism in algorithms and architectures 2004.ACM:Barcelona,Spain,2004:36-43.
  • 9Rieche S,Petrak L,Wehrle K.A thermal-dissipation-based approach for balancing data load in distributed hash tables[C] //29th Annual IEEE International Conference on Local Computer Networks.2004.
  • 10刘爽,姜春祥,张伟哲,李东,张鸿.基于GNP算法的分布式爬虫调度策略[J].计算机应用研究,2010,27(2):446-449. 被引量:6

共引文献8

同被引文献16

引证文献5

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部