摘要
随着全球信息技术的发展,互联网中的信息量呈爆炸式增长,人们对信息的需求量也与日俱增,而传统的单机平台的爬虫技术已经无法实现现如今互联网中大量数据的获取。本文旨在设计一个基于Redis的主从模式分布式爬虫系统来突破传统单机爬虫的限制。本文中的爬虫系统基于python语言的Scrapy框架具体实现。此外,为了实现分布式,该系统还使用了Redis数据库进行url存储与调度分配,最终使用Mongo Db数据库储存解析后的网页信息。本文也对该系统进行了一定优化,首先,本文采用半分布式拓扑结构优化了整体主从架构;同时本文也采用二级哈希映射算法优化URL的分配,解决了系统内节点动态加入或退出对系统的影响;初次之外,本文还采用去重与增量爬取优化了服务器的资源效率并使用代理ip的方式来应对部分网站的防爬虫屏蔽现象。
作者
刘泽华
赵文琦
张楠
LIU Ze-hua;ZHAO Wen-qi;ZHANG Nan
出处
《信息技术与信息化》
2018年第2期121-126,共6页
Information Technology and Informatization
基金
“北京邮电大学大学生研究创新基金”资助~~