-
题名基于Docker容器的分布式爬虫的设计与实现
被引量:5
- 1
-
-
作者
方奇洲
程友清
-
机构
武汉邮电科学研究院
烽火通信科技股份有限公司
-
出处
《电子设计工程》
2020年第8期61-65,共5页
-
文摘
随着互联网的快速发展,信息量也随之快速增长。为了快速地获取特定的有效信息,通过对开源爬虫框架Scrapy的学习研究,结合Redis数据库和MongoDB数据库,设计并实现了一个分布式网络爬虫系统。此次针对58同城租房信息进行爬取,网页数据存入MongoDB数据库,网页链接存入Redis数据库,着重对反爬虫问题进行处理优化,并使用Docker容器对传统部署环境进行了改造。运行结果表明,基于Docker的分布式爬虫系统比基于VM的分布式爬虫系统运行效率更高更稳定。
-
关键词
计算机软件
分布式爬虫
Scrapy
DOCKER
-
Keywords
computer software
distributed crawler
Scrapy
Docker
-
分类号
TP315
[自动化与计算机技术—计算机软件与理论]
-