基于Docker容器的分布式爬虫的设计与实现被引量：3

Design and implementation of distributed crawler based on Docker container

下载PDF

导出

摘要随着互联网的快速发展,信息量也随之快速增长。为了快速地获取特定的有效信息,通过对开源爬虫框架Scrapy的学习研究,结合Redis数据库和MongoDB数据库,设计并实现了一个分布式网络爬虫系统。此次针对58同城租房信息进行爬取,网页数据存入MongoDB数据库,网页链接存入Redis数据库,着重对反爬虫问题进行处理优化,并使用Docker容器对传统部署环境进行了改造。运行结果表明,基于Docker的分布式爬虫系统比基于VM的分布式爬虫系统运行效率更高更稳定。 With the rapid development of the Internet,the amount of information has also grown rapidly.In order to quickly obtain specific and effective information,this paper designs and implements a distributed web crawler system by studying the open source crawler framework Scrapy,combining Redis database and MongoDB database. This time,we crawled the 58 city rent information,and the webpage data was stored in the MongoDB database. The webpage link was stored in the Redis database,focusing on the optimization of the anti-crawl problem,and the traditional deployment environment was modified by using the Docker container. The running results show that the Docker-based distributed crawler system runs more efficiently and stably than the VM-based distributed crawler system.

作者方奇洲程友清 FANG Qi zhou;CHENG You qing(Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China;FiberHome Telecommunication Technologies Co.,Ltd,Wuhan 430074,China)

机构地区武汉邮电科学研究院烽火通信科技股份有限公司

出处《电子设计工程》 2020年第8期61-65,共5页 Electronic Design Engineering

关键词计算机软件分布式爬虫 Scrapy DOCKER computer software distributed crawler Scrapy Docker

分类号 TP315 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1余豪士,匡芳君.基于Python的反反爬虫技术分析与应用[J].智能计算机与应用,2018,8(4):112-115. 被引量：14
2刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29
3马越,黄刚.基于Docker的应用软件虚拟化研究[J].软件,2015,36(3):10-14. 被引量：42
4庞宇.Docker技术在软件开发过程中的应用研究[J].信息技术,2019,43(5):114-116. 被引量：8
5杨君,陈春玲,余瀚.基于Scrapy技术的数据采集系统的设计与实现[J].计算机技术与发展,2018,28(10):177-181. 被引量：14
6刘梅,高岑,田月,王嵩,刘璐.基于Docker Swarm集群的调度策略优化算法[J].计算机系统应用,2018,27(9):199-204. 被引量：9
7刘胜强,杜家兵,庞维欣.基于Docker虚拟化技术性能优化分析[J].自动化与仪器仪表,2018,0(11):175-177. 被引量：6
8黄强文,曾丹.基于Spring Cloud和Docker的分布式微服务架构设计[J].微型电脑应用,2019,35(6):98-101. 被引量：31
9刘淼,杨镇豪,谢韵玲,谢冬青,唐春明.Android图文同步识别系统的设计和实现[J].计算机工程与设计,2014,35(6):2207-2213. 被引量：14
10杜晓旭,贾小云.基于Python的新浪微博爬虫分析[J].软件,2019,40(4):182-185. 被引量：14

二级参考文献105

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2潘颖.嵌入式系统中设备虚拟化的关键技术研究[J].自动化与仪器仪表,2016(1):19-20. 被引量：1
3张磊,张旭,郭胜强.SG VMMS虚拟化平台的技术架构与实现[J].自动化与仪器仪表,2015(12):80-82. 被引量：1
4郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
5吕林涛,万经华,周红芳.基于AJAX的Web无刷新页面快速更新数据方法[J].计算机应用研究,2006,23(11):199-200. 被引量：96
6张东华.基于线性回归法的网络信息资源评价模型的应用[J].现代情报,2007,27(8):10-12. 被引量：5
7Danial Md Nor, Mohd Helmy Abd Wahab, Mohammad Zarar Mohd jenu, et al. a new visual signature for content-based indexing of low resolution documents [J]. Journal of Information Retrieval and Knowledge Management. 2012, 12 (2): 88-95.
8Patel C, Patel A, Patel D. Optical character recognition by open source OCR tool tesseract: A case study [J]. International Journal of Computer Applications. 2012, 55 (10): 50-56.
9Mane MJ, Chavan MS. Design and implementation of median filter for image denoising [J]. International Journal of Electrical and Electronic Engineering &. Telecommunication. 2013, 2 (2): 42-48.
10Agrawal P. Adaptive fuzzy switching median filter for noise reduction [J]. Oriental International Journal of Innovative Engineering Research, 2013, 1 (2): 69-72.

共引文献201

1袁永旭,张淑婷,赵晓婷,金鹏琛.基于爬虫技术的病案管理人才需求现状分析[J].中国病案,2020(9):3-7. 被引量：7
2邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
3邱明月,崔年冬.涉黑涉恶类警情的特征分析方法研究[J].法制与社会（旬刊）,2020(18):202-203.
4苏矿军.基于微服务的科技资源共享平台的设计[J].电子技术（上海）,2020,49(11):34-36. 被引量：1
5郭小磊.医药商品评论的情感分析[J].智能计算机与应用,2021,11(11):128-130. 被引量：1
6程卫东,范爱军.果肉型胡萝卜汁饮料加工工艺[J].食品工业,2000,21(2):11-12. 被引量：3
7焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.
8谢超群.Docker容器技术在高校数据中心的应用[J].贵阳学院学报（自然科学版）,2015,10(4):27-29. 被引量：10
9温兆聪,王永盛,白焰辉.应用虚拟化技术在电力行业应用研究[J].信息技术与信息化,2015(9):222-223. 被引量：1
10邓如意,胥义,王健.基于多项式回归模型的智能手机图像颜色校正研究[J].软件导刊,2016,15(1):173-176. 被引量：3

同被引文献29

1朱亮,夏正龙,钟艳雯,吕冠儒,欧阳计跃.基于天擎·湖南的一体化平台云化改造关键技术[J].智能计算机与应用,2022,12(3):204-207. 被引量：7
2刘媛媛,应显勋,赵芳.GRIB2介绍及解码初探[J].气象科技,2006,34(B09):61-64. 被引量：25
3石恩名,肖晓军,卢宇.基于云平台的分布式高性能网络爬虫的研究与设计[J].电信科学,2017,33(8):180-186. 被引量：5
4胡辉,徐世亮.基于GIS的国土资源信息管理系统的开发与设计[J].电子设计工程,2018,26(13):47-51. 被引量：2
5连高欣,王琪,沈岳峰.Python语言在CIMISS中的应用[J].气象科技,2018,46(4):699-706. 被引量：17
6朱天放,梁明,王家乐,杨志浩,李亚敏.基于容器云的深度学习平台设计与实现[J].电子设计工程,2019,27(9):21-25. 被引量：11
7张弛,高建华.一种基于主题判定的网页元素XPath定位器生成方法[J].小型微型计算机系统,2019,40(4):872-878. 被引量：4
8王思敏,尹伊秋,宣静雯,马冲.基于网络爬虫技术的数字资源检测软件的设计与实现[J].现代电子技术,2019,42(10):132-135. 被引量：13
9陶铭,曲超.基于Docker的在线虚拟仿真实验容器系统设计与应用实践[J].现代计算机,2019,25(17):64-68. 被引量：2
10陈黎,马健.基于Scrapy的农业网络空间信息动态监测算法[J].山东农业大学学报（自然科学版）,2020,51(2):253-258. 被引量：8

引证文献3

1邓子云.全国高职专业点数据爬虫的设计与实现[J].南方职业教育学刊,2021,11(1):95-102. 被引量：1
2蒲骁旻.基于Docker容器技术的高考志愿填报系统设计与实现[J].电脑编程技巧与维护,2022(1):25-26.
3李建明,韩永清,冀玉超.基于天擎的短临预报检验平台的设计与实现[J].机电产品开发与创新,2023,36(6):37-39.

二级引证文献1

1邓子云.通用的行业网站资讯集成平台的设计与实现[J].工业技术与职业教育,2022,20(2):10-14.

1白浩,袁智勇,梁朔,姜臻,陈柔伊,余武静.基于大数据处理的配网运行效率关联性分析[J].电力系统保护与控制,2020,48(6):61-67. 被引量：24
2《产业创新研究》杂志新媒体全面上线[J].产业创新研究,2020(2).
3《产业创新研究》杂志新媒体全面上线[J].产业创新研究,2020(1).
4《产业创新研究》杂志新媒体全面上线[J].产业创新研究,2020(3).
5刘凤.一种改进的多维计算资源任务分配算法研究[J].无线互联科技,2020,17(4):129-130.
6《产业创新研究》杂志新媒体全面上线[J].产业创新研究,2020(4).
7赵丽华.基于Python的专业英语翻译器实现[J].电脑编程技巧与维护,2020(1):18-19. 被引量：1
8李晓光,董枳君.58同城姚劲波,说好的“不裁员”呢?[J].商学院,2020,0(4):68-69.
9刘晓东,林凤德,朱文欢.基于Crawler4j和Quartz的分布式爬虫系统[J].科技创新与应用,2020,0(13):15-16.
10曹晓叶.项目驱动的程序设计课程改革与实践[J].软件导刊,2020,19(2):180-183. 被引量：5

电子设计工程

2020年第8期

浏览历史

内容加载中请稍等...

基于Docker容器的分布式爬虫的设计与实现被引量：3

参考文献13

二级参考文献105

共引文献201

同被引文献29

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Docker容器的分布式爬虫的设计与实现 被引量：3

参考文献13

二级参考文献105

共引文献201

同被引文献29

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Docker容器的分布式爬虫的设计与实现被引量：3