基于Scrapy技术的分布式爬虫的设计与优化被引量：5

下载PDF

导出

摘要随着全球信息技术的发展,互联网中的信息量呈爆炸式增长,人们对信息的需求量也与日俱增,而传统的单机平台的爬虫技术已经无法实现现如今互联网中大量数据的获取。本文旨在设计一个基于Redis的主从模式分布式爬虫系统来突破传统单机爬虫的限制。本文中的爬虫系统基于python语言的Scrapy框架具体实现。此外,为了实现分布式,该系统还使用了Redis数据库进行url存储与调度分配,最终使用Mongo Db数据库储存解析后的网页信息。本文也对该系统进行了一定优化,首先,本文采用半分布式拓扑结构优化了整体主从架构;同时本文也采用二级哈希映射算法优化URL的分配,解决了系统内节点动态加入或退出对系统的影响;初次之外,本文还采用去重与增量爬取优化了服务器的资源效率并使用代理ip的方式来应对部分网站的防爬虫屏蔽现象。

作者刘泽华赵文琦张楠 LIU Ze-hua;ZHAO Wen-qi;ZHANG Nan

机构地区北京邮电大学不详

出处《信息技术与信息化》 2018年第2期121-126,共6页 Information Technology and Informatization

基金 “北京邮电大学大学生研究创新基金”资助~~

关键词 Scrapy 分布式爬虫哈希映射算法设计与优化防爬虫屏蔽

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1黄志敏,曾学文,陈君.一种基于Kademlia的全分布式爬虫集群方法[J].计算机科学,2014,41(3):124-128. 被引量：9

二级参考文献13

1Loo B T,Cooper O,Krishnamurthy S.Distributed web crawling over DHTs[R].University of California,Berkeley,2004.
2Singh A,et al.Apoidea:A Decentralized Peer-to-Peer Architecture for Crawling the World Wide Web Distributed Multimedia Information Retrieval[J].Distributed Multimedia Information Retrieval(Lecture Notes in Computer Science),2004,2924:126-142.
3Boldi P,et al.UbiCrawler:a scalable fully distributed Web crawler[J].Software:Practice and Experience,2004,34 (8):711-726.
4Zhu K,et al.A Full Distributed Web Crawler Based on Structured NetworkInformation Retrieval Technology[J].Information Retrieval Technology(Lecture Notes in Computer Science),2008,4993:478-483.
5中国科学院声学研究所,一种网页爬虫协作方法:中国,CN201110375264.1[P].2012-05-30.
6Maymounkov P,Mazieres D.Kademlia:A peer-to-peer information system based on the xor metric[C] //Peer-to-Peer Systems.2002:53-65.
7Rao A,et al.Load Balancing in Structured P2P Systems[C] //Proc.2nd Int.Workshop on Peer-to-Peer Systems.Berlin/Heidelberg:Springer,2003:68-79.
8Karger D R,Ruhl M.Simple efficient load balancing algorithms for peer-to-peer systems[C] //Proceedings of the sixteenth annual ACM symposium on Parallelism in algorithms and architectures 2004.ACM:Barcelona,Spain,2004:36-43.
9Rieche S,Petrak L,Wehrle K.A thermal-dissipation-based approach for balancing data load in distributed hash tables[C] //29th Annual IEEE International Conference on Local Computer Networks.2004.
10刘爽,姜春祥,张伟哲,李东,张鸿.基于GNP算法的分布式爬虫调度策略[J].计算机应用研究,2010,27(2):446-449. 被引量：6

共引文献8

1陶耀东,向中希.基于改进Kademlia协议的分布式爬虫[J].计算机系统应用,2016,25(4):156-161. 被引量：5
2罗娇敏,耿茜.一种基于Redis的分布式爬虫系统设计与实现[J].软件,2017,38(10):83-87. 被引量：5
3范媛.校园视频点播服务中一种基于DHT节点组织的原型系统[J].电子设计工程,2017,25(22):186-189.
4董禹龙,杨连贺,马欣.主动获取式的分布式网络爬虫集群方法研究[J].计算机科学,2018,45(B06):428-432. 被引量：14
5刘芳云,张志勇,李玉祥.基于Hadoop的分布式并行增量爬虫技术研究[J].计算机测量与控制,2018,26(10):269-275. 被引量：4
6马蕾,冯锡炜,窦予梓,高天铸,朱睿,吴衍兵.分布式爬虫的研究与实现[J].计算机技术与发展,2020,30(2):192-196. 被引量：9
7张阳,王贻欣,张杨,陈强,蔡钺.一种大数据智能化语义分析系统[J].电子技术与软件工程,2020(6):168-169. 被引量：1
8卢照,师军,张耀午,王琦.基于双缓冲的分布式爬虫调度策略的设计与研究[J].计算机与数字工程,2022,50(8):1686-1690. 被引量：4

同被引文献16

1谭新,郭兴明,陈旻.基于虚拟仪器的分布式无线远程医疗监控中心的设计与实现[J].现代科学仪器,2007,24(6):131-134. 被引量：3
2张兴兰,欧阳奇,王翊.科学仪器运行状态网络化在线监测与量化考核系统[J].现代科学仪器,2010,27(1):39-42. 被引量：1
3刘思林.Scrapy分布式爬虫搜索引擎[J].电脑知识与技术,2018,14(12):186-188. 被引量：3
4邹振宇,郑烇,王嵩,杨坚.基于HDFS的云存储系统小文件优化方案[J].计算机工程,2016,42(3):34-40. 被引量：9
5彭纪奔,吴林,陈贤,黄雷君.基于爬虫技术的网络负面情绪挖掘系统设计与实现[J].计算机应用与软件,2016,33(10):9-13. 被引量：15
6孙歆,戴桦,孔晓昀,赵明明.基于Scrapy的工业漏洞爬虫设计[J].网络空间安全,2017,8(1):66-71. 被引量：6
7陈付梅,韩德志,毕坤,戴永涛.大数据环境下的分布式数据流处理关键技术探析[J].计算机应用,2017,37(3):620-627. 被引量：32
8孙艺乘,张建敏.大数据数字媒体时代网络爬虫技术下的精准招商[J].贵州大学学报（自然科学版）,2017,34(2):80-84. 被引量：9
9孟军,覃海奎,刘洁,甘宇健.分布式网络爬虫设计研究[J].现代计算机,2017,23(16):62-65. 被引量：2
10袁丽娜.HDFS数据副本均衡放置策略的改进[J].计算机科学,2017,44(B11):397-399. 被引量：4

引证文献5

1逄菲.基于Python的分布式网络爬虫系统的设计与实现[J].电子技术与软件工程,2018(23):6-6. 被引量：11
2翟峰.基于Scrapy的分布式网络新闻抓取系统设计[J].现代科学仪器,2019,0(1):25-27. 被引量：1
3白祎花.基于网络分布式文件系统设计与实现路径[J].微型电脑应用,2020,36(4):115-117. 被引量：2
4宋文彬.基于网络编码分布式文件系统的设计与实现[J].电子技术与软件工程,2021(15):168-169.
5曹培,林永意.基于Scrapy的岗位推荐系统的设计与实现[J].无线互联科技,2023,20(24):75-77. 被引量：1

二级引证文献15

1刘清.网络爬虫针对“反爬”网站的爬取策略分析[J].信息与电脑,2019,31(3):23-24. 被引量：11
2胡俊潇,陈国伟.网络爬虫反爬策略研究[J].科技创新与应用,2019,9(15):137-138. 被引量：9
3丁岚,范开勇,王英明,谷国栋,耿伟.基于Golang的网络爬虫系统设计与实现[J].电脑编程技巧与维护,2019,0(6):41-42.
4赵民钢,周俊妍,薛文良,魏孟媛,钱竞芳,郭建峰.跨境电商进口商品与中国国际进口博览会展品的对比分析[J].中国纤检,2019(8):118-121.
5殷丽凤,张浩然.基于Python网上招聘信息的爬取和分析[J].电子设计工程,2019,27(20):22-26. 被引量：11
6徐勤亚,蔡继鹏,王星.基于Python的影片数据分析[J].信息技术与信息化,2019,0(8):113-115. 被引量：4
7吴云.分布式智能网络爬虫系统设计[J].电子技术与软件工程,2020(8):193-194.
8周竞鸿.基于Python语言的大数据分析研究[J].电子技术与软件工程,2020(13):178-179. 被引量：3
9周竞鸿.大数据背景下依托于Python的网络爬虫技术研究[J].信息系统工程,2021,34(3):69-70. 被引量：4
10刘海,张瞩熹,张磊,肖岩平.大规模网络化经费预算评审支撑系统研究[J].电子设计工程,2022,30(16):41-45.

1谢辉.基于爬虫系统的省级公共图书馆微信平台运用调查[J].图书馆论坛,2018,38(3):117-124. 被引量：4
2孙佳欢.移动医疗在医院信息化建设中的应用[J].数码世界,2018,0(3):270-270. 被引量：1
3杨亚利.商务英语对现代企业电子商务之促进作用[J].校园英语,2018,0(4):253-253.
4孙小英.视觉元素在网页设计中的运用[J].南方农机,2017,48(20):126-126. 被引量：2
5田晓菲.探究信息技术在建筑工程管理中的应用[J].中国房地产业,2018,0(6):119-119.
6高强.基于Redis的分布式爬虫框架的设计[J].农业网络信息,2017(8):12-14. 被引量：3
7张学锋,裘龚铭.浅析二次系统安全防护技术在地区电力配网调度自动化中的应用[J].科技经济导刊,2017(32):72-72. 被引量：5
8张志华.GIS在德邦物流中的应用探究[J].电脑知识与技术,2017,13(9):205-206.
9崔腾,孙敏玲,王萌琳.MySQL主从架构的复制模式[J].网络安全和信息化,2017,0(12):78-79. 被引量：1
10姚洪涛,范炜.一种改进的RGB到RGBW信号的映射算法[J].长春理工大学学报（自然科学版）,2018,41(1):119-122. 被引量：2

信息技术与信息化

2018年第2期

浏览历史

内容加载中请稍等...

基于Scrapy技术的分布式爬虫的设计与优化被引量：5

参考文献1

二级参考文献13

共引文献8

同被引文献16

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于Scrapy技术的分布式爬虫的设计与优化 被引量：5

参考文献1

二级参考文献13

共引文献8

同被引文献16

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于Scrapy技术的分布式爬虫的设计与优化被引量：5