基于Scrapy的分布式网页及文件爬虫应用的研究被引量：2

Research on Distributed Web Page and File Crawler Application Based on Scrapy

下载PDF

导出

摘要随着移动互联网、大数据以及人工智能时代的到来,数据在整个互联网体系中的地位显得越来越重要,而数据体量的大小对大数据的分析以及人工智能的最终学习成果也有着深刻影响。但是目前的现状是,全世界范围内的大多数企业都深陷数据不完善或者数据体量太小的窘境,尤其对新创企业和小微型企业来说,这个已经成为了它们生存和发展的桎梏。因此,能够从无时无刻抓取大量数据的爬虫就显得尤为必要,故而我们深入地研究网络爬虫是非常有必要的。本文将会通过基于twisted的异步爬虫框架Scrapy,对网络爬虫进行研究,并实现抓取互联网页数据以及文件文本数据的分布式策略。 With the advent of the mobile Internet,big data and artificial intelligence era,the status of data in the entire Internet system is becoming more and more important,and the amount of data has a profound impact on the analysis of big data and the final learning results of artificial intelligence.However,the current status quo is that most companies around the world are deeply mired in data imperfections or too small data volume,especially for new ventures and small and micro enterprises,which have become their survival and development.Therefore,it is especially necessary to be able to crawl large amounts of data from time to time,so it is very necessary for us to study web crawlers in depth.This article will explore the layer web crawler through the twisted asynchronous crawler framework Scrapy,and implement the strategy of crawling Internet page data and file text data.

作者张捷郝建维李欢欢 ZHANG Jie;HAO Jianwei;LI Huanhuan(Aostar Information Technologies Co.,Ltd.,Chengdu,Sichuan Province,610041 China)

机构地区四川中电启明星信息技术有限公司

出处《科技创新导报》 2020年第21期149-153,共5页 Science and Technology Innovation Herald

关键词 Scrapy PYTHON 爬虫分布式文件网页 Scrapy Python Crawler Distributed File WebPage

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李代祎,谢丽艳,钱慎一,吴怀广.基于Scrapy的分布式爬虫系统的设计与实现[J].湖北民族学院学报（自然科学版）,2017,35(3):317-322. 被引量：17
2华云彬,匡芳君.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018,8(5):46-50. 被引量：12
3张靖宇,梁久祯.中文网页分布式并行索引的设计与实现[J].微计算机信息,2010,26(15):127-128. 被引量：1
4李光敏,李平,汪聪.基于Scrapy的分布式数据采集与分析——以知乎话题为例[J].湖北师范大学学报（自然科学版）,2019,39(3):1-7. 被引量：5
5陶兴海.基于Scrapy框架的分布式网络爬虫实现[J].电子技术与软件工程,2017(11):23-23. 被引量：3

二级参考文献18

1卢秉亮,朱健,张磊,曹一鹏.Internet搜索引擎索引数据库的设计与实现[J].微处理机,2006,27(3):44-46. 被引量：4
2陆克中,林晓辉.MPI并行程序设计的负载平衡实现方法[J].微计算机信息,2007(05X):226-227. 被引量：10
3李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
4徐飞,孙劲光.中文分词切分技术研究[J].计算机工程与科学,2008,30(5):126-128. 被引量：16
5王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
6杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
7徐亦璐.基于多线程的网络爬虫设计与实现[J].计算机光盘软件与应用,2011(2):152-152. 被引量：2
8郭涛,黄铭钧.社区网络爬虫的设计与实现[J].智能计算机与应用,2012,2(4):65-67. 被引量：10
9黄聪,李格人,罗楚.大数据时代下爬虫技术的兴起[J].计算机光盘软件与应用,2013,16(17):79-80. 被引量：8
10雷德龙,郭殿升,陈崇成,巫建伟,吴小竹.基于MongoDB的矢量空间数据云存储与处理系统[J].地球信息科学学报,2014,16(4):507-516. 被引量：42

共引文献31

1黄芳.国际犯罪的国内立法导论[J].法学评论,2000,18(2):39-45. 被引量：12
2苏健光,赵颖,麦文武,胡宏蕾,庞锐华,陆钊.中药材行情数据的并行爬取方案[J].信息技术与信息化,2018(4):27-30. 被引量：1
3李俊,周玉英,唐志航.基于主题网络爬虫的服装信息采集[J].信息技术与信息化,2018(8):97-99. 被引量：2
4田娟,朱定局,杨文翰.基于大数据平台的企业画像研究综述[J].计算机科学,2018,45(B11):58-62. 被引量：33
5韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：26
6张梁斌,柴晖,王渊明,万健.基于分布式Docker群集的招聘网站职位数据持续爬取和分析[J].浙江万里学院学报,2019,32(2):85-90. 被引量：2
7党佩,阎光伟.基于WebMagic爬取技术的电力事故信息获取[J].计算机技术与发展,2019,29(6):125-129. 被引量：3
8李培.基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程,2019,47(6):1415-1420. 被引量：51
9李伟,孙新杰,张毓福.基于Spark的新闻大数据分析研究[J].六盘水师范学院学报,2019,31(3):20-22. 被引量：2
10缪治,任敏敏.基于网络爬虫的地理空间信息采集方法[J].电脑知识与技术,2019,15(6X):9-10. 被引量：3

同被引文献18

1李兴武.大数据下MongoDB数据库数据文档存储去重研究[J].数字技术与应用,2017,0(9):99-99. 被引量：2
2刘雯.主流开源爬虫框架比较与分析[J].电子世界,2018,0(6):65-65. 被引量：3
3唐琳,董依萌,何天宇.基于Python的网络爬虫技术的关键性问题探索[J].电子世界,2018,0(14):32-33. 被引量：6
4秦亚红,普措才仁.基于Scrapy的新闻网页数据抓取设计[J].电子技术与软件工程,2020(4):170-171. 被引量：3
5陈黎,马健.基于Scrapy的农业网络空间信息动态监测算法[J].山东农业大学学报（自然科学版）,2020,51(2):253-258. 被引量：8
6董少林,李钟慎.采用Scrapy分布式爬虫技术的微博热点舆情信息获取与分析[J].电脑与信息技术,2020,28(5):23-26. 被引量：3
7王福成,齐平.基于Python的合肥市二手房信息爬取与数据分析[J].九江学院学报（自然科学版）,2020,35(3):49-51. 被引量：3
8邓子云.基于Scrapy的物流资讯网站群爬虫系统设计与实现[J].物流技术与应用,2020,25(8):140-143. 被引量：6
9施金龙.基于PythonScrapy技术的新闻线索汇聚实现[J].电子技术与软件工程,2020(13):180-181. 被引量：1
10王胜,谢元平.基于Scrapy和Kettle的对标城市政策文件库建设[J].电子技术与软件工程,2021(5):181-183. 被引量：2

引证文献2

1张笑青,蒋慧.基于Scrapy技术的高校计算机类课程网络视频库建设的研究[J].电脑知识与技术,2021,17(36):37-39. 被引量：1
2何芳.基于Scrapy的电子商务数据分析系统设计[J].电子技术与软件工程,2022(24):200-204.

二级引证文献1

1何芳.基于Scrapy的电子商务数据分析系统设计[J].电子技术与软件工程,2022(24):200-204.

1郑仲.浅析高中体育教学中终身体育意识的培养策略[J].数码设计,2020,9(24):220-220.
2骆海英.情境教学法在小学数学教学中的应用[J].新课程教学（电子版）,2020(22):48-48. 被引量：4
3张玉珍.优化初中地理课堂教学质量探究[J].幸福生活指南,2020(27):0005-0005.
4刘粲,于畅,张妍.疫情之下中小企业融资困难问题及其对策[J].数码设计,2020,9(24):148-148.
5杨玺,于梦珂,李野.卢苇:一手写作一手绘画[J].今日重庆,2020(12):86-88.
6赵婷,张俊洁.大数据揭示农机版“空手套白狼”[J].审计月刊,2020(11):25-27. 被引量：1
7郭晓宇,彭浩.基于Web页面结构的网页数据提取技术探究[J].产业与科技论坛,2020(18):66-67. 被引量：1
8徐文哲.人民币国际化进展研究[J].商业文化,2020(31):44-45.
9李力恒,毕述玥,孙志勇.顽健信息下脆弱数据的劫持攻击威胁检测[J].西安工程大学学报,2020,34(6):92-98. 被引量：2

科技创新导报

2020年第21期

浏览历史

内容加载中请稍等...

基于Scrapy的分布式网页及文件爬虫应用的研究被引量：2

参考文献5

二级参考文献18

共引文献31

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的分布式网页及文件爬虫应用的研究 被引量：2

参考文献5

二级参考文献18

共引文献31

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的分布式网页及文件爬虫应用的研究被引量：2