基于Scrapy的分布式数据采集与分析——以知乎话题为例被引量：5

Distributed crawling and data analysis based on scrapy ——taking ZhiHu topic for example

下载PDF

导出

摘要随着互联网技术的飞速发展和网络数据的急速增长,如何对海量数据进行快速有效地采集和分析已经成为大数据分析与应用领域中亟待解决的重要问题。基于Scrapy框架实现主从式结构的分布式网络爬虫,运用开源项目Scrapy-Redis来部署网络爬虫,继而完成对知乎网站话题的爬取与分析工作,共爬取44346个话题、94688个回答和31202个用户数据,并从话题、回答、用户这三个方面应用可视化技术进行多维度分析。结果表明,开放式网络问答社区的话题主题与网络用户性别、地理位置分布及专业背景等因素具有显著的线性相关关系。该方法可推广应用于自动模式识别、网络舆情预测等大数据应用领域。 With the rapid development of internet technology and fast growth of network data, how to collect and analyze massive data quickly and effectively has become an urgent problem to be solved in big data analysis and corresponding application.This paper deploys the distributed network crawler with master-slave structure based on Scrapy framework to complete the crawling and to analysis of Zhihu’s topic.A total of 44,346 topics, 94,688 answers and 31,202 user data have been crawled, and carried on multidimensional analysis given visual chart from from topics, answers and users.The result of data analysis shows that there is a significant correlation between the focused topics and some factors such as gender, geographical location and professional background of network users.The method of data collection and analysis in the paper can be popularized and applied to automatic pattern recognition, network public opinion prediction and other big data application fields.

作者李光敏李平汪聪 LI Guang-min;LI Ping;WANG Cong(College of Computer Science and Technology, Hubei Normal University, Huangshi, 435002, China;College of Math and Statistics, Huanggang Normal University, Huanggang, 438000, China)

机构地区湖北师范大学计算机科学与技术学院黄冈师范学院数学与统计学院

出处《湖北师范大学学报（自然科学版）》 2019年第3期1-7,共7页 Journal of Hubei Normal University：Natural Science

基金湖北省教育厅科研计划重点项目(D20172502)

关键词 Scrapy 分布式数据分析知乎 Scrapy distributed data analysis Zhihu

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李代祎,谢丽艳,钱慎一,吴怀广.基于Scrapy的分布式爬虫系统的设计与实现[J].湖北民族学院学报（自然科学版）,2017,35(3):317-322. 被引量：18

二级参考文献8

1李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
2徐亦璐.基于多线程的网络爬虫设计与实现[J].计算机光盘软件与应用,2011(2):152-152. 被引量：2
3郭涛,黄铭钧.社区网络爬虫的设计与实现[J].智能计算机与应用,2012,2(4):65-67. 被引量：10
4黄聪,李格人,罗楚.大数据时代下爬虫技术的兴起[J].计算机光盘软件与应用,2013,16(17):79-80. 被引量：8
5雷德龙,郭殿升,陈崇成,巫建伟,吴小竹.基于MongoDB的矢量空间数据云存储与处理系统[J].地球信息科学学报,2014,16(4):507-516. 被引量：42
6薛丽敏,吴琦,李骏.面向专用信息获取的用户定制主题网络爬虫技术研究[J].信息网络安全,2017(2):12-21. 被引量：18
7王素华.基于网络爬虫技术的学生信息收集方法[J].电脑迷,2016(3). 被引量：1
8董日壮,郭曙超.网络爬虫的设计与实现[J].电脑知识与技术（过刊）,2014,20(6X):3986-3988. 被引量：11

共引文献17

1苏健光,赵颖,麦文武,胡宏蕾,庞锐华,陆钊.中药材行情数据的并行爬取方案[J].信息技术与信息化,2018(4):27-30. 被引量：1
2李俊,周玉英,唐志航.基于主题网络爬虫的服装信息采集[J].信息技术与信息化,2018(8):97-99. 被引量：2
3田娟,朱定局,杨文翰.基于大数据平台的企业画像研究综述[J].计算机科学,2018,45(B11):58-62. 被引量：36
4韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：26
5党佩,阎光伟.基于WebMagic爬取技术的电力事故信息获取[J].计算机技术与发展,2019,29(6):125-129. 被引量：3
6李培.基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程,2019,47(6):1415-1420. 被引量：52
7周逸,李新,陈远平.一种分布式爬虫系统的设计与应用[J].科研信息化技术与应用,2019,10(1):79-87.
8李世杰,高雅蓉.基于网络爬虫的网络平台用户数据获取与分析[J].计算机与网络,2020,46(1):68-71. 被引量：3
9王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12
10张捷,郝建维,李欢欢.基于Scrapy的分布式网页及文件爬虫应用的研究[J].科技创新导报,2020,17(21):149-153. 被引量：2

同被引文献8

1张靖宇,梁久祯.中文网页分布式并行索引的设计与实现[J].微计算机信息,2010,26(15):127-128. 被引量：1
2陶兴海.基于Scrapy框架的分布式网络爬虫实现[J].电子技术与软件工程,2017(11):23-23. 被引量：3
3李代祎,谢丽艳,钱慎一,吴怀广.基于Scrapy的分布式爬虫系统的设计与实现[J].湖北民族学院学报（自然科学版）,2017,35(3):317-322. 被引量：18
4华云彬,匡芳君.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018,8(5):46-50. 被引量：12
5李中原.高校学生网络舆情的动态监测路径与防控机制研究[J].现代情报,2019,39(8):171-177. 被引量：13
6杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22
7王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12
8陈燕.基于Scrapy爬虫框架的安居客租房数据爬取[J].轻工科技,2019,35(9):74-75. 被引量：4

引证文献5

1黄芳.国际犯罪的国内立法导论[J].法学评论,2000,18(2):39-45. 被引量：12
2赵鹏程,严轶轩,范巡礼.利用分布式爬虫对中华民间故事的资源整合[J].电子技术与软件工程,2020(4):192-193.
3付顺顺.基于Scrapy的赌博网站数据采集与分析[J].网络安全技术与应用,2020(6):150-151. 被引量：2
4张捷,郝建维,李欢欢.基于Scrapy的分布式网页及文件爬虫应用的研究[J].科技创新导报,2020,17(21):149-153. 被引量：2
5张传营,王世玉,董懂.基于分布式数据采集和自然语言处理的高校网络舆情监控系统[J].中阿科技论坛（中英文）,2021(3):138-140. 被引量：2

二级引证文献18

1冯景旭.国际刑法的惩处模式[J].法律适用（国家法官学院学报）,2002(12):38-40.
2张殿军,赵明明.论国际犯罪的国内立法[J].大连民族学院学报,2006,8(2):71-73.
3曲涛.国际刑事法院与中国关系初探[J].广西政法管理干部学院学报,2008,23(2):19-24. 被引量：2
4曲涛.国际刑事法院与中国主权之冲突根源及其对策初探[J].河北工程大学学报（社会科学版）,2008,25(1):57-59.
5高铭暄,赵秉志,田宏杰.2000年刑法学研究回顾与展望[J].法学家,2001(1):35-43.
6余民才.2000年国际法学研究的回顾与展望[J].法学家,2001(1):101-105. 被引量：1
7盛红生.嬗变的战争法[J].国际政治科学,2006(1):117-146. 被引量：4
8尹英英.从国际恐怖主义活动看法律全球化[J].经营管理者,2011(4X):294-294.
9李春珍,于阜民.论国际刑事管辖权主体[J].齐鲁学刊,2018(3):88-93. 被引量：1
10杨泽伟.“十五”期间中国国际公法学研究的回顾与展望[J].武大国际法评论,2006(1):229-249.

1徐静,文欢,张婧婧,李欣欣,古丽米拉.“数字逻辑与数字电路”课程混合学习教学形式的建设[J].无线互联科技,2019,16(14):73-74.
2仇善海.浅谈制造业智能化大数据关键技术[J].科学与信息化,2019,0(22):87-87. 被引量：1
3詹春娥.开放式计算机基础虚拟仿真实验室研究[J].无线互联科技,2019,16(12):116-117. 被引量：1
4郑祎.对现代建筑设计风格本土化的探析[J].新智慧,2017,0(33):91-91.
5卢炬.开源构筑解决方案[J].软件和集成电路,2019,0(7):25-25.
6陈允行,魏育华.基于大数据背景下计算机应用技术与信息化整合研究[J].信息与电脑,2019,0(15):3-4. 被引量：4
7谭景信,刘玉龙,李慧娟.虚拟化模型驱动的分布式数据湖构建方法研究[J].计算机科学与探索,2019,13(9):1493-1503. 被引量：11
8李林阳,陈正生,崔阳,吕志平,孙大双,邝英才,王方超.基于设计模式的GNSS数据解算软件GNSSer的设计与开发[J].大地测量与地球动力学,2019,39(10):1076-1080. 被引量：5
9纪艳,马茹君,于先清,蒋骏.安徽省某地居民基本公共卫生服务满意度调查分析[J].包头医学院学报,2019,35(7):98-99.
10张慧聪.无线电管理数据信息的分析与应用[J].中国无线电,2019(8):28-30.

湖北师范大学学报（自然科学版）

2019年第3期

浏览历史

内容加载中请稍等...

基于Scrapy的分布式数据采集与分析——以知乎话题为例被引量：5

参考文献1

二级参考文献8

共引文献17

同被引文献8

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的分布式数据采集与分析——以知乎话题为例 被引量：5

参考文献1

二级参考文献8

共引文献17

同被引文献8

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的分布式数据采集与分析——以知乎话题为例被引量：5