微博用户信息采集分析系统设计与实现被引量：2

Design and Implementation of Microblog User Information Acquisition and Analysis System

下载PDF

导出

摘要系统运用Python语言克服新浪微博反爬虫问题,使用Scrapy框架实现了高效、稳定的微博用户信息爬虫程序,全面获取用户在微博中的基本信息,并导入Neo4j图数据库和Echarts数据可视化库进行人物关系分析和挖掘。此外,系统针对微博中存在大量“网络水军”的现状设置了过滤选项,可以有效排除“网络水军”非正常行为对分析结果的影响。系统调试结果表明,系统能够实现对特定微博下转发、评论用户信息的实时、稳定、高效采集与分析,有效帮助人们从海量数据中提取复杂的关联关系,简洁、直观地分析微博用户之间的交互关系。 An efficient and stable crawler system based on Scrapy for microblog user information acquisition and analysis is designed. In the system, by overcoming anti-crawler problem of Sina Weibo, it can obtain all basic profile information of microblog users. The obtained user information can be imported into Neo4j graph database and Echarts visual diagram to analyze and mine the relationship between users. Additionally, according to the current situation of a large number of Internet paid posters existed in Microblog, the system provides a filtering option, which can effectively eliminate the influence of abnormal behavior of paid posters on the analysis results. The debugging results show that the system can crawl and analyze user information for specific microblog forwarding and commenting to achieve the real-time, stable and effective performance. It can effectively help people extract complex relationships from massive data and analyze the interaction between Microblog users concisely and intuitively.

作者张扬范岩夏玲玲陈俊安王沁 ZHANG Yang;FAN Yan;XIA Ling-ling;CHEN Jun-an;WANG Qin(Department of Computer Information and Cyber Security,Jiangsu Police Institute,Nanjing 210031,China)

机构地区江苏警官学院计算机信息与网络安全系

出处《软件导刊》 2019年第9期125-129,共5页 Software Guide

基金江苏省高等学校大学生创新创业训练计划项目(201810329027Y)

关键词新浪微博网络爬虫模拟登录数据分析 Sina Weibo network crawler simulation login data analysis

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1罗咪.基于Python的新浪微博用户数据获取技术[J].电子世界,2018,0(5):138-139. 被引量：10
2张章学.社交网络敏感数据获取方法研究[J].软件导刊,2018,17(3):56-58. 被引量：1
3魏冬梅,何忠秀,唐建梅.基于Python的Web信息获取方法研究[J].软件导刊,2018,17(1):41-43. 被引量：24
4张琳,熊斯攀.基于Neo4j的社交网络平台设计与实现[J].情报探索,2018(8):77-82. 被引量：11
5李琳.基于Python的网络爬虫系统的设计与实现[J].信息通信,2017,30(9):26-27. 被引量：31
6谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
7陈智,梁娟,谢兵,傅篱.新浪微博数据爬取研究[J].物联网技术,2016,6(12):60-63. 被引量：8
8邓万宇,刘光达,董莹莹.一种基于Scrapy-Redis的分布式微博数据采集方案[J].信息技术,2018,42(11):59-62. 被引量：11
9赖敬之.基于网络爬虫的新浪微博数据分析网站的建立[J].通讯世界,2018,25(2):73-74. 被引量：1
10雷程程,张岸,齐清文,苏惠敏.格网化的位置微博数据抓取与人群信息提取[J].测绘科学,2017,42(2):125-129. 被引量：6

二级参考文献62

1朱敏,程佳,柏文阳.一种基于HBase的RDF数据存储模型[J].计算机研究与发展,2013,50(S1):23-31. 被引量：8
2陈锐.网络结构与数据库模式在陕西科技信息网中的应用[J].情报杂志,2004,23(10):57-58. 被引量：4
3王义勇,何月顺.AJAX的原理及其在Web开发中的应用[J].科技广场,2006(7):66-68. 被引量：13
4李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
5汪涛,樊孝忠.主题爬虫的设计与实现[J].计算机应用,2004,24(S1):270-272. 被引量：40
6谭力,杨宗源,谢瑾奎.Ajax技术的数据响应优化[J].计算机工程,2010,36(7):52-54. 被引量：46
7许笑,张伟哲,张宏莉,方滨兴.广域网分布式Web爬虫[J].软件学报,2010,21(5):1067-1082. 被引量：25
8毛夏,徐蓉蓉,李新硕,王煜,李程,曾波,何宇华,刘锦泉.深圳市人口分布的细网格动态特征[J].地理学报,2010,65(4):443-453. 被引量：49
9彭冬,蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学,2011,33(1):157-160. 被引量：7
10屈展,李婵.JSON在Ajax数据交换中的应用研究[J].西安石油大学学报（自然科学版）,2011,26(1):95-98. 被引量：78

共引文献297

1章蓬伟,贾钰峰,邵小青.基于案例的Python语言程序设计教学[J].学园,2020,13(7):44-45. 被引量：2
2李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：2
3冯鑫,李雪,闫月,李佳培,刘梦瑶,吴晔.基于知识实体的突发公共卫生事件数据平台构建研究[J].知识管理论坛,2020(3):175-190. 被引量：2
4项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
5王立勇,邹军华.城市轨道交通工程造价数据三维可视化应用研究——基于treeTable组件和Echarts技术[J].工业建筑,2023,53(S01):786-788.
6刘琦,马犇,孙少波,张秀萍.地震会商技术系统的研发实现[J].地震,2022,42(3):152-164.
7刘慧,李凤银,禹继国,崔璨,葛睿.基于影评挖掘的电影推荐系统设计与实现[J].电子技术（上海）,2018,47(12):83-86. 被引量：1
8李增焕,汪文超,崔远来.基于B/S模式的灌区工情管理信息系统开发与应用[J].中国农村水利水电,2017(6):18-22. 被引量：8
9胡欣光,王德宝,高志国,高静伟,祁利媛.易制毒化学品监管系统的数据可视化系统设计[J].计算机与网络,2017,43(14):62-64. 被引量：2
10黄经国,李正媛,王军,纪寿文,余丹.地震前兆台网运行监控系统建设研究[J].中国科技成果,2017,0(14):40-43. 被引量：1

同被引文献21

1韩忠明,许峰敏,段大高.面向微博的概率图水军识别模型[J].计算机研究与发展,2013,50(S2):180-186. 被引量：10
2任勇毛,唐海娜,李俊,钱华林.高速长距离网络传输协议[J].软件学报,2010,21(7):1576-1588. 被引量：14
3肖敏,廖少明,周松.基于Web的隧道盾构法施工动态监控系统[J].上海交通大学学报,2012,46(1):105-108. 被引量：9
4孟祥波,徐受天,马强.基于互联网的盾构远程实时监控系统开发[J].隧道建设,2012,32(2):256-260. 被引量：16
5方明,方意.一种新型智能僵尸粉甄别方法[J].计算机工程,2013,39(4):190-193. 被引量：11
6王超,张立超,彭晴晴.面向产业安全的中国隧道掘进机产业前景展望[J].中国软科学,2014(10):43-50. 被引量：4
7程晓涛,刘彩霞,刘树新.基于关系图特征的微博水军发现方法[J].自动化学报,2015,41(9):1533-1541. 被引量：25
8李新焕,陈婧,王兰花,赵应丁.社交网络数据提取方法研究与实现[J].网络安全技术与应用,2017(4):104-106. 被引量：1
9谢忠红,张琳,孔佳玮.基于内容和支撑向量基算法的微博用户识别和分类[J].金陵科技学院学报,2017,33(2):9-12. 被引量：2
10康文杰,王勇,俸皓.云平台中MySQL数据库高可用性的设计与实现[J].计算机工程与设计,2018,39(1):296-301. 被引量：57

引证文献2

1吴天华,闵锐,吴恩启,孙海力.基于Web的盾构机盾尾变形远程监测系统[J].软件导刊,2022,21(6):120-124.
2李新焕,黄伟力.基于SVM算法的微博用户识别和分类研究[J].现代信息科技,2022,6(16):107-109.

1陈英.事业单位管理会计探析[J].纳税,2019,0(19):176-176.
2来自异次元世界的“阴影人”[J].奇闻怪事,2019,0(9):64-64.
3程政阳,王家航,邱明月.基于R语言的数据挖掘技术以及针对新浪舆情在公安情报中的应用[J].科技传播,2019,11(16):112-115. 被引量：1
4黄俪.简谈南宁轨道交通实时客流分析与处理系统[J].铁路通信信号工程技术,2019,16(8):52-56. 被引量：2
5许素,许新华,柏瑶,张盼,黄瑾.基于python的微信公众号关注者数据分析[J].电脑与信息技术,2019,27(5):61-63. 被引量：4
6刘心男,刘丹,周乐凯,王铁霖.社会化问答社区视角下的BIM技术[J].工程管理学报,2019,33(4):43-47.
7杨斌.后微博时代网络监督的徘徊与进路——基于公民参与的视角[J].时代人物,2019,0(12):138-139.
8郭丽丽.儿童绘本在小学美术教学中的应用途径[J].学周刊,2019,0(30):146-146. 被引量：3
9聂卓.从语用角度观察新浪微博中的粉丝“控评”现象[J].文学教育,2019,0(29):170-171.
10王渔樵,李涛,肖智婕.社交网络水军识别的特征评价与选择[J].计算机工程与设计,2019,40(9):2440-2445. 被引量：4

软件导刊

2019年第9期

浏览历史

内容加载中请稍等...

微博用户信息采集分析系统设计与实现被引量：2

参考文献15

二级参考文献62

共引文献297

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

微博用户信息采集分析系统设计与实现 被引量：2

参考文献15

二级参考文献62

共引文献297

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

微博用户信息采集分析系统设计与实现被引量：2