一种基于P2P技术的分布式微博爬虫系统被引量：8

Distributed microblog crawler system based on P2P

下载PDF

导出

摘要微博正逐步成为公共信息传播的主要媒体,高效地获取微博数据则显得至关重要,分析微博数据有助于研究者及时了解舆情信息.由于传统网页爬虫无法获取完整的微博信息,微博API又有诸多限制,因此针对新浪微博,设计了一种基于P2P技术的微博爬虫系统.该系统避免了新浪API的功能和连接限制,使用基于模拟登录的网页爬虫,根据用户的地理位置信息划分任务,实现连续高效的数据采集.通过与其他架构的试验比较,证明本系统具有良好的性能,能为舆情分析提供数据支持. Microblog is becoming the main media to spread public information. Analyzing microblog data can contribute to timely knowing public information for researchers. Therefore, it is important to effectively collect microblog data. To solve the problems that the traditional web clawer could not inquire whole information and the API had lots of restrictions,a distributed crawler system was designed based on P2 P for SINA microblog. The crawler was based on simulated login technology and assigned tasks according to user position information to efficiently collect data continuously. The comparison results with other structures show that the proposed system has good performance to provide adequate data.

作者卢杨李华康孙国梓

机构地区南京邮电大学计算机学院南京邮电大学计算机技术研究所

出处《江苏大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第3期296-301,共6页 Journal of Jiangsu University：Natural Science Edition

基金国家自然科学基金资助项目(61373006 61502247)

关键词网络爬虫 P2P 分布式微博模拟登录 web crawler P2P distributed microblog simulated login

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1戴月卿,钟玲,林柏钢,陈明志.基于微博的人物关系网络挖掘系统[J].信息网络安全,2013(2):83-86. 被引量：4
2HAN R. The influence of microblogging on personal public participation [ C ]//Proceedings of the 2010 IEEE 2nd Symposium on Web Society, SWS 2010. Beijing, China : Association for Computing Machinery, 2010 : 615 -618.
3WESTMAN S, FREUND L. Information Interaction in 140 characters or less: genres on twitter [ C ] // II- ix2010--Proceedings of the 2010 Information Interaction in Context Symposium. New Brunswick, USA: Associa- tion for Computing Machinery,2010:323 - 326.
4NOORDHUIS P, HE1JKOOP M. Mining twitter in the cloud: a case study[ C]//Proceedings of the 2010 IEEE 3rd International Conference on Cloud Computing, CLOUD 2010. Miami, USA: IEEE Computer Society, 2010:107 - 114.
5RONEL A, TEUTLE M. Twitter: network properties analysis[ C] //2010 20th International Conference on Electronics Communications and Computers. Cholula Puebla, Mexico: IEEE Computer Society, 2010 : 180 - 184.
6廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
7朱云鹏,冯枫,陈江宁.多策略融合的中文微博数据采集方法[J].计算机工程与设计,2013,34(11):3835-3839. 被引量：6
8孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
9李龙,李芝棠,涂浩,史春永.一种分布式微博数据采集平台的设计与实现[J].广西大学学报（自然科学版）,2011,36(A01):324-328. 被引量：9
10ORAM A. Peer-to-peer : harnessing the power of disrup- tive technologies[J]. SIGMOD Record, 2003, 32 (2) : 57 - 66.

二级参考文献77

1解(亻刍),汪小帆.复杂网络中的社团结构分析算法研究综述[J].复杂系统与复杂性科学,2005,2(3):1-12. 被引量：86
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3高弋坤.新浪微博用户数再创新高[J].通信世界,2011(46):11-11. 被引量：3
4石慧,徐从富,刘勇,董金祥.Agent通信语言KQML的实现及应用[J].计算机工程与应用,2005,41(13):94-97. 被引量：23
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
6林雅榕,侯整风.对哈希算法SHA-1的分析和改进[J].计算机技术与发展,2006,16(3):124-126. 被引量：24
7郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
8杜谦,张文霞.多语言可实现的SHA-1散列算法[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):42-44. 被引量：7
9Garces-Erice L,Biersack E W,Ross K W,Felber P A,Urvoy-Keller G.Hierarchical peer-to-peer systems.Parallel Processing Letters,2003,13(4):643-657.
10Joung Y J,Wang J C.Chord2:A two-layer Chord for reducing maintenance overhead via heterogeneity.Computer Networks,2007,51(3):712-731.

共引文献204

1韩妍妍,何彦茹,刘培鹤,任慧,张锦圣.基于爬虫的XSS漏洞检测工具设计与实现[J].北京电子科技学院学报,2019,0(1):7-16. 被引量：1
2于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
3于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
4陈大力,王忠连.基于STATCOM无功补偿系统设计与分析[J].重庆工商大学学报（自然科学版）,2010,27(4):360-363.
5郭奥托,高雅田.大型数据库操作中KQML行为原语集的扩充[J].价值工程,2011,30(23):142-143. 被引量：1
6金凡,顾进广.一种改进的T-Spider分布式爬虫[J].微电子学与计算机,2011,28(8):102-104. 被引量：3
7陈顺平,尹锋,倪问尹.基于层次结构化P2P的教育资源整合平台研究与设计[J].企业技术开发,2011,30(3):16-18. 被引量：1
8张宇翔,肖春景,张宏科,徐涛.P2P网络中稳定节点会话序列特征分析[J].通信学报,2011,32(10):34-41.
9史建焘,张宏莉.KAD网络负载均衡技术研究[J].电信科学,2012,28(6):68-72. 被引量：1
10王晶,朱珂,汪斌强.基于信息数据分析的微博研究综述[J].计算机应用,2012,32(7):2027-2029. 被引量：21

同被引文献74

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
3徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
4费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
5肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
6翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
7赵川,杜玲,岳鹏,刘少君,林征胜,赵荣海.基于中文的自然语言理解初探[J].现代电子技术,2007,30(6):82-85. 被引量：4
8朱小娟,陈特放.基于SVM的词频统计中文分词研究[J].微计算机信息,2007,23(30):205-207. 被引量：10
9孙宏纲,陆余良,刘金红,龚笔宏.基于HowNet的VSM模型扩展在文本分类中的应用研究[J].中文信息学报,2007,21(6):101-108. 被引量：8
10李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103

引证文献8

1孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
2刘玉林.基于词云和关联共现的电商产品命名特征研究[J].重庆科技学院学报（社会科学版）,2017,0(6):36-38. 被引量：1
3鲍薇.爬虫技术在互联网领域的应用探索[J].电脑迷,2017(10):109-109. 被引量：2
4程增辉,夏林旭,刘茂福.基于Python的健康数据爬虫设计与实现[J].软件导刊,2019,18(2):60-63. 被引量：9
5林维,陈曦,王松.OSSData:面向开源社区的分布式数据采集框架[J].计算技术与自动化,2019,38(1):102-107. 被引量：2
6程克非,邓先均,周科,罗昭,陈旭东.基于微博多维度及综合权值的热点话题检测模型[J].重庆邮电大学学报（自然科学版）,2019,31(4):468-475. 被引量：7
7刘定一,沈阳阳,詹天明,刘亚军,应毅.融合微博热点分析和LSTM模型的网络舆情预测方法[J].江苏大学学报（自然科学版）,2021,42(5):546-553. 被引量：17
8舒万畅.爬虫技术在大数据领域中的应用分析[J].科学技术创新,2018(36):91-92. 被引量：7

二级引证文献52

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
2李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
3刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
4朱烨行,张明杰.微博数据采集的设计与实现[J].电脑编程技巧与维护,2017(17):60-62. 被引量：2
5肖良玉.爬虫技术在互联网领域的应用[J].数码世界,2017,0(12):548-549. 被引量：4
6张即帅.基于爬虫技术的校园网络热点话题提取分类研究[J].自动化与仪器仪表,2018,0(3):90-92. 被引量：2
7陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10
8陈付旻,洛桑嘎登,刘晓慧.爬虫分析城市温度之旅游导向[J].电脑知识与技术,2019,15(4Z):29-30.
9韩楠,乔少杰,黄萍,彭京,周凯.基于群体智能的跨语言网络舆情文本聚类模型[J].重庆理工大学学报（自然科学）,2019,33(9):99-108. 被引量：4
10杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22

1王超,闾陈莉,吴迪,项英杰.基于HttpClient的Android客户端的设计与实现[J].计算机时代,2014(3):30-32. 被引量：7
2李俊丽.基于Linux的python多线程爬虫程序设计[J].计算机与数字工程,2015,43(5):861-863. 被引量：19
3申圣兵.Android模拟教务系统登录的设计与实现[J].电脑编程技巧与维护,2017(2):38-39.
4孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
5徐雁飞,刘渊,吴文鹏.社交网络数据采集技术研究与应用[J].计算机科学,2017,44(1):277-282. 被引量：14
6谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：198
7刘艳平,俞海英,戎沁.Python模拟登录网站并抓取网页的方法[J].微型电脑应用,2015,31(2):58-60. 被引量：16
8张妙凤.解除Windows XP SP2的TCP/IP连接限制[J].计算机应用文摘,2005(20):79-79.
9如何突破打印机共享连接数[J].电脑迷,2011(3):90-90.
10黄昆.移动与固定较量在边缘[J].中国计算机用户,2007(25):54-54.

江苏大学学报（自然科学版）

2016年第3期

浏览历史

内容加载中请稍等...

一种基于P2P技术的分布式微博爬虫系统被引量：8

参考文献16

二级参考文献77

共引文献204

同被引文献74

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

一种基于P2P技术的分布式微博爬虫系统 被引量：8

参考文献16

二级参考文献77

共引文献204

同被引文献74

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

一种基于P2P技术的分布式微博爬虫系统被引量：8