期刊文献+

一种基于P2P技术的分布式微博爬虫系统 被引量:8

Distributed microblog crawler system based on P2P
下载PDF
导出
摘要 微博正逐步成为公共信息传播的主要媒体,高效地获取微博数据则显得至关重要,分析微博数据有助于研究者及时了解舆情信息.由于传统网页爬虫无法获取完整的微博信息,微博API又有诸多限制,因此针对新浪微博,设计了一种基于P2P技术的微博爬虫系统.该系统避免了新浪API的功能和连接限制,使用基于模拟登录的网页爬虫,根据用户的地理位置信息划分任务,实现连续高效的数据采集.通过与其他架构的试验比较,证明本系统具有良好的性能,能为舆情分析提供数据支持. Microblog is becoming the main media to spread public information. Analyzing microblog data can contribute to timely knowing public information for researchers. Therefore, it is important to effectively collect microblog data. To solve the problems that the traditional web clawer could not inquire whole information and the API had lots of restrictions,a distributed crawler system was designed based on P2 P for SINA microblog. The crawler was based on simulated login technology and assigned tasks according to user position information to efficiently collect data continuously. The comparison results with other structures show that the proposed system has good performance to provide adequate data.
出处 《江苏大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第3期296-301,共6页 Journal of Jiangsu University:Natural Science Edition
基金 国家自然科学基金资助项目(61373006 61502247)
关键词 网络爬虫 P2P 分布式 微博 模拟登录 web crawler P2P distributed microblog simulated login
  • 相关文献

参考文献16

  • 1戴月卿,钟玲,林柏钢,陈明志.基于微博的人物关系网络挖掘系统[J].信息网络安全,2013(2):83-86. 被引量:4
  • 2HAN R. The influence of microblogging on personal public participation [ C ]//Proceedings of the 2010 IEEE 2nd Symposium on Web Society, SWS 2010. Beijing, China : Association for Computing Machinery, 2010 : 615 -618.
  • 3WESTMAN S, FREUND L. Information Interaction in 140 characters or less: genres on twitter [ C ] // II- ix2010--Proceedings of the 2010 Information Interaction in Context Symposium. New Brunswick, USA: Associa- tion for Computing Machinery,2010:323 - 326.
  • 4NOORDHUIS P, HE1JKOOP M. Mining twitter in the cloud: a case study[ C]//Proceedings of the 2010 IEEE 3rd International Conference on Cloud Computing, CLOUD 2010. Miami, USA: IEEE Computer Society, 2010:107 - 114.
  • 5RONEL A, TEUTLE M. Twitter: network properties analysis[ C] //2010 20th International Conference on Electronics Communications and Computers. Cholula Puebla, Mexico: IEEE Computer Society, 2010 : 180 - 184.
  • 6廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报(自然科学版),2011,51(10):1300-1305. 被引量:120
  • 7朱云鹏,冯枫,陈江宁.多策略融合的中文微博数据采集方法[J].计算机工程与设计,2013,34(11):3835-3839. 被引量:6
  • 8孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量:30
  • 9李龙,李芝棠,涂浩,史春永.一种分布式微博数据采集平台的设计与实现[J].广西大学学报(自然科学版),2011,36(A01):324-328. 被引量:9
  • 10ORAM A. Peer-to-peer : harnessing the power of disrup- tive technologies[J]. SIGMOD Record, 2003, 32 (2) : 57 - 66.

二级参考文献77

共引文献204

同被引文献74

引证文献8

二级引证文献52

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部