期刊文献+

基于多策略的新浪微博大数据抓取及应用 被引量:16

Method of Sina microblogging big data grabbing based on multi-strategy and its application
下载PDF
导出
摘要 微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。 Dealing with microblogging data belongs to big data areas ,and the premise is to obtain a large a-mount of microblogging data .For the commercial interests as well as security considerations ,the access to the microblogging data is more and more difficult and the Sina official open API does not support large data plug-in .In this paper ,a mining scheme ,w hich is mainly based on the access mechanism of multi-strategy and ex-isting resources ,is designed to catch data stably from Sina microblog .And an example of its application in sentiment analysis is given .The test results show that the proposed mining scheme can catch microblogging data as needed and it is suitable for the sentiment analysis of microblog .
出处 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第10期1210-1215,共6页 Journal of Hefei University of Technology:Natural Science
基金 国家自然科学基金资助项目(61203315) 国家高技术研究发展计划(863计划)资助项目(2012AA011103) 安徽省科技攻关计划资助项目(1206c0805039)
关键词 新浪微博API 大数据 数据挖掘 网络爬虫 多策略 Sina microblogging API big data data mining Web crawler multi-strategy
  • 相关文献

参考文献8

二级参考文献133

共引文献497

同被引文献129

  • 1卫志华,孔思尹,丁志军,赵才荣.新工科背景下数据挖掘课程综合性实验设计[J].计算机教育,2020(3):127-130. 被引量:17
  • 2邓砚,聂高众,苏桂武.地震应急的影响因素分析[J].灾害学,2005,20(2):27-33. 被引量:28
  • 3刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):11-12. 被引量:311
  • 4新浪.新浪微博发布2015第三季度财报[EB/OL].http://tech.sina.com.cn/i/2015- 11 - 19/doc-ifxkwuwxOl83629.shtml, 2015-11-19.
  • 5新浪.新浪微博开放API[EB/OL]. htlp://opeawdbo.com/\viki/%E5%BE%AE)E5%8D%9AAPI, 2015-11-19.
  • 6Binux. pyspider 爬虫教程:AJAX 和 HTTP [EB/OL]. http://blog,binux.me/2015/01/ pyspider-tutorial-level-2-ajax-and-more-http/,2015-11-19.
  • 7CSDN.利用python 实现新浪微博爬虫[EB/OL]. http://blog.csdn.net/monsion/ article/details/7981366, 2015-11 - 19.
  • 8CSDN.PageRank 算法[EB/OL]. http://blog.csdn.net/hguisu/article/details/7996185, 2015-11-19.
  • 9CAPPELLETTIR,SASTRY N. IARank: Ranking Users onTwitter in Near Real-Time, Based on Their Information AmplificationPotential[EB/OL]. http://www.computer.org/csdl/proceedings/socialinformatics/2012/5015/00/5015a070-abs.html, 2015-11-19.
  • 10周鑫,彭斯俊,等.基于新浪微博开放平台的用户数据挖掘[D].武汉:武汉理工大学理学院数学系,2012.

引证文献16

二级引证文献72

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部