期刊文献+

多策略融合的微博数据获取技术研究 被引量:3

Research on microblog data collection based on multiple hybrid strategy
原文传递
导出
摘要 微博正逐步成为公共信息传播的主要社交媒体,高效地获取微博数据对于网络舆情分析具有重要意义。以新浪微博为研究对象,研究了通过微博API、模拟登录和构造访客Cookie进行数据采集的3种方案,提出了一种多策略融合的微博数据采集方案。针对模拟登录的方案设计实现了自适应的并发采集算法,使数据采集较为稳定高效;针对构造访客Cookie的方案设计实现了高可用代理池模块,进一步提高了数据采集效率。实验结果表明,基于模拟登录的自适应并发采集策略和构造访客Cookie融合的方案能够高效、全面、稳定地获取微博数据。 Microblog is becoming the main social media to spread public information, efficient acquisition of microblog data is important to the analysis of online public opinion. Taking Microblog as the research object, there are three data collection strategies through microblog API, simulated login technology and visitor cookie are studied. A data collection method for microblog based on fusion strategy is proposed. An adaptive concurrent data acquisition algorithm is designed and implemented for the web crawler based on simulated login technology. A high available IP proxy pool is designed to accelerate data acquisition for the web crawler based on visitor Cookie. Experimental results show that the fusion strategy is more effective, complete and stable in microblog data collection.
作者 王培名 陈兴蜀 王海舟 王文贤 WANG Pei-ming;CHEN Xing-shu;WANG Hai-zhou;WANG Wen-xian(College of Computer Science,Sichuan University,Chengdu 610065,Sichuan,China;College of Cybersecurity,Sichuan University,Chengdu 610065,Sichuan,China;Cybersecurity Research Institute,Sichuan University,Chengdu 610065,Sichuan,China)
出处 《山东大学学报(理学版)》 CAS CSCD 北大核心 2019年第5期28-36,43,共10页 Journal of Shandong University(Natural Science)
基金 国家自然科学基金资助项目(61802270,61802271) 国家“双创”示范基地之变革性技术国际研发转化平台资助项目(C700011) 四川省重点研发资助项目(2018G20100) 四川省科技支撑计划项目(2016GZ0038) 中央高校基本科研业务费专项资金资助(2017SCU11065)
关键词 微博API 模拟登录 访客Cookie 策略融合 自适应 代理池 API simulated login visitor Cookie fusion strategy adaptive IP proxy pool
  • 相关文献

参考文献5

二级参考文献44

  • 1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量:141
  • 2汪涛,樊孝忠.链接分析对主题爬虫的改进[J].计算机应用,2004,24(B12):174-176. 被引量:12
  • 3林雅榕,侯整风.对哈希算法SHA-1的分析和改进[J].计算机技术与发展,2006,16(3):124-126. 被引量:24
  • 4杜谦,张文霞.多语言可实现的SHA-1散列算法[J].武汉理工大学学报(信息与管理工程版),2007,29(7):42-44. 被引量:7
  • 5斯图尔特 G W.矩阵计算引论[M].王守根等译.上海:科学技术出版社,1980.
  • 6Han J W Kamber M 范明 孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版杜,2001.147-158.
  • 7Heaton Jeff.网络机器人Java编程指南[M].童兆丰.北京:电子工业出版社,2002.
  • 8WenE,SunV.新浪微博研究报告[EB/OL].2011-05-20.http://www.tech Web.com.cn/data/2011-02-25/916941.shtml.
  • 9Han Ruixia. The influence of microblogging on personal public participation[ C]//Proceedings of the 2010 IEEE 2nd sympo- sium on web society. Beijing, China:Association for Computing Machinery ,2010:615 -618.
  • 10Sion R, Atallah M,Prabhakar S. Rights protection for relational databases[ J ]. IEEE transaction on knowledge and data engi- neering,2004,16(12) :1509-1525.

共引文献64

同被引文献28

引证文献3

二级引证文献91

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部