一种基于动态网页解析的微博数据抓取方法被引量：3

Date Crawler for Sina Microblog Based on Dynamic Webpage Date Interpreting

下载PDF

导出

摘要微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。 Microblogging is a new kind of information media.The mass data are generated to attracts the attention of the researchers to carry out related research.Micro-blog data acquisition is the basis and starting point for further research.This paper presents a multi-threaded crawler for Sina microblog platform based on dynamic webpage interpreting.The browser kernel is used to interpret the dynamic data of microblog webpage.Through simulated login,the page crawling strategy based on the characteristics of social networking site is determined,and the webpage parsing technology is used to custom templates of webpage to achieve user-centric microblog data acquisition.The test results show that the method can capture microblog data of user comprehensive and efficiently,provide data support for subsequent dta analysis and processing.

作者钟明翔唐晋韬谢松县王挺

机构地区国防科学技术大学计算机学院

出处《舰船电子工程》 2015年第10期95-99,共5页 Ship Electronic Engineering

基金国家自然科学基金(编号:61200337 61472436)资助

关键词新浪微博数据挖掘动态网页爬虫 sina microblog data mining dynamic webpage Web crawler

分类号 TP311.12 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1ABRAHAM R, MART NEZ T. Twittter: Network properties analysisl-C]//Proceedings of the CONIELE- COMP 2010-20th International Conference on Elec- tronics Communications and Computers. Cholula Pueb- la, Mexico: IEEE Computer Society,2010:180-183.
2HAN Ruixia. The influence of microblogging on per- sonai public partionC//Proceeding of the 2010 IEEE 2nd Symposium on Web Society, SWS 2010. Beijing, China: Association for Computing Machinery, 2010: 615-618.
3游翔,葛卫丽.微博数据获取技术及展望[J].电子科技,2014,27(10):123-126. 被引量：5
4陈舜华,王晓彤,郝志峰,蔡瑞初,肖晓军,卢宇.基于微博API的分布式抓取技术[J].电信科学,2013,29(8):146-150. 被引量：7
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
6廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
7孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
8新浪.微博API开发文档[EB/OL].http://open.wei-bo.com/wiki/微博API,2014-11-12/2014-12-29.
9吴伶琳.基于Selenium的软件自动化测试的研究与应用[J].计算机与现代化,2013(2):65-68. 被引量：22

二级参考文献89

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
3宋波,张忠能.基于系统功能测试的软件自动化测试可行性分析[J].计算机应用与软件,2005,22(12):31-33. 被引量：22
4韩丽娜.黑盒测试及测试工具Rational Robot的应用[J].计算机工程与设计,2006,27(2):359-360. 被引量：8
5林雅榕,侯整风.对哈希算法SHA-1的分析和改进[J].计算机技术与发展,2006,16(3):124-126. 被引量：24
6彭彬,甘早斌.Web应用系统的性能和伸缩性评价[J].计算机工程,2006,32(11):251-252. 被引量：4
7杜谦,张文霞.多语言可实现的SHA-1散列算法[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):42-44. 被引量：7
8Pieter N, Michiel H. Mining Twitter in the cloud: A case study [C]// Proceedings of the 2010 IEEE 3rd International Conference on Cloud Computing, CLOUD 2010. Miami, USA: IEEE Computer Society, 2010: 107 -114.
9Abraham R, Martinez T. Twitter: Network properties analysis [C]// Proceedings of the CONIELECOMP 2010 20th International Conference on Electronics Communications and Computers. Cholula Puebla, Mexico: IEEE Computer Society, 2010: 180 - 184.
10wenE,SunV.新浪微博研究报告[Z/OL].(2011-05-20),http://www.techweb.com.cn/data/2011-02-25/916941.shtml.

共引文献310

1韩妍妍,何彦茹,刘培鹤,任慧,张锦圣.基于爬虫的XSS漏洞检测工具设计与实现[J].北京电子科技学院学报,2019,0(1):7-16. 被引量：1
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
4于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
5于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
6张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
7胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
8李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
9孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
10王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.

同被引文献48

1卫志华,孔思尹,丁志军,赵才荣.新工科背景下数据挖掘课程综合性实验设计[J].计算机教育,2020(3):127-130. 被引量：18
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
4徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
5费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
6肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
7翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
8赵川,杜玲,岳鹏,刘少君,林征胜,赵荣海.基于中文的自然语言理解初探[J].现代电子技术,2007,30(6):82-85. 被引量：4
9朱小娟,陈特放.基于SVM的词频统计中文分词研究[J].微计算机信息,2007,23(30):205-207. 被引量：10
10孙宏纲,陆余良,刘金红,龚笔宏.基于HowNet的VSM模型扩展在文本分类中的应用研究[J].中文信息学报,2007,21(6):101-108. 被引量：8

引证文献3

1孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
2杜润泽,梁英,方英兰.Web异步加载技术分析及信息爬取策略实现[J].电脑知识与技术,2018,14(8X):223-225. 被引量：1
3张晓川.基于人工智能推理引擎的微博数据挖掘方法研究[J].现代科学仪器,2020(3):193-196.

二级引证文献8

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
2李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
3刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
4朱烨行,张明杰.微博数据采集的设计与实现[J].电脑编程技巧与维护,2017(17):60-62. 被引量：2
5韩楠,乔少杰,黄萍,彭京,周凯.基于群体智能的跨语言网络舆情文本聚类模型[J].重庆理工大学学报（自然科学）,2019,33(9):99-108. 被引量：4
6孟令春,孔淑莹.基于多语种的大数据资源库建设策略研究[J].电子技术与软件工程,2022(20):244-247.
7黄冠维,潘伟东.5G技术应用于医疗领域发展趋势的研究[J].科技与创新,2023(9):95-98. 被引量：2
8陶雪娇.基于Python的异步数据采集与预处理[J].电子元器件与信息技术,2024,8(7):24-26.

1郑宇.Dreamweaver一体化教学方法探讨[J].科技创业家,2012(24):218-218. 被引量：1
2石春.Internet的发展与有线电视[J].甘肃科技,2001,17(6):28-28.
3徐辉,林芳.基于Oauth2.0的微博信息采集系统的设计[J].福建电脑,2015,31(8):21-22.
4孙楠,詹秦川.Flash——广告设计的新趋势[J].中国科技信息,2005(24A):26-26. 被引量：3
5舒奔,尹珂.基于内容与链接分析的主题爬虫研究与设计[J].计算机与现代化,2014(4):77-80. 被引量：2
6焦继乐,曹志强,赵鹏,谭民.基于模糊趋近的移动机械臂目标抓取方法[J].华中科技大学学报（自然科学版）,2013,41(S1):47-50. 被引量：4
7万久士,李翔,林祥.基于JSSh的动态网页获取研究与实现[J].信息安全与通信保密,2010,7(4):93-95. 被引量：4
8曾建军,杨汝清,张伟军.有限人参与下的排爆机器人半自主抓取[J].上海交通大学学报,2007,41(8):1238-1243. 被引量：8
9田国会,袁丽,李国栋,李岩.结合迭代学习控制的视觉伺服物品抓取方法[J].华中科技大学学报（自然科学版）,2015,43(S1):536-540. 被引量：2
10彭刚,黄心汉,王敏,熊春山.基于视觉引导和超声测距的运动目标跟踪和抓取[J].高技术通讯,2002,12(6):74-78. 被引量：13

舰船电子工程

2015年第10期

浏览历史

内容加载中请稍等...

一种基于动态网页解析的微博数据抓取方法被引量：3

参考文献9

二级参考文献89

共引文献310

同被引文献48

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于动态网页解析的微博数据抓取方法 被引量：3

参考文献9

二级参考文献89

共引文献310

同被引文献48

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于动态网页解析的微博数据抓取方法被引量：3