多策略融合的中文微博数据采集方法被引量：6

Chinese microblog data collecting method based on multiple hybrid strategies

下载PDF

导出

摘要在基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的对比分析基础上,提出了一种多策略融合的中文微博数据采集方法。设计实现了广度优先的微博数据采集算法和随机活跃用户微博数据采集算法,全面高效采集中文微博中的用户ID数据、用户个人信息数据、用户微博信息数据和微博用户关注信息数据,为微博社会网络分析提供有价值的微博信息源。真实数据集上的实验结果表明,该方法不仅具有较高的采集效率,而且还具有很好的用户覆盖面。 Comparative analyzing Cookie-based crawler with API-based microblog data collecting method, a Chinese microblog data collecting method based-on multiple hybrid strategies is proposed, the ID data of users, personal information of users, microlog information data of users and information data microblog user attention are collected, valuable microblog information source is provided for microblog social network analysis. Especially a breadth-first data collecting algorithm and a random active user data collecting algorithm are designed and implemented. Online experiments show that this multiple hybrid strategy is more effective in collection and data coverage.

作者朱云鹏冯枫陈江宁

机构地区中国人民解放军驻北京地区军事代表室合肥电子工程学院网络工程系

出处《计算机工程与设计》 CSCD 北大核心 2013年第11期3835-3839,共5页 Computer Engineering and Design

关键词中文微博数据采集搜索引擎 Cookie爬虫信息挖掘 Chinese microblogl data collection search engine Cookie-based crawler information mining

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1高弋坤.新浪微博用户数再创新高[J].通信世界,2011(46):11-11. 被引量：3
2Minas Gjoka, Maciej Kurant, Carter T Butts, et al. Practical recommendations on crawling online social networks [C] // America: Proceedings of IEEE Journal on Selected Areas in Communications, 2011:1872-1892.
3Banerjee N, Chakraborty D. User interests in social media sites: An exploration with miero-blogs [C] //America: Pro ceedings of the 18th ACM Conference on Information and Knowledge Management, 2009: 1823-1826.
4Galuba W. Outtweeting the twitterers predicting information cascades in mieroblogs [C] //America: Proceedings of 3rd USENIX Workshop on Online Social Networks, 2010.
5Suh Bc. Want to be retweeted? Large scale analytics on factors impacting retweet in twitter network [C]//America: Second IEEE International Conference on Social Computing, 2010: 177-184.
6Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter [C]//America: Proceedings of 43rd Hawaii International Conference on Systems Science, 2010: 1-10.
7Huberman B, Romero D, Wu F. Social networks that matter: Twitter under the microscope [J]. First Monday, 2009, 14 (1): 1-5.
8Petrovic S, Osbome M, Lavrenko V. RT to win! Predicting message propagation in twitter [C] //America: Proceedings of the International AAAI Conference on Weblogs and Social Media, 2011: 586-589.
9Yue Chuan, Xie Mengjun, Wang Haining. An automatic HTTP cookie management system [J]. Computer Networks-COMPUTNETW, 2010, 54 (13): 2182-2198.
10郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13

二级参考文献12

1Raghavan S,Garcia-Molina H.Crawling the hidden web[C].Roma,Italy:Proceedings of the 27th International Conference on Very Large Data Bases,2001.129-138.
2Cormen T H,Leiserson C E,Rivest R L.Introduction to algorithms[M].2nd Edition.MIT Press/McGraw Hill,2001.
3Ipeirotis P,Gravano L.Distributed search over the hidden web:Hierarchical database sampling and selection[C].VLDB,2002.
4Ntoulas A,Cho J,Olston C.What's new on the web? The evolution of the web from a search engine perspective[Z].WWW,2004.
5Barbosa L,Freire J.Siphoning hidden-web data through keyword-based interfaces[C].SBBD,2004.
6Cope J,Craswell N,Hawking D.Automated discovery of search interfaces on the web[C].14th Australasian conference on Data Base technologies,2003.
7He B,Chang K C C.Statistical schema matching across web query interfaces[C].SIGMOD Conference,2003.
8Ipeirotis P G,Gravano L,Sahami M.Probe,count,and classify:Categorizing hidden web databases[C].SIGMOD,2001.
9Liu V Z,Luo J C Richard C,Chu W W.Dpro:A probabilistic approach for hidden web database selection using dynamic probing[C].ICDE,2004.
10Wang Jiying.Information discovery,extraction and integration for the hidden web[C].2002.

共引文献14

1董旻,方曙.Deep Web信息抽取研究[J].图书情报工作,2007,51(10):25-28. 被引量：5
2曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
3张云冬,徐和祥,胡运发,邓河.基于个性化图书馆的Deep Web Crawler研究与实现[J].计算机应用与软件,2009,26(4):148-149. 被引量：1
4周二虎,张水平,胡洋.基于Deep Web检索的查询结果处理技术的应用[J].计算机工程与设计,2010,31(1):106-109.
5黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
6李贵,韩子扬,郑新录,李征宇.基于Apriori算法的Deep Web网页关系挖掘研究[J].山东大学学报（理学版）,2011,46(5):67-70.
7郭少友,赵善义,李建平,王斌.基于数据库分类的deep web爬行器研究[J].情报科学,2011,29(10):1575-1579.
8周杨.支持Ajax的Deep Web爬虫研究与设计[J].计算机系统应用,2012,21(2):167-171. 被引量：1
9邢勇.微博的自媒体特征及社会责任建构[J].中国出版,2012(7):30-33. 被引量：33
10钱程,阳小兰.一种支持Ajax框架的网络爬虫的设计与实现[J].计算机与数字工程,2012,40(4):69-71. 被引量：3

同被引文献47

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
3李超锋,卢炎生.基于URL结构和访问时间的Web页面访问相似性度量[J].计算机科学,2007,34(4):207-209. 被引量：4
4刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
5中国互联网信息中心.第33次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/t20140305_46240.htm,2014/3/5.
6Cheerio.Open source connections[M/OL].[2014-09-30].http://www.cheeriojs.github.io Cheerio.
7宗成庆.统计自然语言处理[M].2版.北京:清华大学出版社,2013:460-463.
8Heinselman P L, Ryzhkov A V. Validation of polarimetric hail detection [ J ]. Weather and Forecasting, 2006, 21 (5) : 839-850.
9Ryzhkov A V, Kumjian M R, Ganson S M, et al. Polari- metric radar characteristics of melting hail. Part Ⅱ: Practi- cal implications [ J ]. Journal of Applied Meteorology and Climatology, 2013,52 (12) : 2871-2886.
10张华平.NLPIR汉语分词系统[DB/OL].http://ict-clas.nlpir.org/,2015-07-03.

引证文献6

1俞忻峰.社交网络挖掘方案研究[J].现代电子技术,2015,38(4):25-29. 被引量：4
2王萍,王贺颖.基于新浪微博的冰雹实况信息挖掘[J].计算机与现代化,2016(3):24-29.
3卢杨,李华康,孙国梓.一种基于P2P技术的分布式微博爬虫系统[J].江苏大学学报（自然科学版）,2016,37(3):296-301. 被引量：8
4沈洪洲.一种基于Chrome扩展程序的网络数据采集方法[J].计算机应用与软件,2016,33(7):10-13. 被引量：5
5王志文,陈珂,陈晓升,郑远飞,陈坚旋.基于MVC设计模式的微博数据采集框架[J].广东石油化工学院学报,2017,27(1):31-36. 被引量：1
6陈珂,蓝鼎栋,柯文德,黎树俊,邓文天.基于Java的新浪微博爬虫研究与实现[J].计算机技术与发展,2017,27(9):191-196. 被引量：8

二级引证文献26

1郭林.一种基于社交媒体短链接的网页舆情热点数据挖掘方法[J].软件导刊,2015,14(11):139-141. 被引量：2
2孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
3刘玉林.基于词云和关联共现的电商产品命名特征研究[J].重庆科技学院学报（社会科学版）,2017,0(6):36-38. 被引量：1
4朱烨行,张明杰.微博数据采集的设计与实现[J].电脑编程技巧与维护,2017(17):60-62. 被引量：2
5冯春燕.基于爱课程网的资源共享课使用效益及现状分析研究[J].中国教育信息化,2017,23(23):51-53. 被引量：2
6张章学.社交网络敏感数据获取方法研究[J].软件导刊,2018,17(3):56-58. 被引量：1
7罗咪.基于Python的新浪微博用户数据获取技术[J].电子世界,2018,0(5):138-139. 被引量：10
8鲍薇.爬虫技术在互联网领域的应用探索[J].电脑迷,2017(10):109-109. 被引量：2
9田思,杨雁.基于Chrome浏览器扩展的图书采访插件开发[J].电脑知识与技术,2019,15(2Z):93-95. 被引量：2
10陈珂,柯文德,许波.一种基于增量式时间序列和最佳任务调度的Web数据聚类算法[J].现代电子技术,2016,39(14):4-8. 被引量：1

1刘海燕.浅析计算机的安全登录[J].无线互联科技,2013,10(3):97-97.
2叶涛.浅析计算机的文件安全[J].卷宗,2014,4(7):366-366.
3陶兴宇,徐蕾.基于本地数据处理的网络监控数据采集算法[J].沈阳航空航天大学学报,2016,33(3):84-87.
4于瑞云,周岩.参与式感知系统中基于压缩感知的数据采集算法[J].东北大学学报（自然科学版）,2015,36(2):194-198. 被引量：1
5郑笑彬.数据采集算法的研究[J].港口装卸,2011(6):31-34.
6李建,张向利,唐甜,陶晗,韦礼凯.基于GA-SVR的数据采集算法[J].桂林电子科技大学学报,2013,33(5):379-383.
7楼晓鸿,丁宝康.一种多支持度的关联规则采集算法[J].计算机工程,2001,27(6):102-103. 被引量：7
8李营那,张瑜.一种可自由配置的网页采集系统原理及其实现[J].电脑知识与技术（过刊）,2015,21(12X):133-135.
9计量生物学电键设计将ID数据保存在了电路板上[J].今日电子,2002(12):9-9.
10陈阳,崔英敏.基于WEB日志的数据挖掘在校园网应用中的探索[J].广东轻工职业技术学院学报,2005,4(1):20-22. 被引量：2

计算机工程与设计

2013年第11期

浏览历史

内容加载中请稍等...

多策略融合的中文微博数据采集方法被引量：6

参考文献10

二级参考文献12

共引文献14

同被引文献47

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

多策略融合的中文微博数据采集方法 被引量：6

参考文献10

二级参考文献12

共引文献14

同被引文献47

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

多策略融合的中文微博数据采集方法被引量：6