期刊文献+

基于新浪微博的爬虫程序设计与实现 被引量:2

Design and implementation of crawlers based on Sina Weibo
下载PDF
导出
摘要 为了快速地获取到微博中人际关系信息,根据网址的特点,文章提出了一种基于新浪微博的爬虫程序设计方法。本方法通过模拟登录新浪微博,实现抓取微博中由指定用户出发的关注对象的名称等信息;该程序利用解析关键路径,广度遍历等技术,匹配符合规定条件的人物名称,并抓取相关内容;最后对该程序又进一步地优化与改进。实验结果表明:本程序具有针对性强,数据采集速度合理,易推广开发,稳定性强等优点,为寻求人际关系的研究者提供了寻求微博用户关注者的方法,有利于对微博的后续数据挖掘研究。 In order to quickly obtain the interpersonal relationship information in Weibo,according to the characteristics of the website,the paper proposes a crawler program design method based on Sina Weibo.This method logs in Sina Weibo through simulation,and implements the information such as the name of the object of interest of the microblog starting from the specified user.The program uses techniques such as parsing critical paths,breadth traversal,etc.to match character names that meet the specified conditions and grasp Take related content;in the end,the program is further optimized and improved.The experimental results show that this program has the advantages of strong pertinence,reasonable data collection speed,easy promotion and development,and strong stability.It provides researchers seeking interpersonal relationships with methods for seeking Weibo users’attention and is beneficial to Weibo,which is conducive to the research on subsequent data mining of Weibo.
作者 胡海潮 Hu Haichao(Kunming University of Science and Technology,Kunming 650000,China)
机构地区 昆明理工大学
出处 《无线互联科技》 2018年第9期40-42,共3页 Wireless Internet Technology
关键词 人际关系 新浪微博 模拟登录 关键路径 广度遍历 interpersonal relationship Sina Weibo analog login critical path breadth traversal
  • 相关文献

参考文献7

二级参考文献30

  • 1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:153
  • 2孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量:22
  • 3CAI R;YANG J M;LAI W.iRobot:an intelligent crawler for Web forums[A]北京,2008447-456.
  • 4BREWINGTON B,CYBENKO G. How dynamic is the web[J].Computer Networks,2000.257-276.
  • 5FETTERLY D,MANASSE M,NAJOR. A large-scale study of the evolution of Web pages[A].New York:acm Press,2003.669-678.
  • 6新浪网.新浪微博开放平台APL[EB/OL].http://open.weibo.com/wiki/接口访问频次权限.
  • 7crifan.关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项.[EB/0L].http://www.crifan.com/summary_about_flow process_of fetch_webpage_simulate_login_website and some_not- ice/.
  • 8高森.Python网络编程基础[M].北京:电子工业出版社.2007:326.
  • 9MarkLutz.Learning Python[M].北京:机械工业出版总社,2009.
  • 10罗刚,王振东.自己动手写网络爬虫[M].北京:清华大学出版社,2012.

共引文献64

同被引文献14

引证文献2

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部