期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
新浪API与网络爬虫结合获取数据的研究与应用 被引量:3
1
作者 石磊 《中国电子商务》 2013年第22期58-59,共2页
微博是近几年来兴起的一种社会化网络,类似于国外的twitter和facebook等社交网络,随着社交网络的发展,产生了大量的用户数据。如何有效的从这些大量的数据中提取到我们感兴趣的知识,成为数据挖掘领域重要的问题。由于单独使用网络... 微博是近几年来兴起的一种社会化网络,类似于国外的twitter和facebook等社交网络,随着社交网络的发展,产生了大量的用户数据。如何有效的从这些大量的数据中提取到我们感兴趣的知识,成为数据挖掘领域重要的问题。由于单独使用网络爬虫或者新浪API接口获取新浪微博中电商用户数据,无法一次性完成获取数据的任务。所以,本文主要介绍一种基于新浪API接口和网络爬虫相集合的方法获取新浪微博中用户数据的方法,设计方法中主要解决了新浪API接口的访问频率限制和网络爬虫需要下载大量页面的问题,并且结合了两种方法的优点。最后,采用统计性试验,对本文新提出的方法和传统的方法进行比较研究。 展开更多
关键词 数据挖掘 网络爬虫 新浪api 获取数据
下载PDF
基于多策略的新浪微博大数据抓取及应用 被引量:16
2
作者 孙晓 叶嘉麒 +1 位作者 唐陈意 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第10期1210-1215,共6页
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计... 微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。 展开更多
关键词 新浪微博api 大数据 数据挖掘 网络爬虫 多策略
下载PDF
微博炒作账户统计特征与识别模型初探
3
作者 李军红 《调研世界》 CSSCI 北大核心 2017年第9期47-53,共7页
随着微博的发展,近几年来网络上以微博为手段进行恶意炒作的事件不断增多,干扰了互联网正常秩序,对国家社会稳定与安全造成严重隐患。本文以新浪微博为研究对象,对规避新浪访问限制保障分布式数据持久采集、利用数据挖掘分类思想进行多... 随着微博的发展,近几年来网络上以微博为手段进行恶意炒作的事件不断增多,干扰了互联网正常秩序,对国家社会稳定与安全造成严重隐患。本文以新浪微博为研究对象,对规避新浪访问限制保障分布式数据持久采集、利用数据挖掘分类思想进行多特征炒作账户识别进行了研究,在进行特征分析时,选择决策树学习算法,通过测试建立分类模型,最终实现了对炒作微博账户的分析预测。 展开更多
关键词 新浪微博炒作账户 新浪api 网络爬虫 ACCESS Token算法 决策树
下载PDF
基于用户影响力的微博数据采集技术 被引量:2
4
作者 周雪 刘乃文 《山东师范大学学报(自然科学版)》 CAS 2016年第2期34-39,共6页
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集... 微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的基础上,提出了一种基于用户影响力的微博用户信息采集方案.将每一个API调用封装成一个Task类嵌入到具有模拟登陆功能的爬虫程序中,通过贝叶斯-Pagerank算法量化微博用户之间的关注关系得到用户的影响力值,依据用户影响力值决定爬取顺序,可以在有限的时间内采集到更多有价值的节点信息.实验结果表明该方案在微博数据采集的效率与性能上都有较大提高. 展开更多
关键词 新浪api 网络爬虫 用户影响力 贝叶斯概率 PAGERANK
下载PDF
社交网络挖掘方案研究 被引量:4
5
作者 俞忻峰 《现代电子技术》 北大核心 2015年第4期25-29,34,共6页
随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取... 随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳;基于网路爬虫方式抓取的速度比较慢,但是稳定性和数据完整性较好。最后提出通过采用两种方式相结合的方式,能够进一步提高抓取效率。 展开更多
关键词 新浪微博 数据挖掘 ANDROID SDK 新浪api 网络爬虫 信息采集
下载PDF
新浪微博数据挖掘方案 被引量:120
6
作者 廉捷 周欣 +1 位作者 曹伟 刘云 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第10期1300-1305,共6页
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的... 随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的结合可以实现新浪微博数据高效全面的获取。 展开更多
关键词 新浪微博 新浪api 数据检索 网页解析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部