期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于微博API的分布式抓取技术 被引量:7
1
作者 陈舜华 王晓彤 +3 位作者 郝志峰 蔡瑞初 肖晓军 卢宇 《电信科学》 北大核心 2013年第8期146-150,155,共6页
随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式。针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博登录自动授权,合理控制API的调用频次,结合任务分配控制器... 随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式。针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博登录自动授权,合理控制API的调用频次,结合任务分配控制器高效地获取微博数据。该分布式抓取技术还结合时间触发和内存数据库技术实现重复控制,避免了数据的重复爬取和重复存储,提高了系统的性能。本分布式抓取技术具有可扩展性高、任务分配明确、效率高、多种爬取策略适应不同的爬取需求等特点。新浪微博数据爬取实例验证了该技术的可行性。 展开更多
关键词 新浪微博 爬取策略 分布式爬取 微博api
下载PDF
基于API的微博信息采集系统设计与实现 被引量:4
2
作者 吴斌杰 徐子玮 虞飞华 《电脑知识与技术(过刊)》 2013年第6X期4005-4008,共4页
微博已成为网络信息的重要来源,该文分析了微博信息采集的相关方法与技术,提出了基于API的信息采集方法,然后设计了一个信息采集系统,能够对新浪微博的相关信息进行采集。实验测试表明,该信息采集系统能够快速有效地采集新浪微博信息。
关键词 新浪微博 微博接口 信息采集 C#语言
下载PDF
基于多策略的新浪微博大数据抓取及应用 被引量:16
3
作者 孙晓 叶嘉麒 +1 位作者 唐陈意 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第10期1210-1215,共6页
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计... 微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。 展开更多
关键词 新浪微博api 大数据 数据挖掘 网络爬虫 多策略
下载PDF
在线社会网络的数据采集方法的研究 被引量:4
4
作者 黄蓝会 《信息技术》 2014年第2期53-55,共3页
在线社会网络是一个由亿万级用户及联接关系构成的大规模集合,其中以新浪微博为典型代表,目前已经成为人们日常交流的重要方式。如何在新浪微博中分析其用户的特征和网络拓扑结构成为研究在线社会网络的基础,利用新浪微博开放平台提供的... 在线社会网络是一个由亿万级用户及联接关系构成的大规模集合,其中以新浪微博为典型代表,目前已经成为人们日常交流的重要方式。如何在新浪微博中分析其用户的特征和网络拓扑结构成为研究在线社会网络的基础,利用新浪微博开放平台提供的API采集数据,实验证明,该方法切实可行。 展开更多
关键词 在线社会网络 新浪微博 api
下载PDF
基于在线社会网络的网络爬虫的研究和设计 被引量:6
5
作者 黄蓝会 《电子设计工程》 2014年第6期106-108,共3页
在线社会网络是一个由亿万级用户及联接关系构成的大规模集合,其中以新浪微博为典型代表,目前已经成为人们日常交流的重要方式。如何在新浪微博中分析其用户的特征和网络拓扑结构成为研究在线社会网络的基础,本文设计一个网络爬虫系统,... 在线社会网络是一个由亿万级用户及联接关系构成的大规模集合,其中以新浪微博为典型代表,目前已经成为人们日常交流的重要方式。如何在新浪微博中分析其用户的特征和网络拓扑结构成为研究在线社会网络的基础,本文设计一个网络爬虫系统,通过新浪微博开放平台提供的应用程序编辑接口(API)采集数据,实验证明,该方法切实可行。 展开更多
关键词 在线社会网络 微博 新浪微博 应用程序编辑接口 拓扑结构
下载PDF
基于在线社会网络采集数据的研究 被引量:1
6
作者 黄蓝会 《宝鸡文理学院学报(自然科学版)》 CAS 2014年第3期57-59,共3页
目的研究新浪微博数据采集问题。方法利用新浪微博API接口和本文设计的网络爬虫模型进行数据采集。结果与结论实验证明两种方法都可以在较短时间内收集到较多用户资料,但在过滤去重方面,本文设计的算法在时间上更为高效。
关键词 在线社会网络 新浪微博 应用程序编辑接口 网络爬虫
下载PDF
基于用户影响力的微博数据采集技术 被引量:2
7
作者 周雪 刘乃文 《山东师范大学学报(自然科学版)》 CAS 2016年第2期34-39,共6页
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集... 微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的基础上,提出了一种基于用户影响力的微博用户信息采集方案.将每一个API调用封装成一个Task类嵌入到具有模拟登陆功能的爬虫程序中,通过贝叶斯-Pagerank算法量化微博用户之间的关注关系得到用户的影响力值,依据用户影响力值决定爬取顺序,可以在有限的时间内采集到更多有价值的节点信息.实验结果表明该方案在微博数据采集的效率与性能上都有较大提高. 展开更多
关键词 新浪api 网络爬虫 用户影响力 贝叶斯概率 PAGERANK
下载PDF
社交网络挖掘方案研究 被引量:4
8
作者 俞忻峰 《现代电子技术》 北大核心 2015年第4期25-29,34,共6页
随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取... 随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳;基于网路爬虫方式抓取的速度比较慢,但是稳定性和数据完整性较好。最后提出通过采用两种方式相结合的方式,能够进一步提高抓取效率。 展开更多
关键词 新浪微博 数据挖掘 ANDROID SDK 新浪api 网络爬虫 信息采集
下载PDF
基于Android系统的新浪微博客户端的设计与实现
9
作者 王明超 《电脑知识与技术》 2012年第11X期7933-7935,7944,共4页
该系统基于Android移动开发平台,使用Java语言开发,使系统具有良好的平台移植性和可扩展性。新浪微博An droid SDK为第三方微博应用提供了文档易用的微博API调用服务,使第三方微博客户端无需了解复杂的验证和API调用过程,就可以实现分... 该系统基于Android移动开发平台,使用Java语言开发,使系统具有良好的平台移植性和可扩展性。新浪微博An droid SDK为第三方微博应用提供了文档易用的微博API调用服务,使第三方微博客户端无需了解复杂的验证和API调用过程,就可以实现分享文字或者多媒体信息到新浪微博。本系统包括四个模块:应用程序登录模块,主界面显示模块,微博浏览模块,用户模块。在登录模块,用户可以使用授权配置和用户注册并且登录系统。 展开更多
关键词 新浪微博开放平台 授权配置 微博api调用服务
下载PDF
新浪微博数据挖掘方案 被引量:120
10
作者 廉捷 周欣 +1 位作者 曹伟 刘云 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第10期1300-1305,共6页
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的... 随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的结合可以实现新浪微博数据高效全面的获取。 展开更多
关键词 新浪微博 新浪api 数据检索 网页解析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部