期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
新浪API与网络爬虫结合获取数据的研究与应用
被引量:
3
1
作者
石磊
《中国电子商务》
2013年第22期58-59,共2页
微博是近几年来兴起的一种社会化网络,类似于国外的twitter和facebook等社交网络,随着社交网络的发展,产生了大量的用户数据。如何有效的从这些大量的数据中提取到我们感兴趣的知识,成为数据挖掘领域重要的问题。由于单独使用网络...
微博是近几年来兴起的一种社会化网络,类似于国外的twitter和facebook等社交网络,随着社交网络的发展,产生了大量的用户数据。如何有效的从这些大量的数据中提取到我们感兴趣的知识,成为数据挖掘领域重要的问题。由于单独使用网络爬虫或者新浪API接口获取新浪微博中电商用户数据,无法一次性完成获取数据的任务。所以,本文主要介绍一种基于新浪API接口和网络爬虫相集合的方法获取新浪微博中用户数据的方法,设计方法中主要解决了新浪API接口的访问频率限制和网络爬虫需要下载大量页面的问题,并且结合了两种方法的优点。最后,采用统计性试验,对本文新提出的方法和传统的方法进行比较研究。
展开更多
关键词
数据挖掘
网络爬虫
新浪api
获取数据
下载PDF
职称材料
基于多策略的新浪微博大数据抓取及应用
被引量:
16
2
作者
孙晓
叶嘉麒
+1 位作者
唐陈意
任福继
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第10期1210-1215,共6页
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计...
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。
展开更多
关键词
新浪
微博
api
大数据
数据挖掘
网络爬虫
多策略
下载PDF
职称材料
微博炒作账户统计特征与识别模型初探
3
作者
李军红
《调研世界》
CSSCI
北大核心
2017年第9期47-53,共7页
随着微博的发展,近几年来网络上以微博为手段进行恶意炒作的事件不断增多,干扰了互联网正常秩序,对国家社会稳定与安全造成严重隐患。本文以新浪微博为研究对象,对规避新浪访问限制保障分布式数据持久采集、利用数据挖掘分类思想进行多...
随着微博的发展,近几年来网络上以微博为手段进行恶意炒作的事件不断增多,干扰了互联网正常秩序,对国家社会稳定与安全造成严重隐患。本文以新浪微博为研究对象,对规避新浪访问限制保障分布式数据持久采集、利用数据挖掘分类思想进行多特征炒作账户识别进行了研究,在进行特征分析时,选择决策树学习算法,通过测试建立分类模型,最终实现了对炒作微博账户的分析预测。
展开更多
关键词
新浪
微博炒作账户
新浪api
网络爬虫
ACCESS
Token算法
决策树
下载PDF
职称材料
基于用户影响力的微博数据采集技术
被引量:
2
4
作者
周雪
刘乃文
《山东师范大学学报(自然科学版)》
CAS
2016年第2期34-39,共6页
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集...
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的基础上,提出了一种基于用户影响力的微博用户信息采集方案.将每一个API调用封装成一个Task类嵌入到具有模拟登陆功能的爬虫程序中,通过贝叶斯-Pagerank算法量化微博用户之间的关注关系得到用户的影响力值,依据用户影响力值决定爬取顺序,可以在有限的时间内采集到更多有价值的节点信息.实验结果表明该方案在微博数据采集的效率与性能上都有较大提高.
展开更多
关键词
新浪api
网络爬虫
用户影响力
贝叶斯概率
PAGERANK
下载PDF
职称材料
社交网络挖掘方案研究
被引量:
4
5
作者
俞忻峰
《现代电子技术》
北大核心
2015年第4期25-29,34,共6页
随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取...
随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳;基于网路爬虫方式抓取的速度比较慢,但是稳定性和数据完整性较好。最后提出通过采用两种方式相结合的方式,能够进一步提高抓取效率。
展开更多
关键词
新浪
微博
数据挖掘
ANDROID
SDK
新浪api
网络爬虫
信息采集
下载PDF
职称材料
新浪微博数据挖掘方案
被引量:
120
6
作者
廉捷
周欣
+1 位作者
曹伟
刘云
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第10期1300-1305,共6页
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的...
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的结合可以实现新浪微博数据高效全面的获取。
展开更多
关键词
新浪
微博
新浪api
数据检索
网页解析
原文传递
题名
新浪API与网络爬虫结合获取数据的研究与应用
被引量:
3
1
作者
石磊
机构
国家物资储备调节中心
出处
《中国电子商务》
2013年第22期58-59,共2页
文摘
微博是近几年来兴起的一种社会化网络,类似于国外的twitter和facebook等社交网络,随着社交网络的发展,产生了大量的用户数据。如何有效的从这些大量的数据中提取到我们感兴趣的知识,成为数据挖掘领域重要的问题。由于单独使用网络爬虫或者新浪API接口获取新浪微博中电商用户数据,无法一次性完成获取数据的任务。所以,本文主要介绍一种基于新浪API接口和网络爬虫相集合的方法获取新浪微博中用户数据的方法,设计方法中主要解决了新浪API接口的访问频率限制和网络爬虫需要下载大量页面的问题,并且结合了两种方法的优点。最后,采用统计性试验,对本文新提出的方法和传统的方法进行比较研究。
关键词
数据挖掘
网络爬虫
新浪api
获取数据
分类号
TN915.08 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于多策略的新浪微博大数据抓取及应用
被引量:
16
2
作者
孙晓
叶嘉麒
唐陈意
任福继
机构
合肥工业大学计算机与信息学院
出处
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第10期1210-1215,共6页
基金
国家自然科学基金资助项目(61203315)
国家高技术研究发展计划(863计划)资助项目(2012AA011103)
安徽省科技攻关计划资助项目(1206c0805039)
文摘
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。
关键词
新浪
微博
api
大数据
数据挖掘
网络爬虫
多策略
Keywords
Sina microblogging
api
big data
data mining
Web crawler
multi-strategy
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
微博炒作账户统计特征与识别模型初探
3
作者
李军红
机构
郑州轻工业学院经济与管理学院
出处
《调研世界》
CSSCI
北大核心
2017年第9期47-53,共7页
基金
国家自然科学基金青年科学基金项目"微博炒作话题识别与传播人群分析"(61309007)
2015河南省科技厅软科学项目"河南省对外协同创新联盟研究"(152400410182)
文摘
随着微博的发展,近几年来网络上以微博为手段进行恶意炒作的事件不断增多,干扰了互联网正常秩序,对国家社会稳定与安全造成严重隐患。本文以新浪微博为研究对象,对规避新浪访问限制保障分布式数据持久采集、利用数据挖掘分类思想进行多特征炒作账户识别进行了研究,在进行特征分析时,选择决策树学习算法,通过测试建立分类模型,最终实现了对炒作微博账户的分析预测。
关键词
新浪
微博炒作账户
新浪api
网络爬虫
ACCESS
Token算法
决策树
分类号
C81 [社会学—统计学]
下载PDF
职称材料
题名
基于用户影响力的微博数据采集技术
被引量:
2
4
作者
周雪
刘乃文
机构
山东师范大学信息科学与工程学院
山东省分布式计算机软件新技术重点实验室
出处
《山东师范大学学报(自然科学版)》
CAS
2016年第2期34-39,共6页
基金
山东省教育科学规划公关课题(ZK1037123C023)
文摘
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的基础上,提出了一种基于用户影响力的微博用户信息采集方案.将每一个API调用封装成一个Task类嵌入到具有模拟登陆功能的爬虫程序中,通过贝叶斯-Pagerank算法量化微博用户之间的关注关系得到用户的影响力值,依据用户影响力值决定爬取顺序,可以在有限的时间内采集到更多有价值的节点信息.实验结果表明该方案在微博数据采集的效率与性能上都有较大提高.
关键词
新浪api
网络爬虫
用户影响力
贝叶斯概率
PAGERANK
Keywords
Sina
api
web crawler
user influential
Bayesian probability
PageRank
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
社交网络挖掘方案研究
被引量:
4
5
作者
俞忻峰
机构
南京理工大学
出处
《现代电子技术》
北大核心
2015年第4期25-29,34,共6页
基金
国家社会科学基金项目(13BTQ046)
文摘
随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳;基于网路爬虫方式抓取的速度比较慢,但是稳定性和数据完整性较好。最后提出通过采用两种方式相结合的方式,能够进一步提高抓取效率。
关键词
新浪
微博
数据挖掘
ANDROID
SDK
新浪api
网络爬虫
信息采集
Keywords
Sina microblog
data mining
Android
SDK
Sina
api
web crawler
information acquisition
分类号
TN911-34 [电子电信—通信与信息系统]
TP311.5 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
新浪微博数据挖掘方案
被引量:
120
6
作者
廉捷
周欣
曹伟
刘云
机构
北京交通大学通信与信息系统北京市重点实验室
中国信息安全测评中心
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第10期1300-1305,共6页
基金
高等学校博士学科点专项科研基金资助项目(20100009110002)
北京市自然科学基金资助项目(4112045)
文摘
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的结合可以实现新浪微博数据高效全面的获取。
关键词
新浪
微博
新浪api
数据检索
网页解析
Keywords
SINA microblog
SINA
api
data retrieval
webpage extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
新浪API与网络爬虫结合获取数据的研究与应用
石磊
《中国电子商务》
2013
3
下载PDF
职称材料
2
基于多策略的新浪微博大数据抓取及应用
孙晓
叶嘉麒
唐陈意
任福继
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014
16
下载PDF
职称材料
3
微博炒作账户统计特征与识别模型初探
李军红
《调研世界》
CSSCI
北大核心
2017
0
下载PDF
职称材料
4
基于用户影响力的微博数据采集技术
周雪
刘乃文
《山东师范大学学报(自然科学版)》
CAS
2016
2
下载PDF
职称材料
5
社交网络挖掘方案研究
俞忻峰
《现代电子技术》
北大核心
2015
4
下载PDF
职称材料
6
新浪微博数据挖掘方案
廉捷
周欣
曹伟
刘云
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011
120
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部