期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Python的微博爬虫系统研究 被引量:9
1
作者 陈政伊 袁云静 +1 位作者 贺月锦 武瑞轩 《大众科技》 2017年第8期8-11,共4页
随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微博为代表的一系列社交应用蕴含着巨大的数据资源。以新浪微博为研究对象,利用Python语言实现模拟登陆和网页解析技术,将获取的用户信息存为文档进行分析。文章分析了新浪微博模拟登... 随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微博为代表的一系列社交应用蕴含着巨大的数据资源。以新浪微博为研究对象,利用Python语言实现模拟登陆和网页解析技术,将获取的用户信息存为文档进行分析。文章分析了新浪微博模拟登陆时的加密方法,研究了验证码识别的实现方法,对挖掘的数据使用TF-IDF算法进行分析,提出了新的微博数据挖掘方向,论述了爬虫的国内外研究现状及开发难题。 展开更多
关键词 大数据 新浪微博 数据挖掘 Python爬虫 模拟登陆
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部