期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Java的新浪微博爬虫研究与实现 被引量:8
1
作者 陈珂 蓝鼎栋 +2 位作者 柯文德 黎树俊 邓文天 《计算机技术与发展》 2017年第9期191-196,共6页
为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统。该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源... 为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统。该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源码更加简洁,纯净度更高,降低了网络传输压力并减少了HTML源码解析时间。主要实现了微博模拟登陆、微博网页爬取、微博页面数据提取和任务调度控制,并对爬取数据进行了分析,在爬虫中添加了主题微博筛选功能。为验证该系统的有效性和可行性,与其他传统方法进行了分析对比。实验验结果表明,所提出的系统爬取效率更高,实现代码更简便。 展开更多
关键词 新浪微博 网络爬虫 JAVA 数据挖掘
下载PDF
情感计算和文本挖掘的商品评论倾向性分析
2
作者 许林峰 蓝鼎栋 +2 位作者 张俊峰 王志文 陈珂 《广东石油化工学院学报》 2016年第1期35-39,共5页
文章基于提取用户评论中用户的观点和评论的极性,利用基于句法分析的模式匹配方法来提取特征词,建立特征词集合。采用了TF-IDF算法来抽取匹配特征词的观点词集合,去除贡献度低的观点词,然后采用简约相似度算法来量化种子词和目标观点词... 文章基于提取用户评论中用户的观点和评论的极性,利用基于句法分析的模式匹配方法来提取特征词,建立特征词集合。采用了TF-IDF算法来抽取匹配特征词的观点词集合,去除贡献度低的观点词,然后采用简约相似度算法来量化种子词和目标观点词之间的相似度,该相似度能够很好的代表未知目标词在一个句子中的倾向性,从而为量化用户观点极性打下基础。最后以某电商平台上的商品成交记录作为实验测试数据,得到不同商品在不同特征之间的评价差异,从而挖掘出用户的个性化需求。 展开更多
关键词 评论极性 产品评论挖掘 用户观点抽取
下载PDF
复杂网络社团检测可视化仿真平台设计与开发 被引量:1
3
作者 卢钊杰 陈珂 +2 位作者 蓝鼎栋 吴镇佳 张良均 《广东石油化工学院学报》 2015年第6期33-37,共5页
有效发现与理解社团结构是复杂网络研究中非常重要的问题。此文分析与比较了传统的GN算法、Fast-Newman算法和CNM算法,基于JUNG框架设计与开发了社团检测可视化平台。该平台首先实现了上述三种算法,并与此文提出的局部社团检测算法(CDA... 有效发现与理解社团结构是复杂网络研究中非常重要的问题。此文分析与比较了传统的GN算法、Fast-Newman算法和CNM算法,基于JUNG框架设计与开发了社团检测可视化平台。该平台首先实现了上述三种算法,并与此文提出的局部社团检测算法(CDAMDL算法)在标准网络数据集上进行了分析测试。实验表明,在检测效果,计算耗时等方面,CDAMDL算法均优于传统算法。同时该平台提供了透明、直观的社团检测结果和评价,为复杂网络社团结构分析提供了依据。 展开更多
关键词 社团检测算法 局部检测 可视化 JUNG
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部