-
题名基于Java的新浪微博爬虫研究与实现
被引量:8
- 1
-
-
作者
陈珂
蓝鼎栋
柯文德
黎树俊
邓文天
-
机构
广东石油化工学院计算机与电子信息学院
-
出处
《计算机技术与发展》
2017年第9期191-196,共6页
-
基金
国家级大学生创新创业训练计划项目(201411656017
201611656002
+4 种基金
201611656029
2016pyA033)
广东省自然科学基金(2016A030307049)
广东省高等学校学科与专业建设专项资金科研类项目(2013KJCX0132)
广东省云机器人(石油化工)工程技术研究中心开放基金项目(650007)
-
文摘
为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统。该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源码更加简洁,纯净度更高,降低了网络传输压力并减少了HTML源码解析时间。主要实现了微博模拟登陆、微博网页爬取、微博页面数据提取和任务调度控制,并对爬取数据进行了分析,在爬虫中添加了主题微博筛选功能。为验证该系统的有效性和可行性,与其他传统方法进行了分析对比。实验验结果表明,所提出的系统爬取效率更高,实现代码更简便。
-
关键词
新浪微博
网络爬虫
JAVA
数据挖掘
-
Keywords
Sina Weibo
Web crawler
Java
data mining
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名情感计算和文本挖掘的商品评论倾向性分析
- 2
-
-
作者
许林峰
蓝鼎栋
张俊峰
王志文
陈珂
-
机构
广东石油化工学院计算机与电子信息学院
-
出处
《广东石油化工学院学报》
2016年第1期35-39,共5页
-
基金
广东省高等学校科技创新项目(2013kjcx0132)
国家级大学生创新创业训练计划项目(201411656017)
+4 种基金
校级大学生创新创业训练与培育项目(2015DCA004
2015py A002
2015py A041
2015py A042)
大学生拔尖创新人才培养"培英计划"项目(广石化院[2015]21号)
-
文摘
文章基于提取用户评论中用户的观点和评论的极性,利用基于句法分析的模式匹配方法来提取特征词,建立特征词集合。采用了TF-IDF算法来抽取匹配特征词的观点词集合,去除贡献度低的观点词,然后采用简约相似度算法来量化种子词和目标观点词之间的相似度,该相似度能够很好的代表未知目标词在一个句子中的倾向性,从而为量化用户观点极性打下基础。最后以某电商平台上的商品成交记录作为实验测试数据,得到不同商品在不同特征之间的评价差异,从而挖掘出用户的个性化需求。
-
关键词
评论极性
产品评论挖掘
用户观点抽取
-
Keywords
Polarity of reviews
Product reviews mining
Users' view extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名复杂网络社团检测可视化仿真平台设计与开发
被引量:1
- 3
-
-
作者
卢钊杰
陈珂
蓝鼎栋
吴镇佳
张良均
-
机构
广东石油化工学院计算机科学与技术系
广州太普信息技术有限公司
-
出处
《广东石油化工学院学报》
2015年第6期33-37,共5页
-
基金
国家级大学生创新创业训练计划项目(201411656017)
广东省科技计划项目(2012B0101100037)
广东省高等学校科技创新项目(2013kjcx0132)
-
文摘
有效发现与理解社团结构是复杂网络研究中非常重要的问题。此文分析与比较了传统的GN算法、Fast-Newman算法和CNM算法,基于JUNG框架设计与开发了社团检测可视化平台。该平台首先实现了上述三种算法,并与此文提出的局部社团检测算法(CDAMDL算法)在标准网络数据集上进行了分析测试。实验表明,在检测效果,计算耗时等方面,CDAMDL算法均优于传统算法。同时该平台提供了透明、直观的社团检测结果和评价,为复杂网络社团结构分析提供了依据。
-
关键词
社团检测算法
局部检测
可视化
JUNG
-
Keywords
Community detection algorithm
Local test
Visualization
JUNG
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-