-
题名基于云计算的微博舆情流式快速自聚类方法研究
被引量:3
- 1
-
-
作者
王彦慈
-
机构
河南牧业经济学院图书馆信息部
-
出处
《情报科学》
CSSCI
北大核心
2017年第8期23-27,共5页
-
基金
教育部人文社会科学研究项目(15YJC870004)
-
文摘
【目的/意义】当前微博已成为重要的舆论场,针对海量微博信息的舆情难以快速获取的问题,提出一种基于云计算的微博舆情流式快速自聚类方法。【方法/过程】该方法首先设计舆情最小距离聚类算法,包括构建舆情相似度计算模型,及构建舆情最佳聚类阈值确定方法;然后构建舆情流式自聚类模型,该模型利用云计算和最小距离聚类算法在横、纵两个方向聚类舆情信息,得到各主题的舆情集合。在横向上,以云计算的多个计算节点为聚类起始,同步并行聚类分配到其上的舆情信息。在纵向上,多个计算节点协同、流水线式聚类同一起始节点的舆情信息;最后在纵向上聚类舆情集合,将同主题舆情集合聚为一类。【结果/结论】实验结果表明:该方法能有效加快微博舆情获取速度,且具有较高的舆情获取准确率。
-
关键词
微博舆情
云计算
流式
最小距离聚类算法
聚类阈值
-
Keywords
micro-blog public opinion
cloud computing
assembly line type
the minimum distance clustering algorithm
clustering threshold
-
分类号
G206.3
[文化科学—传播学]
-