-
题名基于改进CURE算法的微博热点话题发现
被引量:12
- 1
-
-
作者
杨长春
周猛
叶施仁
徐小松
-
机构
常州大学信息科学与工程学院
-
出处
《计算机仿真》
CSCD
北大核心
2013年第11期383-387,共5页
-
基金
国家自然科学基金项目(61272367)
江苏省科技厅项目(BZ2010021)
江苏省研究生培养创新工程项目(20120515)
-
文摘
由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题。本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度。从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的"头部",能够更加直观的发现微博热点话题。
-
关键词
稀疏矩阵
热点话题
层次聚类算法
博文种子集
改进层次聚类算法
-
Keywords
Sparse Matrix
Hot Topic
Hierarchical Clustering Algorithm
Tweets Seed Set
Improved Hierarchi-cal Clustering Algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-