-
题名一种基于谱分割的短文本聚类算法
被引量:1
- 1
-
-
作者
李晓红
谢蒙
马慧芳
何廷年
-
机构
西北师范大学计算机科学与工程学院
北京师范大学信息科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第8期178-182,共5页
-
基金
国家自然科学基金资助项目(61163039
61363058)
+2 种基金
甘肃省青年科技基金资助项目(1308TJY085
145RJYA259)
中国科学院计算技术研究所智能信息处理重点实验室开放基金资助项目(IIP2014-4)
-
文摘
短文本具有稀疏高维的特点,现有聚类算法在大规模短文本上的聚类精度较低且效率低下。针对该问题,提出一种以谱聚类理论作支撑,基于谱分割准则RMcut的新聚类算法。依据谱聚类理论,将短文本集合构建成一张带权无向图,并计算得到文档-文档的相似度矩阵,为聚类算法提供信息。不断迭代地用2-way方式划分该图,划分过程中使用RMcut值作为划分是否终止的条件,利用Prim算法将原图中的顶点加入到聚族中,以得到质量较高的聚类结果。实验结果表明,该算法具有较高的时间性能,与K-means算法、词共现聚类算法及基于免疫的聚类算法相比,聚类结果更准确。
-
关键词
短文本
相似度矩阵
无向带权图
rmcut准则
聚类算法
-
Keywords
short text
similarity matrix
undirected weighted graph
rmcut criterion
clustering algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-