摘要
确定“最佳聚类数”一直是聚类算法面临的一个难题。为了确定一族合理的聚类数而不是单个聚类数,提出了一种基于谱分析的算法,并能处理较为复杂的数据集。该算法构建了数据点之间的相似度图,在不同的分析粒度下,用图上的“随机游走”来传播相似度,采用了一个新的评判标准,“广义特征差”来寻找聚类数族。实验结果表明该算法在聚类数不唯一的情况下能够有效地确定聚类数,并且和其他几种算法相比具有较优的计算复杂度。
A family of intrinsic cluster numbers, rather than a single cluster number, is determined, using a spectral analysis-based algorithm. The algorithm works not only on simple data sets, but also on more complicated ones. The algorithm constructs an affinity graph which is then modified by.a multi-granularity analysis and a random walk on the graph. A generalized eigengap is defined to determine the cluster number family. Tests show that the algorithm is more effective than previous algorithms and is less complex.
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2006年第7期1282-1285,共4页
Journal of Tsinghua University(Science and Technology)
基金
国家"九七三"基础研究基金项目(2002CB312101)
关键词
模式识别
聚类
聚类数自动确定
pattern recognition
clustering
automatic determination of cluster number