摘要
聚类是数据挖掘中的一项重要课题.在大型数据集中有效地发现具有任意形状、密度和尺度的簇结构是目前聚类算法研究中的一个开放性的问题.基于图形轮廓的思想,提出了一种快速的聚类算法PROFCLUS,使用数据点在图形空间分布形成的图形进行聚类,可以描述和发现任意类型的簇结构;聚类过程只扫描一遍数据集,通过渐进地构造图形映像的轮廓,使用少量的轮廓点信息进行增量的聚类,其时间复杂度接近于线性.实验验证表明,PROFCLUS可以对簇密度差异较大的数据进行有效聚类和噪声数据点识别;同时,与其他基于密度的算法相比,PROFCLUS大幅度提高了聚类效率.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第z3期314-320,共7页
Journal of Computer Research and Development
基金
国家"九八五"工程二期基金项目(0000-X07204)