一种具有优良抗噪性能的初始聚类质心选择算法

Novel Anti-noise K-means Algorithm Based on Spatial Distance Difference

下载PDF

导出

摘要 K-means算法由于其固有的初始聚类质心敏感性,存在聚类结果不稳定、容易收敛到局部最优等问题。现有改进方案在处理无噪数据集时能够在降低迭代次数的同时得到近似全局最优解,但在处理有噪数据集时容易陷入局部最优,甚至聚类效果低于传统的K-means算法。在最远空间距离确定初始质心算法的基础上,提出一种基于空间距离差的初始质心选择算法。该算法的核心思想是通过计算非聚类质心点到已选质心的距离和,并排序,选取相邻距离差最大的两点中靠近已知质心的点作为下一个簇的初始质心而实现的。实验结果表明,所提算法在聚类迭代次数相当的情况下,对不含噪声数据集的聚类准确度增加约1%,对于含有噪声的数据集,聚类准确度达到90%以上。 Due to the inherent initial clustering center sensitivity of K-means algorithm,it exists problems including result instability and being easy to fall into local optimum.The current improvement schemes can reduce the number of iteration and obtain an approximate global optimal solution when deal with noise-free data sets.But for noisy data sets,it would be easy to fall into local optimum,and the clustering result is lower than traditional K-means algorithm.Based on the algorithm that can find initial clustering centers according to the farthest spatial distance,the paper proposed a novel algorithm to select initial centers based on spatial distance difference.The main idea of the algorithm is calculating the sum distances between non-clustering center and all selected centers,then sort them.Choose the point which is the closer to the given centers as the new selected cluster center.Experimental results show that under the quite condition of iteration,when deal with noise-free data sets,the clustering accuracy of the proposed algorithm is improved about 1%.For noisy data sets,the classified accuracy is above 90%.

作者马仕玉李益才蓝章礼

机构地区重庆交通大学信息科学与工程学院

出处《计算机科学》 CSCD 北大核心 2014年第S1期406-408,420,共4页 Computer Science

基金重庆市交通委员会科学计划项目:基于RFID的车辆非法营运监控与特征提取资助

关键词 K-MEANS算法初始质心空间距离差噪声数据 K-means algorithm,Initial centroid,Spatial distance difference,Noisy data

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1王纵虎,刘志镜,陈东辉.基于粒子群优化的模糊C-均值聚类算法研究[J].计算机科学,2012,39(9):166-169. 被引量：23
2谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的初始聚类中心优化K-均值算法[J].计算机应用研究,2012,29(3):888-892. 被引量：53
3曹志宇,张忠林,李元韬.快速查找初始聚类中心的K_means算法[J].兰州交通大学学报,2009,28(6):15-18. 被引量：19
4杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
5张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
6Adil M. Bagirov,Julien Ugon,Dean Webb.Fast modified global k -means algorithm for incremental cluster construction[J].Pattern Recognition.2010(4)
7Anil K. Jain.Data clustering: 50 years beyond K-means[J].Pattern Recognition Letters.2009(8)
8Lawrence Hubert,Phipps Arabie.Comparing partitions[J].Journal of Classification.1985(1)

二级参考文献54

1宫改云,高新波,伍忠东.FCM聚类算法中模糊加权指数m的优选方法[J].模糊系统与数学,2005,19(1):143-148. 被引量：81
2李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
3张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
4张利彪,周春光,马铭,刘小华,孙彩堂.基于粒子群优化算法的模糊C-均值聚类[J].吉林大学学报（理学版）,2006,44(2):217-222. 被引量：27
5许磊,张凤鸣.基于PSO的模糊聚类算法[J].计算机工程与设计,2006,27(21):4128-4129. 被引量：17
6普运伟,金炜东,朱明,胡来招.核模糊C均值算法的聚类有效性研究[J].计算机科学,2007,34(2):207-210. 被引量：28
7钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
9MacQueen J. Some methods for classification and analysis of multi-variate observations[C]//Proceedings of the 5th Berkeley Symposiumon Mathematical Statistics and Probability, 1967.
10Dhillon I, Guan Y, Kogan J. Refining clusters in high dimensional data[C] // Arlington: The 2nd SIAM ICDM, Workshop on Clustering High Dimensional Data, 2002.

共引文献242

1毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
2何灵敏,潘益民.一种基于GA的聚类集成算法[J].中国计量学院学报,2011,22(3):282-285. 被引量：2
3刘伯颖,张素琪,张丽丽.一种引力搜索和K-means的混合聚类算法[J].河北工业大学学报,2013,42(3):23-27. 被引量：3
4张俊丽,张帆.KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用[J].图书与情报,2007(4):48-51. 被引量：2
5谈丽,王建东.长项优先的产生算法——改进的Apriori算法[J].计算机与现代化,2007(8):53-55. 被引量：1
6张太华,顾新建.基于FCM算法的零件簇编码分析[J].中国机械工程,2007,18(21):2585-2588. 被引量：1
7杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
8吕宗磊,王建东,李莹,宰云峰.一种基于模态逻辑的聚类结果评价方法[J].计算机研究与发展,2008,45(9):1477-1485. 被引量：5
9席景科,谭海樵.空间聚类分析及评价方法[J].计算机工程与设计,2009,30(7):1712-1715. 被引量：31
10吕宗磊,王建东,徐涛.基于模态代表点的聚类评价方法[J].系统工程与电子技术,2009,31(8):1997-2002.

1屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6
2刘明术.基于K-均值聚类的混合聚类算法[J].安庆师范学院学报（自然科学版）,2016,22(1):40-42. 被引量：3
3安建成,史德增.一种改进的K-means算法[J].电脑开发与应用,2011,24(4):39-40. 被引量：6
4祁亨年,杨建刚,方陆明.基于多类支持向量机的遥感图像分类及其半监督式改进策略[J].复旦学报（自然科学版）,2004,43(5):781-784. 被引量：14
5滕金芳,钟诚.基于聚类的敏感属性-多样性匿名化算法[J].计算机工程与设计,2010,31(20):4378-4381. 被引量：6
6曾志强,高济,朱顺痣.基于约简SVM的网络入侵检测模型[J].计算机工程,2009,35(17):132-134. 被引量：7
7顾洪博,张继怀.基于孤立点和初始质心选择的k-均值改进算法[J].长江大学学报（自科版）（上旬）,2009,6(1):60-62. 被引量：7
8闫丽颖,王欢,杨颖.模糊c均值聚类在wav格式音频检索中的研究[J].中国科技信息,2006(02A):15-15. 被引量：1
9顾洪博,苏冬娜.基于孤立点和初始质心选择的k均值算法的改进与应用[J].陕西理工学院学报（自然科学版）,2009,25(3):45-49. 被引量：4
10孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15

计算机科学

2014年第S1期

浏览历史

内容加载中请稍等...

一种具有优良抗噪性能的初始聚类质心选择算法

参考文献8

二级参考文献54

共引文献242

相关作者

相关机构

相关主题

浏览历史