一种高效的基于初始聚类中心优化的K-means算法被引量：6

An Efficient K-means Algorithm Based on Optimizing Initial Cluster Centers

下载PDF

导出

摘要为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。 The traditional K-means algorithm which randomly chosen initial centers and cluster each data sample to the cluster center distance of double counting problem, in order to solve this question, this paper proposes an efficient k-means algorithm based on optimizing initial cluster centers, the algorithm uses the minimum deviation initial cluster centers, by store the labels of cluster and the distance of all the date objects to the nearest cluster during the each iteration, which is to be used in the next iteration, the improved method avoids computing the distance of each data object to the cluster centers repeatly.Tested on the UCI database of five different data sets, the various algorithms in clustering criterion function, running time and number of iterations are compared, the experimental results show that un- der the premise of without affecting the clustering results, shortening the time of clustering, prove the effectiveness and efficiency of the improved algorithm.

作者张晓倩曲福恒杨勇才华梁鲜

机构地区长春理工大学计算机科学技术学院

出处《长春理工大学学报（自然科学版）》 2015年第4期154-158,共5页 Journal of Changchun University of Science and Technology(Natural Science Edition)

关键词 K-MEANS算法方差初始聚类中心距离时间 K-means algorithm deviation initialized clustering centers distance time

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Hart Jiawei,Kamber M. Data mining: concepts and techniques[M].Beijing:China Machine Press,2011.
2Shunye W. An improved k-means clustering algo- rithm based on dissimilarity[C]//Mechatronic Sci- ences, Electric Engineering and Computer (MEC), Proceedings 2013 International Conference on IEEE, 2013 : 2629-2633.
3XU Junling,XU Baowen,ZHANG Weifeng,ZHANG Wei,HOU Jun.Stable Initialization Scheme for K-Means Clustering[J].Wuhan University Journal of Natural Sciences,2009,14(1):24-28. 被引量：15
4Redmond S J,Heneghan C. A method for ini- tializing the K-means clustering algorithm using kd-trees [J].Pattern Recognition letters, 2007,28 (8) : 965-973.
5谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
6Likas A,Vlassis M,Verbeek J. The global K-means clustering algorithm[J].Pattern Recognition,2003,36 (2) :451-461.
7Na S, Xumin L, Yong G. Research on k-means clustering algorithm: An improved k-means cluste~ ing algorithm[C]//Intelligent Information Technolo- gy and Security Informatics (IITSI),2010 Third In- ternational Symposium on IEEE, 2010.63-67.

二级参考文献35

1张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
2钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
3袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
4盛骤,谢式千,潘承毅.概率论与数理统计[M].2版.北京:高等教育出版社,1997:18-28.
5Han Jiawei,Kamber M.Data Mining:Concepts and Techniques[M].2nd ed.Beijing,China:China Machine Press,2011.
6Pena J M,Lozano J A,Larranaga P.An Empirical Comparison of Four Initialization Methods for the K Means Algorithm[J].Pattern Recognition Letters,1999,20(10):1027-1040.
7Vance F.Clustering and the Continuous K-Means Algorithm[J].Los Alamos Science,1994,22:138-134.
8Jain A K,Murty M N,Flynn P J.Data Clustering:A Review[J].ACM Computing Survey,1999,31 (3):264-323.
9Kaufman L,Rousseeuw P J.Finding Groups in Data:An Introduction to Cluster Analysis[M].New York,USA:John Wiley & Sons,Inc.,1990.
10Dhillon I S,Guan Yuqiang,Kogan J.Refining Clusters in High Dimensional Text Data[C]//Proceedings of the 2nd SIAM Workshop on Clustering High Dimensional Data.Arlington,USA:[s.n.],2002:59-66.

共引文献99

1仝雪姣,孟凡荣,王志晓.对k-means初始聚类中心的优化[J].计算机工程与设计,2011,32(8):2721-2723. 被引量：29
2李光明,李梁,张建刚.一种对K-means算法的改进[J].重庆工商大学学报（自然科学版）,2012,29(8):47-51.
3李四海,满自斌.自适应特征权重的K-means聚类算法[J].计算机技术与发展,2013,23(6):98-101. 被引量：10
4马甲林,张永军,王志坚.基于概念簇的多主题提取算法[J].智能系统学报,2015,10(2):261-266. 被引量：3
5徐涛,李永祥,吕宗平.基于航迹点法向距离的航迹聚类研究[J].系统工程与电子技术,2015,37(9):2198-2204. 被引量：16
6南楠,赵夏丽.基于UKM算法的蜜网日志分析研究[J].河南城建学院学报,2015,24(4):73-77. 被引量：1
7张小川,严杰,朱常鹏.聚类算法在市政绩效评估中的应用[J].软件导刊,2015,14(11):48-51. 被引量：2
8吕宗平,李永祥,徐涛.面向机场噪声预测的多噪声因素航迹聚类[J].计算机工程与设计,2015,36(12):3349-3354. 被引量：4
9罗亚松,许江湖,胡洪宁,贺静波,陈占伟.正交频分复用传输速率最大化自适应水声通信算法研究[J].电子与信息学报,2015,37(12):2872-2876. 被引量：6
10徐平安,唐雁,石教开,张辉荣.基于薛定谔方程的K-Means聚类算法[J].山东大学学报（工学版）,2016,46(1):34-41. 被引量：1

同被引文献41

1雍建军,章一舫.仿真技术在汽车电子设计中的应用[J].汽车电器,2006(5):8-11. 被引量：2
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
4赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
5肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
6汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
7李昆仑,曹铮,曹丽苹,张超,刘明.半监督聚类的若干新进展[J].模式识别与人工智能,2009,22(5):735-742. 被引量：50
8韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
9王赛芳,戴芳,王万斌,张晓宇.基于初始聚类中心优化的K-均值算法[J].计算机工程与科学,2010,32(10):105-107. 被引量：24
10周世兵,徐振源,唐旭清.基于近邻传播算法的最佳聚类数确定方法比较研究[J].计算机科学,2011,38(2):225-228. 被引量：30

引证文献6

1庄瑞格,倪泽邦,刘学艺.基于拟蒙特卡洛的K均值聚类中心初始化方法[J].济南大学学报（自然科学版）,2017,31(1):35-41. 被引量：5
2戚后林,顾磊.基于密度与最小距离的K-means算法初始中心方法[J].计算机技术与发展,2017,27(9):60-63. 被引量：2
3赵延龙,滑楠.基于初始偏向度的AP算法聚类性能优化研究[J].计算机应用研究,2018,35(2):372-374. 被引量：2
4谷玉荣,黄耀雄,高艳,郭静.基于K-Means聚类算法的空中态势威胁挖掘[J].火力与指挥控制,2019,44(4):92-96. 被引量：2
5刘冰清,王强,甘霖,龙昭灯,何归.基于电气系统聚类的汽车线束连接正确性快速仿真分析方法[J].汽车电器,2021(8):42-45. 被引量：1
6杨本钊.基于RE-CFSFDP与DSA-LSSVM的山脊梁数据预测方法研究[J].长春理工大学学报（自然科学版）,2022,45(2):130-137.

二级引证文献12

1尹晓丽.重心随机漂移KMeans聚类算法的设计[J].长春大学学报,2017,27(8):35-38. 被引量：2
2牛雷,孙忠林.PCA-AKM算法及其在入侵检测中的应用[J].计算机科学,2018,45(2):226-230. 被引量：4
3刘荣凯,孙忠林.针对K-means初始聚类中心优化的PCA-TDKM算法[J].软件导刊,2018,17(9):85-87. 被引量：3
4刘荣凯,孙忠林.PCA-KDKM算法及其在微博舆情中的应用[J].山东科技大学学报（自然科学版）,2018,37(6):84-92. 被引量：5
5裘华东,段光,张利军,李晓春,陶轶群,陈志敏.基于AHP-FCM聚类的售电侧市场化改革进展评估[J].济南大学学报（自然科学版）,2018,32(2):96-101.
6潘伟.基于大数据的智慧工厂制造优化技术研究[J].计算机技术与发展,2019,29(1):202-205. 被引量：17
7杨丹,朱世玲,卞正宇.基于改进的K-means算法在文本挖掘中的应用[J].计算机技术与发展,2019,29(4):68-71. 被引量：9
8张武,张嫚嫚,洪汛,江朝晖,蒋跃林.基于近邻传播算法的茶园土壤墒情传感器布局优化[J].农业工程学报,2019,35(6):107-113. 被引量：10
9邹臣嵩,段桂芹,欧阳明星,刘锋.基于改进近邻传播算法的聚类质量评价模型[J].西南师范大学学报（自然科学版）,2020,45(6):97-106. 被引量：4
10严南.基于K-means算法的网络入侵信息分层检索系统设计[J].信息与电脑,2021,33(15):38-40. 被引量：3

1屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6
2刘明术.基于K-均值聚类的混合聚类算法[J].安庆师范学院学报（自然科学版）,2016,22(1):40-42. 被引量：3
3安建成,史德增.一种改进的K-means算法[J].电脑开发与应用,2011,24(4):39-40. 被引量：6
4谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
5顾洪博,张继怀.基于孤立点和初始质心选择的k-均值改进算法[J].长江大学学报（自科版）（上旬）,2009,6(1):60-62. 被引量：7
6吴妮娅,张健沛.Web日志模糊聚类算法的研究[J].哈尔滨师范大学自然科学学报,2003,19(5):63-66. 被引量：3
7梁鲜,曲福恒,杨勇,才华.基于加权处罚的K-均值优化算法[J].长春理工大学学报（自然科学版）,2015,38(4):132-137. 被引量：2
8黎凡,王新,和晓萍,马晓敏,黎吾鑫.一种基于局部密度的k-means算法[J].云南民族大学学报（自然科学版）,2014,23(6):439-442. 被引量：1
9顾洪博,苏冬娜.基于孤立点和初始质心选择的k均值算法的改进与应用[J].陕西理工学院学报（自然科学版）,2009,25(3):45-49. 被引量：4
10张雪凤,张桂珍,刘鹏.基于聚类准则函数的改进K-means算法[J].计算机工程与应用,2011,47(11):123-127. 被引量：41

长春理工大学学报（自然科学版）

2015年第4期

浏览历史

内容加载中请稍等...

一种高效的基于初始聚类中心优化的K-means算法被引量：6

参考文献7

二级参考文献35

共引文献99

同被引文献41

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种高效的基于初始聚类中心优化的K-means算法 被引量：6

参考文献7

二级参考文献35

共引文献99

同被引文献41

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种高效的基于初始聚类中心优化的K-means算法被引量：6