优化初始聚类中心的K-means聚类算法被引量：44

K-means Clustering Algorithm of Optimizing Initial Clustering Center

下载PDF

导出

摘要针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于α(α为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。 An improved K-means clustering algorithm is proposed to solve the problem that traditional K-means algorithm is very sensitive to the initial center and the clustering result is unstable.The algorithm calculates the distance between samples,then finds the nearest two points to form a set according to the distance between samples.The algorithm finds all other nearest points to the set according to the calculation formula of points and sets until the number of data points in the set is greater or equal toα(αis the ratio of the number of data points in the sample set to the number of clusters in the cluster),while the set is deleted from the sample set.The steps above are repeated,and K(K is the number of clusters)sets are obtained.The mean of each set is calculated as the initial center,and then the final clustering results are obtained according to K-means algorithm.In Wine,Hayes-Roth,Iris,Tae,Heart-stalog,Ionosphere and Haberman datasets,the improved algorithm designed in this study is more stable than the traditional K-means and K-means++clustering results.In Wine,Iris and Tae datasets,the improved algorithm has higher clustering accuracy than the K-means algorithm which optimizes the initial clustering center with minimum variance,and the contour coefficients and F1 values obtained by the improved algorithm are the largest in seven sets of data.For data sets with large density differences,the improved clustering algorithm designed in this study is more stable and accurate than the traditional K-means and K-means++algorithms,and the improved clustering algorithm is more efficient than the K-means algorithm which optimizes the initial clustering center with minimum variance.

作者郭永坤章新友刘莉萍丁亮牛晓录 GUO Yongkun;ZHANG Xinyou;LIU Liping;DING Liang;NIU Xiaolu(School of Computing,Jiangxi University of Traditional Chinese Medicine,Nanchang 330004,China;School of Pharmacy,Jiangxi University of Traditional Chinese Medicine,Nanchang 330004,China)

机构地区江西中医药大学计算机学院江西中医药大学药学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第15期172-178,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.81660727)。

关键词 K-MEANS聚类算法算法优化初始聚类中心 K-means clustering algorithm algorithm optimization initial clustering center

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献25

1汤深伟,贾瑞玉.基于改进粒子群算法的k均值聚类算法[J].计算机工程与应用,2019,55(18):140-145. 被引量：36
2谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1077
4魏康园,何庆,徐钦帅.一种改进森林优化的K-means聚类算法[J].贵州大学学报（自然科学版）,2018,35(6):69-75. 被引量：8
5赵巍.层次聚类社区算法研究综述[J].无线互联科技,2015,12(19):115-116. 被引量：1
6周本金,陶以政,纪斌,谢永辉.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52. 被引量：36
7杨明极,马池,王娅,张竹.一种改进K-means聚类的FCMM算法[J].计算机应用研究,2019,36(7):2007-2010. 被引量：11
8贾声声,彭敦陆.CNN支持下的领域文本自组织映射神经网络聚类算法[J].小型微型计算机系统,2018,39(6):1195-1200. 被引量：6
9周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
10刘维.数据挖掘中聚类算法综述[J].江苏商论,2018(7):120-125. 被引量：19

二级参考文献262

1叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3伍忠东,高新波,谢维信.基于核方法的模糊聚类算法[J].西安电子科技大学学报,2004,31(4):533-537. 被引量：75
4张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
5WANGShun-jiu,YANGZhi-feng,DINGJing.Projection pursuit cluster model and its application in water quality assessment[J].Journal of Environmental Sciences,2004,16(6):994-995. 被引量：20
6周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
7单梁,强浩,李军,王执铨.基于Tent映射的混沌优化算法[J].控制与决策,2005,20(2):179-182. 被引量：203
8张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
9王惠文.变量多重相关性对主成分分析的危害[J].北京航空航天大学学报,1996,22(1):65-70. 被引量：17
10李订芳,章文,何炎祥.一种新的带模糊权的粗糙聚类算法[J].信息与控制,2006,35(1):120-125. 被引量：3

共引文献1942

1马燕,余海军,钟发生,刘丰林.基于残差编解码网络的CT图像金属伪影校正[J].仪器仪表学报,2020,41(8):160-169. 被引量：17
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3谢皓,孙小东,何海熙.基于K-means聚类的高炉操作炉型研究[J].冶金自动化,2023,47(S01):88-91.
4刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
5赵栋梁,周晓磊,窦志强,武暕.基于改进FA算法的河流突发水污染事件溯源[J].计算机系统应用,2022,31(10):191-198. 被引量：3
6杨婷,郑雅玲,余帆,李应昆.基于CiteSpace对便秘研究的文献计量学及可视化分析[J].世界最新医学信息文摘,2019,19(76):51-54. 被引量：2
7王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
8冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
9林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
10黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.

同被引文献415

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2SUN Ping,SHAN Rui.Predictive Control with Velocity Observer for Cushion Robot Based on PSO for Path Planning[J].Journal of Systems Science & Complexity,2020,33(4):988-1011. 被引量：12
3王丙参,刘鹤飞,魏艳华.改进的传统距离聚类方法及应用[J].统计与决策,2021,37(4):64-68. 被引量：10
4Aboozar Soleymanzadeh,Saeed Parvin,Shahin Kord.Effect of overburden pressure on determination of reservoir rock types using RQI/FZI,FZI^* and Winland methods in carbonate rocks[J].Petroleum Science,2019,16(6):1403-1416. 被引量：2
5蒋文君,胡晓,张培,邓盛名,肖志怀.基于EEMD近似熵的水电机组振动信号特征提取[J].水力发电学报,2020,39(6):18-27. 被引量：24
6崔琳,王芷悦.基于LFBank与FBank混合特征的声纹识别研究[J].计算机科学,2022,49(S02):621-625. 被引量：4
7徐雄,林海军,刘悠勇,胡边.融合PCA与自适应K-Means聚类的水电机组故障检测在线方法[J].电子测量与仪器学报,2022,36(3):260-267. 被引量：14
8张涛,莫修文.基于交会图与模糊聚类算法的复杂岩性识别[J].吉林大学学报（地球科学版）,2007,37(S1):109-113. 被引量：35
9刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：23
10赵长青.灰色模式识别在测井分析中的应用[J].科技资讯,2008,6(9). 被引量：1

引证文献44

1王子龙,李进,宋亚飞.基于距离和权重改进的K-means算法[J].计算机工程与应用,2020,56(23):87-94. 被引量：35
2吴涛.基于RFM模型的电子商务顾客细分研究[J].铜陵学院学报,2020,19(5):55-59. 被引量：1
3张维,黄勃,张娟,高永彬,刘瑾,王忠震.面向少数类用户兴趣演化的推荐算法[J].南京理工大学学报,2021,45(2):214-222. 被引量：7
4支卫建.基于人脸识别和改进K-means的视频检索方法[J].电子元器件与信息技术,2021,5(3):124-125.
5冯麒燊,李洋鹏,陈芝源,叶宝林,胡嘉俊,麦昌家,徐晨欣,张家豪,陈科尹.面向非结构环境的柑桔图像分割聚类方法[J].福建电脑,2021,37(8):12-14.
6王超,陈卓.大型水陆两栖飞机多机着水救援航路规划[J].江苏航空,2021(2):10-12.
7黄学雨,向驰,陶涛.基于MapReduce和改进密度峰值的划分聚类算法[J].计算机应用研究,2021,38(10):2988-2993. 被引量：7
8张子然,黄卫华,陈阳,章政,李梓远.基于双向搜索的改进蚁群路径规划算法[J].计算机工程与应用,2021,57(21):270-277. 被引量：10
9陈科尹,吴崇友,关卓怀,李海同,王刚.基于统计直方图k-means聚类的水稻冠层图像分割[J].江苏农业学报,2021,37(6):1425-1435. 被引量：12
10施天虎,徐洪珍.基于改进K-means和优化评分的协同过滤推荐算法[J].江苏科技大学学报（自然科学版）,2021,35(6):72-77. 被引量：6

二级引证文献189

1宋鹏,葛洪伟,乔宇鑫.加权最近邻分配的局部间隙密度聚类[J].南京大学学报（自然科学版）,2022,58(5):827-835. 被引量：2
2倪渊博.电能计量误差及计量改进措施分析[J].光源与照明,2023(5):240-242. 被引量：3
3滑江,孙钰,周彦斌,蔡曙日,龚尚文.基于K-means方法的气象数据分区在公路养护的应用[J].公路交通科技,2022,39(S01):19-23. 被引量：1
4赵学武,吴宁,王军,阮利,李玲玲,徐涛.航空大数据研究综述[J].计算机科学与探索,2021,15(6):999-1025. 被引量：13
5黄学雨,程世超.KNN优化的密度峰值聚类算法[J].通信技术,2021,54(7):1608-1618. 被引量：6
6董文静.K-means算法综述[J].信息与电脑,2021,33(11):76-78. 被引量：5
7程江洲,何艳,鲍刚,潘飞.基于CK-means算法的用户用电负荷聚类分析[J].计算机仿真,2021,38(7):63-67. 被引量：4
8俞丽萍,李兴.基于动态模拟的有创呼吸机人机适配评估方法研究[J].自动化与仪器仪表,2021(8):184-187.
9唐宇坤,邓松,许梦雅,郭馨.基于几何特征的学生评教数据离群点检测算法[J].江西师范大学学报（自然科学版）,2021,45(3):292-298. 被引量：4
10陆勰,徐雷,张曼君.基于聚类的安全分级虚拟网络映射方法[J].电信科学,2021,37(9):112-117. 被引量：1

1周春芬,高猛,史晓婷.大学生宿舍人际关系对自杀风险的影响:孤独感的中介作用[J].临床精神医学杂志,2020,30(3):201-204. 被引量：11
2吴蕊,张安勤,田秀霞,张挺.基于改进K-means的电力数据异常检测算法[J].华东师范大学学报（自然科学版）,2020(4):79-87. 被引量：33
3曹端喜,唐加山,陈香.一种优化初始聚类中心的自适应聚类算法[J].软件导刊,2020,19(7):28-31. 被引量：4
4洪兴东.度洛西汀联合舍曲林治疗老年抑郁症临床疗效[J].临床合理用药杂志,2020,13(19):58-59. 被引量：4
5郝淑玲,米子川,姜天英.大数据指数的再定义与新进展[J].统计学报,2020,1(4):1-13. 被引量：9
6王光,林国宇.改进的自适应参数DBSCAN聚类算法[J].计算机工程与应用,2020,56(14):45-51. 被引量：38
7宋丽倩,林杰,田磊,胡素芬.胆碱酯酶抑制剂治疗帕金森病痴呆患者对其血清PRL水平的影响分析[J].系统医学,2020,5(10):84-86. 被引量：1
8马金林,魏萌,马自萍.基于深度迁移学习的肺结节分割方法[J].计算机应用,2020,40(7):2117-2125. 被引量：8
9王艳娥,安健,王红刚,丁心安,杨倩.基于医疗数据的聚类挖掘策略研究[J].计算机技术与发展,2020,30(7):66-70. 被引量：1
10王勇,张杰,刘永,许茂增.基于时间窗和温度控制的生鲜商品物流配送优化方法[J].控制与决策,2020,35(7):1606-1614. 被引量：27

计算机工程与应用

2020年第15期

浏览历史

内容加载中请稍等...

优化初始聚类中心的K-means聚类算法被引量：44

参考文献25

二级参考文献262

共引文献1942

同被引文献415

引证文献44

二级引证文献189

相关作者

相关机构

相关主题

浏览历史

优化初始聚类中心的K-means聚类算法 被引量：44

参考文献25

二级参考文献262

共引文献1942

同被引文献415

引证文献44

二级引证文献189

相关作者

相关机构

相关主题

浏览历史

优化初始聚类中心的K-means聚类算法被引量：44