K-Means聚类算法研究综述被引量：269

Survey on K-Means Clustering Algorithm

下载PDF

导出

摘要 K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 The K-Means algorithm is a partition-based algorithm in cluster analysis. With an unsupervised learning algorithm, its advantages of simple thinking, good effect and easy implementation are widely used in fields such as machine learning. But the K-Means algorithm also has certain limitations. For example, the K number of clusters in the algorithm is difficult to determine how to choose the initial cluster center, how to detect and remove outliers and the distance and similarity measure. This paper summarizes the improvement of K-Means algorithm from several aspects, and compares it with the classical K-Means algorithm. In addition, it analyzes the advantages and disadvantages of the improved algorithm, and points out the problems. Finally, the development direction and trend of K-Means algorithm are prospected.

作者杨俊闯赵超 YANG Junchuang;ZHAO Chao(College of Information and Electrical Engineering,Hebei University of Engineering,Handan,Hebei 056038,China)

机构地区河北工程大学信息与电气工程学院

出处《计算机工程与应用》 CSCD 北大核心 2019年第23期7-14,63,共9页 Computer Engineering and Applications

基金河北省高等学校科学技术研究项目（No.QN2018109）

关键词 K-MEANS 聚类算法聚类中心离群点 K-Means clustering algorithm cluster center outliers

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献15

1陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：38
2贾瑞玉,李玉功.类簇数目和初始中心点自确定的K-means算法[J].计算机工程与应用,2018,54(7):152-158. 被引量：47
3张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：72
4贾瑞玉,李振.基于最小生成树的层次K-means聚类算法[J].微电子学与计算机,2016,33(3):86-88. 被引量：18
5陈小雪,尉永清,任敏,孟媛媛.基于萤火虫优化的加权K-means算法[J].计算机应用研究,2018,35(2):466-470. 被引量：41
6海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：12
7胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：62
8成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：43
9王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：101
10魏康园,何庆,徐钦帅.一种改进森林优化的K-means聚类算法[J].贵州大学学报（自然科学版）,2018,35(6):69-75. 被引量：8

二级参考文献183

1郑苗苗,吉根林.DK-Means——分布式聚类算法K-Dmeans的改进[J].计算机研究与发展,2007,44(z2):84-88. 被引量：9
2李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
3钱鑫,张龙波,田爱奎,邓齐志,汪金苗.一种面向数据密集型计算环境的聚类算法[J].济南大学学报（自然科学版）,2013,27(1):11-15. 被引量：3
4刘绍鹏,侯澍旻.一种基于分割的聚类算法用于振动信号解调(英文)[J].新型工业化,2013,2(10):8-15. 被引量：6
5胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：18
6臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
7颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
8叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
9陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
10李锁花,孙志挥,周晓云.基于特征向量的分布式聚类算法[J].计算机应用,2006,26(2):379-382. 被引量：6

共引文献485

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2赵栋梁,周晓磊,窦志强,武暕.基于改进FA算法的河流突发水污染事件溯源[J].计算机系统应用,2022,31(10):191-198. 被引量：2
3冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：9
4唐辉,刘晓波,韩祥民,邱知,徐邦贤.基于混沌剑鱼算法的K_means算法[J].智能计算机与应用,2022,12(1):69-73.
5赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
6黎新伍.医学图像体分割的特征聚类算法[J].清华大学学报（自然科学版）,2008,48(S2):1790-1793. 被引量：1
7李丽珊,朱文兴.基于簇中心动态迁移的一个聚类算法[J].福建农林大学学报（自然科学版）,2004,33(4):508-511.
8江华,王翰虎,陈梅.一种基于K-means聚类分组的P2P超结点模型[J].计算机应用与软件,2005,22(10):67-68. 被引量：1
9李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
10辛国江,邹北骥,刘相滨,康晶.运动物体的阴影检测与分割[J].工程图学学报,2007,28(6):85-90. 被引量：5

同被引文献2818

1张振刚,罗泰晔.基于在线评论数据挖掘和Kano模型的产品需求分析[J].管理评论,2022,34(11):109-117. 被引量：11
2赖见辉,齐悦,王扬,韩媛,黄利华,赵延峰.基于收费数据的交通运行参数估计方法[J].中国公路学报,2022,35(3):205-215. 被引量：3
3林顺富,刘持涛,李东东,符杨.考虑电能交互的冷热电区域多微网系统双层多场景协同优化配置[J].中国电机工程学报,2020,40(5):1409-1421. 被引量：70
4周俊.铁路客运站客流安全态势评价[J].中国安全科学学报,2019,29(S02):126-133. 被引量：4
5朱星,刘汉香,胡桔维,范杰.砂岩破坏声发射临界慢化前兆特征试验研究[J].岩土力学,2022,43(S01):164-172. 被引量：7
6孙宪春,万力,蒋小伟.节理产状分组的k均值聚类分析及其分组结果的费歇尔分布验证法[J].岩土力学,2008(S01):533-537. 被引量：6
7董泽,贾昊.基于EWT-LOF的热工过程数据异常值检测方法[J].仪器仪表学报,2020,41(2):126-134. 被引量：23
8康国华,张琪,张晗,徐伟证,张文豪.基于点云中心的激光雷达与相机联合标定方法研究[J].仪器仪表学报,2019,40(12):118-126. 被引量：28
9王伟龙,朱锦艳.吴起油田CJN油区长4+5油藏分布特征[J].云南化工,2021,48(5):138-140. 被引量：1
10马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：10

引证文献269

1王炳琪,聂潇乾,严鹏,吴彬彬,高承帅.多站点低空防御系统关键技术研究[J].制导与引信,2019,0(4):17-22.
2杜康,周恒为,丁明明,叶峰,石彤非.聚类分析橡胶炭黑填充量与Yeoh模型参数的关联[J].应用化学,2021,38(6):675-684. 被引量：3
3许毅超.基于人工智能算法的河道智能监控预警系统研究及应用[J].水利科技,2023(4):29-31. 被引量：1
4王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
5胡小鹏,赵永杰,黄可心,项彦澍,梁冬泰,冯永飞,梁丹.基于深度学习与超像素的乒乓球运动轨迹检测[J].机械制造,2022,60(8):81-86. 被引量：3
6韩雪,王彤,薛文静.基于流通数据的纸质馆藏资源优化与读者服务研究[J].甘肃科技,2023,39(2):64-70.
7彭飞.基于Hadoop的微课程学习行为分析系统构建[J].信息技术与信息化,2019,0(12):163-166. 被引量：1
8林龙成.基于遗传算法的改进K-means算法[J].电子技术与软件工程,2020(1):111-112. 被引量：1
9刘凯.基于K-means聚类的物流园区用户画像分析[J].物流工程与管理,2020,42(3):52-54. 被引量：6
10傲起,杨晓.基于大数据的高校学生网络行为监测系统的设计[J].电脑知识与技术,2020,16(9):27-28. 被引量：3

二级引证文献782

1黎姿,潘红,马雪,赵慧.《更路簿》地名翻译传播在百度百科平台中的机遇与挑战[J].现代英语,2024(3):109-111.
2刘福刚.K-means聚类算法在网络安全检测中的应用研究[J].绥化学院学报,2023,43(11):157-160. 被引量：2
3冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：9
4沈宁.基于双目视觉的选煤厂用胶带输送机表面异物检测[J].工矿自动化,2023,49(S01):82-85. 被引量：1
5李江涛,张康辉,沙特.煤中异物识别的深度学习模型轻量化策略[J].煤炭工程,2023,55(S01):220-224. 被引量：2
6徐雄,林海军,刘悠勇,胡边.融合PCA与自适应K-Means聚类的水电机组故障检测在线方法[J].电子测量与仪器学报,2022,36(3):260-267. 被引量：12
7刘苗苗,樊春玲.基于WiFi信号的老年人家居行为识别算法[J].电子测量技术,2023,46(6):185-192. 被引量：1
8赵源,王越,胡华.基于POI-K-means地铁车站聚类方法研究[J].智能计算机与应用,2022,12(5):114-118. 被引量：3
9管延敏,汪恭志,余钱程,钟璐阳,虞嘉晨.改进的YOLOv3水面障碍物检测方法[J].船舶工程,2023,45(9):104-113.
10韩勇.奋进中的天津609电缆有限公司[J].企业之友,2000(2):9-10.

1张丹丹,游子毅,郑建,陈世国.基于改进的局部异常因子检测的优化聚类算法[J].微电子学与计算机,2019,36(11):43-48. 被引量：13
2郜丽鹏,沙作金.一种改进的数据场聚类算法[J].应用科技,2019,46(6):30-34. 被引量：4
3孟笑天,徐艳蕾,王新东,何润,翟钰婷.基于改进K均值特征点聚类算法的作物行检测[J].农机化研究,2020,42(8):26-30. 被引量：12
4薛亮,黄新,任超.物联网技术在林业中的应用研究综述[J].传感器与微系统,2019,38(11):1-3. 被引量：14
5朱运清,钱晨.射频识别技术应用与发展[J].信息与电脑,2019,31(19):183-186. 被引量：6
6任恒妮.大数据K-means聚类算法的研究与应用[J].信息技术,2019,43(11):20-23. 被引量：11
7王梦遥,王晓晔,洪睿琪,柴晓瑞.基于改进BIRCH聚类算法的评价对象挖掘[J].软件,2019,40(11):9-12. 被引量：2
8钱涛,陈树伟,徐朝钢.基于校园大数据的高职院校学生消费行为分析[J].中国商论,2019,0(22):27-29. 被引量：3
9郭元亨,刘颖慰,丁子元,黄鹏,刘淑清,殷红,邓莉川,陈博,佟毅.模拟移动床在食品行业中的应用进展[J].现代食品,2019,0(21):3-11. 被引量：3
10王刚,郭雪梅.基于用户兴趣序列相似性度量的图书协同过滤推荐方法研究[J].新世纪图书馆,2019,0(11):43-48. 被引量：4

计算机工程与应用

2019年第23期

浏览历史

内容加载中请稍等...

K-Means聚类算法研究综述被引量：269

参考文献15

二级参考文献183

共引文献485

同被引文献2818

引证文献269

二级引证文献782

相关作者

相关机构

相关主题

浏览历史

K-Means聚类算法研究综述 被引量：269

参考文献15

二级参考文献183

共引文献485

同被引文献2818

引证文献269

二级引证文献782

相关作者

相关机构

相关主题

浏览历史

K-Means聚类算法研究综述被引量：269