基于相异性度量选取初始聚类中心改进的K-means聚类算法被引量：25

Improved K-means clustering algorithm for selecting initial clustering centers based on dissimilarity measure

导出

摘要选取合理的初始聚类中心是正确聚类的前提,针对现有的K-means算法随机选取聚类中心和无法处理离群点等问题,提出一种基于相异性度量选取初始聚类中心改进的K-means聚类算法.算法根据各数据对象之间的相异性构造相异性矩阵,定义了均值相异性和总体相异性两种度量准则;然后据此准则来确定初始聚类中心,并利用各簇中数据点的中位数代替均值以进行后续聚类中心的迭代,消除离群点对聚类准确率的影响.此外,所提出的算法每次运行结果保持一致,在初始化和处理离群点方面具有较好的鲁棒性.最后,在人工合成数据集和UCI数据集上进行实验,与3种经典聚类算法和两种优化初始聚类中心改进的K-means算法相比,所提出的算法具有较好的聚类性能. Selecting a reasonable initial clustering center is the premise of correct clustering.Most of the existing K-means algorithms have some shortcomings,such as randomly selecting clustering centers and unable to deal with outliers,an improved K-means clustering algorithm for selecting initial clustering centers based on dissimilarity measure is proposed.According to the dissimilarity of each data object,the dissimilarity matrix is constructed,and two measures of mean dissimilarity and total dissimilarity are defined.Then the initial clustering center is determined according to the criteria,and the median of data points in each cluster is used to replace the mean value for the subsequent iteration of clustering center,so as to eliminate the effect of outliers on clustering accuracy.In addition,the proposed algorithm maintains consistent results every time,and has better robustness in initializing and handling outliers.Finally,experiments are performed on the synthetic datasets and UCI datasets.Compared with three classical clustering algorithms and two improved K-means algorithms,the proposed algorithm has better clustering performance.

作者廖纪勇吴晟刘爱莲 LIAO Ji-yong;WU Sheng;LIU Ai-lian(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院

出处《控制与决策》 EI CSCD 北大核心 2021年第12期3083-3090,共8页 Control and Decision

关键词聚类分析 K-MEANS算法初始聚类中心离群点相异性度量鲁棒性 clustering analysis K-means algorithm initial clustering center off-group points dissimilarity measure robustness

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1唐东凯,王红梅,胡明,刘钢.优化初始聚类中心的改进K-means算法[J].小型微型计算机系统,2018,39(8):1819-1823. 被引量：33
2李武,赵娇燕,严太山.基于平均差异度优选初始聚类中心的改进K-均值聚类算法[J].控制与决策,2017,32(4):759-762. 被引量：30
3何熊熊,管俊轶,叶宣佐,詹亦钊.一种基于密度和网格的簇心可确定聚类算法[J].控制与决策,2017,32(5):913-919. 被引量：22
4于彦伟,贾召飞,曹磊,赵金东,刘兆伟,刘惊雷.面向位置大数据的快速密度聚类算法[J].软件学报,2018,29(8):2470-2484. 被引量：32

二级参考文献24

1曹锋,周傲英.基于图形处理器的数据流快速聚类[J].软件学报,2007,18(2):291-302. 被引量：24
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1077
3赖玉霞,刘建平,杨国兴.基于遗传算法的K均值聚类分析[J].计算机工程,2008,34(20):200-202. 被引量：72
4郑超,苗夺谦,王睿智.基于密度加权的粗糙K-均值聚类改进算法[J].计算机科学,2009,36(3):220-222. 被引量：25
5夏宁霞,苏一丹,覃希.一种高效的K-medoids聚类算法[J].计算机应用研究,2010,27(12):4517-4519. 被引量：47
6傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434. 被引量：76
7王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328. 被引量：195
8周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
9于彦伟,王沁,邝俊,何杰.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059. 被引量：28
10周林,平西建,徐森,张涛.基于谱聚类的聚类集成算法[J].自动化学报,2012,38(8):1335-1342. 被引量：62

共引文献110

1李志鹏,李卫忠.基于可拓小生境量子粒子群算法的特征选择[J].数据分析与知识发现,2017,1(7):82-89. 被引量：4
2于玲玲,独家卿,陈龙.改进的K-均值算法在商业客户识别中的应用研究[J].通化师范学院学报,2017,38(10):75-77. 被引量：2
3夏庆亚.基于密度峰值和网格的自动选定聚类中心算法[J].计算机科学,2017,44(B11):403-406. 被引量：5
4王日宏,崔兴梅.融合集群度与距离均衡优化的K-均值聚类算法[J].计算机应用,2018,38(1):104-109. 被引量：3
5贺艳芳,邵亚丽,向志华.基于谱聚类的多视角聚类算法[J].河南教育学院学报（自然科学版）,2018,27(1):15-18. 被引量：1
6杨震,王红军,周宇.一种截断距离和聚类中心自适应的聚类算法[J].数据分析与知识发现,2018,2(3):39-48. 被引量：16
7韦祥,李本威,张赟.采用符号时间序列分析的轴承早期微弱故障预警[J].西安交通大学学报,2018,52(6):84-90. 被引量：3
8赵小强,刘晓丽.基于公理化模糊子集的改进谱聚类算法[J].电子与信息学报,2018,40(8):1904-1910. 被引量：5
9陆勰,罗守山,张玉梅.基于Hadoop的海量安全日志聚类算法研究[J].信息网络安全,2018(8):56-63. 被引量：6
10周世波,徐维祥.一种基于相对密度和决策图的聚类算法[J].控制与决策,2018,33(11):1921-1930. 被引量：8

同被引文献322

1王瑞,史天运,包云.一种基于视频的铁路周界入侵检测智能综合识别技术研究[J].仪器仪表学报,2020,41(9):188-195. 被引量：22
2徐吉,侯玲.奢侈品消费群体分类分析[J].纳税,2020,0(3):174-174. 被引量：1
3冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
4杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
5王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
6陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：13
7宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：34
8阮永芬,刘岳东.昆明盆地粉土的特性研究与利用[J].岩土力学,2003,24(S2):199-202. 被引量：11
9杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
10李道国,苗夺谦,杜伟林.粒度计算在人工神经网络中的应用[J].同济大学学报（自然科学版）,2006,34(7):960-964. 被引量：8

引证文献25

1孙林,刘梦含,徐久成.基于优化初始聚类中心和轮廓系数的K-means聚类算法[J].模糊系统与数学,2022,36(1):47-65. 被引量：45
2何洪磊.使用DPG算法优化K-means初始聚类中心[J].信息与电脑,2022,34(4):73-75. 被引量：1
3焦萍萍,周显春.基于小波变换的车辆驾驶室低频振动噪声消噪处理方法[J].电声技术,2022,46(5):134-136.
4王森,刘琛,邢帅杰.K-means聚类算法研究综述[J].华东交通大学学报,2022,39(5):119-126. 被引量：46
5张国鹏,陈学斌,王豪石,翟冉,马征.面向本地差分隐私的K-Prototypes聚类方法[J].计算机应用,2022,42(12):3813-3821. 被引量：3
6王红,陈功平.基于最小生成树改进K-means聚类的网络入侵检测技术[J].重庆科技学院学报（自然科学版）,2022,24(6):38-41. 被引量：11
7郑舒,赵景涛,刘明祥.基于K-means聚类算法的风电光伏光热互补发电机组调度方法[J].电机与控制应用,2023,50(2):61-66. 被引量：2
8阮永芬,李鹏辉,张虔,朱强,王勇,闫明.基于最优k值k-means聚类分析的湖相沉积土层岩土参数分布研究[J].贵州大学学报（自然科学版）,2023,40(2):89-96. 被引量：1
9陈玉明,蔡国强,卢俊文,曾念峰.一种邻域粒K均值聚类方法[J].控制与决策,2023,38(3):857-864. 被引量：8
10郭凯红,吴峥,李冬.基于知识量加权的直觉模糊均值聚类方法[J].计算机应用研究,2023,40(4):1088-1094. 被引量：1

二级引证文献123

1侯贤宇,陈玉明,吴克寿.多采样近似粒集成学习[J].南京大学学报（自然科学版）,2024,60(1):118-129.
2Meiying You,Tianqi Wang,Miaomiao Wang,Wei Jiang,Jing Jiang,Xudong Li,Yuehua Hu,Dapeng Yin.Identifying the Optimal Age for Herpes Zoster Vaccination—Yichang City,Hubei Province,China,2017–2019[J].China CDC weekly,2022,4(29):631-634. 被引量：4
3刘维亮,周旻,钟伟东,郑舒.基于多智能体技术的泛微网区域自治-协同控制技术研究[J].电网与清洁能源,2022,38(12):61-71. 被引量：4
4郑舒,赵景涛,刘明祥.基于K-means聚类算法的风电光伏光热互补发电机组调度方法[J].电机与控制应用,2023,50(2):61-66. 被引量：2
5张再杰,杨伟芳.湖北省农业碳排放及基于K-means聚类算法的县级碳排放研究[J].云南农业大学学报（社会科学版）,2023,17(2):134-140. 被引量：2
6江维国,李晨晨,申澳.被征地青年的发展分化及应对[J].甘肃理论学刊,2022(6):119-128.
7莫康信,苏佳佳,林嘉良,梁晓鑫.基于红外热图像的光伏组件缺陷检测系统研究[J].造纸装备及材料,2022,51(12):99-101. 被引量：2
8吕波,漆萌,葛鑫月.独角兽企业创新能力与区域创新生态系统耦合机制研究[J].科技管理研究,2023,43(3):1-9. 被引量：1
9郭允涛,白钊.基于改进K-means算法的航空客户细分研究[J].电子技术（上海）,2023,52(1):49-51. 被引量：2
10阮永芬,李鹏辉,张虔,朱强,王勇,闫明.基于最优k值k-means聚类分析的湖相沉积土层岩土参数分布研究[J].贵州大学学报（自然科学版）,2023,40(2):89-96. 被引量：1

1林女贵,吴元林.基于改进K-means的大数据清洗方法[J].微型电脑应用,2021,37(11):133-136. 被引量：11
2王宪伦,丁文壮,孙旭祥.场景点云中小孔洞边界提取算法[J].机械制造与自动化,2021,50(5):39-41.
3季赛花,黄树成.基于改进的K-means入侵检测算法[J].计算机与数字工程,2021,49(11):2184-2188. 被引量：4
4李曼.基于数据挖掘的互联网用户行为特征分析[J].顺德职业技术学院学报,2021,19(4):10-14. 被引量：1
5谢蕊.狂飙的宣言--意大利未来主义与民国决澜社比较研究[J].天津美术学院学报,2021(2):74-77.
6杨怡洁,陈敏之.基于多层次划分的服装产品族构造方法[J].浙江纺织服装职业技术学院学报,2021,20(4):18-24. 被引量：2
7周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].吉林化工学院学报,2021,38(9):107-111.
8姚晓红,黄恒君.非负半监督函数型聚类方法[J].计算机科学与探索,2021,15(12):2438-2448. 被引量：4
9谢景海,贾祎轲,苏东禹,孙密,卢诗华,郭嘉.基于云场景的输电线路全息数据平台构建方法研究[J].微型电脑应用,2021,37(11):61-63. 被引量：3
10上官伟,邓雨亭,柴琳果,聂敏.基于旅客画像的航班出行选择预测方法研究与实现[J].北京交通大学学报,2021,45(5):56-62. 被引量：1

控制与决策

2021年第12期

浏览历史

内容加载中请稍等...

基于相异性度量选取初始聚类中心改进的K-means聚类算法被引量：25

参考文献4

二级参考文献24

共引文献110

同被引文献322

引证文献25

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于相异性度量选取初始聚类中心改进的K-means聚类算法 被引量：25

参考文献4

二级参考文献24

共引文献110

同被引文献322

引证文献25

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于相异性度量选取初始聚类中心改进的K-means聚类算法被引量：25