K-Means聚类算法中确定k值的改进方法

Improvement Methods for Determining the Value of k in the K-Means Clustering Algorithm

下载PDF

导出

摘要针对传统k-means聚类算法过于依赖聚类数k的问题,本文提出了确定最佳聚类数k的一种新方法——双均值法。该算法不依赖于预先设定的k值,而是通过计算簇内平均距离与簇间平均距离的比值来动态确定最优的k值。该方法的创新之处在于,它结合了簇内的紧密度和簇间的分离度,从而更加精确地反映了数据的真实结构。通过在多个公共数据集上求得的k值与数据的真实类别数比较,或手肘法求得的k值相比较,说明新方法有效。 The issue of traditional k-means clustering algorithm relying too heavily on the number of clusters, k. A new method for determining the optimal number of clusters, k, has been proposed—the double mean method. This algorithm does not rely on a pre-defined k value, but rather calculates the ratio of intra-cluster average distance and inter-cluster average distance to dynamically determine the optimal k value. The innovation of this method lies in the fact that it combines intra-cluster density and inter-cluster separation, thus more accurately reflecting the true structure of the data. By comparing the k value obtained on multiple public datasets with the true number of classes in the data or with the k value obtained using the elbow method, the effectiveness of the new method is demonstrated.

作者李自刚刘叶青赵致远吴佳雪周达秦玥

机构地区河南科技大学数学与统计学院

出处《数据挖掘》 2024年第3期143-148,共6页 Hans Journal of Data Mining

关键词数据挖掘聚类分析 K-MEANS算法手肘法

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献9

1王实,高文,李锦涛.Web数据挖掘[J].计算机科学,2000,27(4):28-31. 被引量：119
2孙秀娟,刘希玉.基于初始中心优化的遗传K-means聚类新算法[J].计算机工程与应用,2008,44(23):166-168. 被引量：17
3王森,刘琛,邢帅杰.K-means聚类算法研究综述[J].华东交通大学学报,2022,39(5):119-126. 被引量：41
4李波,管彦允,龚维印,韦旭勤,薛端.基于密度的K-means初始聚类中心点选取算法[J].绥化学院学报,2022,42(6):148-151. 被引量：2
5冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：50
6李飞,薛彬,黄亚楼.初始中心优化的K-Means聚类算法[J].计算机科学,2002,29(7):94-96. 被引量：47
7孙红岩,孙晓鹏,李华.基于K-means聚类方法的三维点云模型分割[J].计算机工程与应用,2006,42(10):42-45. 被引量：23
8王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：109
9方姣丽,左克,黄春,刘杰,李胜国,卢凯.FD-LSTM:基于大规模系统日志的故障分析模型[J].计算机工程与科学,2021,43(1):33-41. 被引量：4

二级参考文献84

1苏守宝,刘仁金.基于佳点集遗传算法的聚类技术[J].计算机应用,2005,25(3):643-645. 被引量：7
2孙晓鹏,李华.基于CSR存储的三维网格最短路径算法[J].计算机工程与应用,2005,41(10):5-7. 被引量：4
3孙晓鹏,李华.三维网格模型的分割及应用技术综述[J].计算机辅助设计与图形学学报,2005,17(8):1647-1655. 被引量：49
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
5钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
6MacQueen J.Some methods for classification and analysis of multivariate observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 1967.
7Wang Wei.Yang Jiong,Muntz R.STING:a statistical information grid approach to spatial data mining[C]//Proc of the 23rd International Conference on Very Large Data Bases,1997.
8Pakhiraa M K,Bandyopadhyayb S I,JjwalMaulikc U.Validity index for crisp and fuzzy clusters[J].Pattern Rccognition,2004,37:487-501.
9Agrawal R,Gehrke J,Gunopulcs D.Automatic subspaee clustering of high dimensional data for data mining application[C]//Proc of ACM SIGMOD Intconfon Management on Data,Seattle,WA,1998:94-205.
10Bandyopadhyay S I,JjwalMaulik U.An evolutionary technique based on K-means algorithm for optimal clustering in RN[J].Information Sciences, 2002,146 : 221-237.

共引文献402

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
2陈尧妃,倪应华,陈焕通.基于XML的Web挖掘框架设计[J].仪器仪表学报,2006,27(z3):2613-2614. 被引量：1
3许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
4覃晓群,陈晔.数据挖掘应用浅析[J].科技资讯,2007,5(7):93-94.
5周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1
6杨利,王关祥.谈山东农业大学图书馆电子阅览室的建设[J].科技情报开发与经济,2004,14(8):33-35.
7曹树志,项响琴.基于改进的K_Means算法的城市高架桥交通流分析[J].公路交通科技（应用技术版）,2010,6(10):261-264.
8卢咏,卢云.基于WEB日志挖掘的旅游信息资源网站个性化研究[J].长沙铁道学院学报（社会科学版）,2007,8(4):162-163.
9周剑.信息分析的TRAIG方法[J].情报学报,2004,23(3):372-376.
10王关祥,聂兵.谈我校图书馆电子阅览室“一卡通”的建设与管理[J].农业图书情报学刊,2004,16(10):96-99. 被引量：3

1林勋,钱怡婷,侍奕清.基于K-Means聚类和Logit回归的上海市非沪籍青年“反向就业”影响因素研究[J].理论数学,2024,14(6):133-144.
2唐喜成,耿新强,何欣航.基于K-Means聚类的热用户用汽行为分析[J].能源研究与利用,2024(3):47-51.
3张志强,储昭碧,陈立平,杨清宇.一种用于旋转机械故障特征提取的簇紧凑自编码器[J].控制与决策,2024,39(7):2251-2258.
4李汉兴.大数据时代公共图书馆馆员文化素养建构与评估[J].河南图书馆学刊,2024,44(7):48-52.
5杨志君,徐煜,姜琳,车江美,李彭辉,吕光荣,董有康.基于数据挖掘探析吕光荣教授运用中医药治疗失眠的用药规律[J].云南中医药大学学报,2024,47(3):45-52.
6宗一,郑罡,南钰.基于近邻传播聚类-K均值聚类的工业用户用电模式挖掘方法[J].科技资讯,2024,22(12):34-36.
7吕松灏,刘向民,方超,丁士发,余从极,马永鑫.基于实际功率曲线阈值筛选的风电机组偏航误差算法研究[J].动力工程学报,2024,44(8):1196-1204.
8张敏,樊瑞,祗会强,张世锋,李慧蓬,赵军.基于改进kShape聚类的谐波污染分区方法[J].辽宁工程技术大学学报（自然科学版）,2024,43(3):342-350.
9陈春谊.基于模拟退火算法的深中通道交通5G基站部署规划设计应用[J].通讯世界,2024,31(7):42-44.
10张军,郑彬,何盼.软件再生中多状态非固定周期检测策略优化[J].计算机集成制造系统,2024,30(7):2453-2463.

数据挖掘

2024年第3期

浏览历史

内容加载中请稍等...

K-Means聚类算法中确定k值的改进方法

参考文献9

二级参考文献84

共引文献402

相关作者

相关机构

相关主题

浏览历史