基于K-means算法的最佳聚类数研究被引量：14

Research on the best clustering number based on K-means algorithm

下载PDF

导出

摘要针对聚类算法在实现的过程中需要预先设定最终聚类数目的问题,提出了基于同类全部样本的类内紧密度和类间离差度的一种新聚类有效性指标,通过该指标能够有效地确定数据集的最佳聚类簇数。在确定最佳聚类数的过程中采用K-means算法,针对K-means算法随机选择初始聚类中心的缺陷,提出以欧式距离度量样本相似度,基于样本方差,选出方差最小的前K个样本作为初始聚类中心,避免噪声点成为初始聚类中心,使得选择的初始聚类中心位于样本集稠密区域,Kmeans聚类的结果稳定有效。使用优化K-means算法和新的聚类有效性指标确定数据集的簇数,通过在UCI数据集和人工模拟数据集上测试,证明文本算法在球形且噪声点较少的样本集中,能够有效地找出最佳的类数且算法运行速度快。 Aiming at the problem that the final number of clusters should be set in advance during the implementation of the clustering algorithm,a new clustering effectiveness index based on the intra-class tightness and inter-class dispersion of all samples of the same kind is proposed in this paper,which can effectively determine the optimal cluster number of data sets.Used in the process of the optimum clustering number K-means algorithm,in view of the K-means algorithm random initial clustering center of the defect,sample similarity of an Euclidean distance measure is put forward,based on the sample variance,select the minimum variance of K samples as the initial clustering center before,to avoid noise point as the initial clustering center,makes the choice of initial clustering center is located in the sample set is populated area,K-means clustering results of stable and effective.The optimized K-means algorithm and the new clustering validity index are used to determine the number of clusters of the data set.By testing on the UCI data set and the artificial simulation data set,it is proved that the text algorithm can effectively find the best number of classes in the spherical sample set with fewer noise points and the algorithm runs fast.

作者王艳娥梁艳司海峰丁心安 WANG Yan’e;LIANG Yan;SI Haifeng;DING Xin’an(School of Technology,Xi’an Siyuan University,Xi’an 710038,China)

机构地区西安思源学院理工学院

出处《电子设计工程》 2020年第24期52-56,共5页 Electronic Design Engineering

基金陕西省教育厅科学研究计划项目(18JK1100) 陕西省高等教育科学研究项目(XGH19236)。

关键词 K-MEANS 聚类数有效性指标聚类分析 K-means cluster number validity index cluster analysis

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1周本金,陶以政,纪斌,谢永辉.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52. 被引量：33
2周开乐,杨善林,丁帅,罗贺.聚类有效性研究综述[J].系统工程理论与实践,2014,34(9):2417-2431. 被引量：106
3成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：43
4王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：101
5蒋丽,薛善良.优化初始聚类中心及确定K值的K-means算法[J].计算机与数字工程,2018,46(1):21-24. 被引量：24
6杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：269
7周世兵,徐振源,唐旭清.基于近邻传播算法的最佳聚类数确定方法比较研究[J].计算机科学,2011,38(2):225-228. 被引量：30

二级参考文献184

1王惠文.变量多重相关性对主成分分析的危害[J].北京航空航天大学学报,1996,22(1):65-70. 被引量：17
2杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：188
3Frey B J,Dueck D.Clustering by Passing Messages Between Data Points[J].Science,2007,315(5814):972-976.
4Mézard M.Where Are the Exemplars?[J].Science,2007,315(5814):949-951.
5Kapp A V,Tibshirani R.Are clusters found in one dataset pre-sent in another dataset?[J].Biostatistics,2007,8(1):9-31.
6Dudoit S,Fridlyand J.A Prediction-based Resampling Method for Estimating the Number of Clusters in a Dataset[J].Genome Biology,2002,3(7):1-21.
7Dembélé D,Kastner P.Fuzzy C-means method for clustering microarray data[J].Bioinformatics,2003,19(8):973-980.
8Armstrong S A,Staunton J E,Silverman L B,et al.MLL translocations specify a distinct gene expression profile that distinguishes a unique leukemia[J].Nature Genetics,2002,30:41-47.
9Anderberg M R. Cluster analysis for application[M]. New York: Academic Press, 1973.
10Jain A K, Murty M N, Flynn P J. Data clustering: A review[J]. ACM Computing Survey, 1999, 31(3): 264-323.

共引文献561

1王炳琪,聂潇乾,严鹏,吴彬彬,高承帅.多站点低空防御系统关键技术研究[J].制导与引信,2019,0(4):17-22.
2陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
3杜康,周恒为,丁明明,叶峰,石彤非.聚类分析橡胶炭黑填充量与Yeoh模型参数的关联[J].应用化学,2021,38(6):675-684. 被引量：3
4许毅超.基于人工智能算法的河道智能监控预警系统研究及应用[J].水利科技,2023(4):29-31. 被引量：1
5王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
6冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：9
7黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
8胡小鹏,赵永杰,黄可心,项彦澍,梁冬泰,冯永飞,梁丹.基于深度学习与超像素的乒乓球运动轨迹检测[J].机械制造,2022,60(8):81-86. 被引量：3
9黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
10韩雪,王彤,薛文静.基于流通数据的纸质馆藏资源优化与读者服务研究[J].甘肃科技,2023,39(2):64-70.

同被引文献138

1支双双,赵庆会,金大海,唐琎.基于CNN和DLTL的步态虚拟样本生成方法[J].计算机应用研究,2020,37(1):291-295. 被引量：1
2杨帆,王西田,徐英新,陈陈.同型多机电力系统间扭振相互作用的等效简化研究[J].中国电机工程学报,2006,26(5):6-11. 被引量：22
3张俊婧,郭洪玲,燕卫田,权养科.波长色散X射线荧光光谱法检验纸张中的常量和微量元素[J].刑事技术,2006,31(3):3-7. 被引量：15
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1065
5田国辉,陈亚杰,冯清茂.拉曼光谱的发展及应用[J].化学工程师,2008,22(1):34-36. 被引量：69
6宗敏颖.影响休闲西服个性化的因素分析[J].广西轻工业,2009,25(11):137-138. 被引量：2
7周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：140
8牛文颖,翟悦.聚类分析算法在图书管理系统的应用研究[J].黑龙江科技信息,2011(5):134-134. 被引量：2
9王治.基于混沌粒子群优化SVR的网络流量预测[J].计算机仿真,2011,28(5):151-154. 被引量：11
10贾双.2000-2010年女西服外轮廓造型的演变分析[J].国际纺织导报,2011,39(3):66-68. 被引量：1

引证文献14

1胡叶,张爱军.基于K-means的室内行人导航步态识别方法[J].国外电子测量技术,2021,40(3):32-36. 被引量：10
2李锦,姜红,思沐,田陆川,马艺源,高梦林.手持式差分拉曼光谱对纸张物证的分类研究[J].化学研究与应用,2021,33(10):1883-1888. 被引量：5
3李振曜,宋贺伦,应杰攀.应用机器学习对超晶格信号随机性的研究和评估[J].电子测量技术,2021,44(15):79-83.
4刘思宏,余飞,姜勇.基于改进K-means聚类算法的大学生就业内驱因素路径分析[J].通化师范学院学报,2022,43(2):93-98. 被引量：1
5赵伟哲,崔成,严干贵,何昊,熊华强,王俊茜,翟文超.用于次同步振荡分析的直驱风电场等值模型[J].智慧电力,2022,50(2):22-28. 被引量：12
6张利剑,陈晋鹏.基于扩展Jarvis-Patrick聚类的异常检测算法优化及检测仿真[J].电子设计工程,2022,30(13):100-104. 被引量：1
7魏超.机器学习算法在大学生综合素质测评预警中的对比研究[J].电脑编程技巧与维护,2022(12):127-129. 被引量：2
8徐军,高琳,陶彦辰.女西服款式细节审美偏好[J].西安工程大学学报,2022,36(6):16-23. 被引量：3
9李小燕.基于步态触觉信息的图书馆智能机器人异常状态检测系统[J].自动化与仪器仪表,2023(1):231-236. 被引量：3
10田晟,李嘉.基于GA-tBP模型的城市道路交通量预测[J].科学技术与工程,2023,23(7):3053-3059. 被引量：2

二级引证文献40

1徐雄,林海军,刘悠勇,胡边.融合PCA与自适应K-Means聚类的水电机组故障检测在线方法[J].电子测量与仪器学报,2022,36(3):260-267. 被引量：12
2刘苗苗,樊春玲.基于WiFi信号的老年人家居行为识别算法[J].电子测量技术,2023,46(6):185-192. 被引量：1
3李坤坤,曹锐,杨耀东,徐润田.基于高斯混合模型的平流层浮空器RCS分布拟合[J].电子测量技术,2021,44(19):110-115. 被引量：1
4陈丽萍,张斯昱,姜红,段斌,刘峰.差分拉曼光谱法对注射针剂塑料底托的检测分析[J].塑料工业,2022,50(3):116-120.
5杨秀莲,李娟,王梦杰,吕杨,孙秀慧,戴洪德.行人导航状态识别与传感器优化选择[J].计算机测量与控制,2022,30(4):273-279.
6陈作舟,余浩,王盼盼,陈鸿琳,陈武晖.海上风电集群与火电打捆外送系统短路比定义及影响因素分析[J].发电技术,2022,43(2):207-217. 被引量：4
7陈向群,杨茂涛,刘谋海,黄瑞,余敏琪,王智.基于模糊聚类分析的电能质量扰动模式识别方法[J].电力科学与技术学报,2022,37(2):79-85. 被引量：10
8李言,曾维,蒋毅,王玥妲一,罗伟洋,于真.基于改进型对抗网络的步态特征提取方研究[J].电子测量技术,2022,45(9):121-126. 被引量：5
9汤璐,游蒙雨,孟鹏飞,陆佳健.基于脊髓映射的脑瘫患儿步态运动分析研究[J].电子测量技术,2022,45(4):72-78.
10曾维,何刚强,罗伟洋,郭翼凌.基于ICNet模型的人体步态识别研究[J].电子测量技术,2022,45(4):120-125. 被引量：2

1朱磊.计算机信息管理技术与计算机网络安全应用[J].中国信息化,2020(12):65-66. 被引量：11
2王艳娥,安健,王红刚,丁心安,杨倩.基于医疗数据的聚类挖掘策略研究[J].计算机技术与发展,2020,30(7):66-70. 被引量：1
3周琳.优化护理工作模式在精神科优质护理服务中的应用效果[J].健康女性,2020,12(21):89-89.
4高菲,续丹,杜玉坤.基于杜邦分析体系下的佳沃农业开发公司盈利稳定性分析[J].产业与科技论坛,2020(17):56-57.
5黄浩,路思远,黄林祥.基于Design Explorer的激光切割机横梁优化设计[J].机床与液压,2020,48(23):123-126. 被引量：3
6徐鲲鹏,陈黎飞,孙浩军,王备战.类属型数据核子空间聚类算法[J].软件学报,2020,31(11):3492-3505. 被引量：5
7庄居城,杨少波,李醒飞,郑崇伟.2009–2018年北印度洋海浪有效波高模拟数据集[J].中国科学数据（中英文网络版）,2020,5(4):155-165.
8黄文秀,唐超尘,神显豪,周术诚.改进的k最邻近算法在海量数据挖掘中的应用[J].济南大学学报（自然科学版）,2021,35(1):24-28. 被引量：9
9陈雪,邢社奇.浊峪河流域魏家壕水位站防汛预警水位计算方法研究[J].地下水,2020,42(6):211-214.
10杨光.中医药治疗失眠研究进展[J].首都食品与医药,2020,27(23):11-13. 被引量：1

电子设计工程

2020年第24期

浏览历史

内容加载中请稍等...

基于K-means算法的最佳聚类数研究被引量：14

参考文献7

二级参考文献184

共引文献561

同被引文献138

引证文献14

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于K-means算法的最佳聚类数研究 被引量：14

参考文献7

二级参考文献184

共引文献561

同被引文献138

引证文献14

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于K-means算法的最佳聚类数研究被引量：14