新的K-均值算法最佳聚类数确定方法被引量：90

New method for determining optimal number of clusters in K-means clustering algorithm

下载PDF

导出

摘要 K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。 K-means clustering algorithm clusters datasets on the premise that the number of clusters is certain and initial clustering centers are selected randomly.In general the value of k cann＇t be confirmed beforehand,and randomly selected initial clustering centers make the result of clustering unstable.A new method for determining optimal number of clusters in K-means clustering algorithm is presented to analyze the clustering quality and determine optimal number of clusters through making the number of clusters produced by AP be the upper limit kmax of search range for the number of clusters,selecting the Silhouette validity index and setting initial clustering centers based on maximum and minimum distance algorithm.Simulation experiment and analysis demonstrate the feasibility of the above-mentioned algorithm.

作者周世兵徐振源唐旭清

机构地区江南大学信息工程学院江南大学理学院

出处《计算机工程与应用》 CSCD 北大核心 2010年第16期27-31,共5页 Computer Engineering and Applications

基金国家高技术研究发展计划(863)(No.2007AA1Z158) 国家自然科学基金(No.60703106)~~

关键词 K-均值聚类聚类数聚类有效性指标初始聚类中心 K-means clustering number of clusters clustering validity index initial clustering centers

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
2Frey B J,Dueek D.Clustering by passing messages between data points[J].Science,2007,315:972-976.
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060
4于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[J].中国科学（E辑）,2002,32(2):274-280. 被引量：130
5Frey B J,Dueck D.Response to comment on"clustering by passing messages between data points"[J].Science,2008,319.
6Brusco M J,KShn H.Comment on"clustering by passing messages between data points"[J].Science.2008,319.
7王开军,李健,张军英,涂重阳.半监督的仿射传播聚类[J].计算机工程,2007,33(23):197-198. 被引量：29
8Calinski R,Harabasz J.A dendrite method for cluster analysis[J].Commun Statistics,1974,3:1-27.
9Dimitriadou E,Dolnicar S,Weingessel A.An examination of indexes for determining the number of duster in binary data sets[J].Psychometrika,2002,67(1):137-160.
10Kapp A V,Tibshirani R.Are clusters found in one dataset present in another dataset?[J].Biostatistics,2007,8(1):9-31.

二级参考文献13

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
2Treshansky A,McGraw R.An overview of clustering algorithms[A].Proceedings of SPIE,The International Society for Optical Engineering[C].2001(4367):41-51.
3Clausi D A.K-means Iterative Fisher (KIF) unsupervised clustering algorithm applied to image texture segmentation[J].Pattern Recognition,2002,35:1959-1972.
4Bezdek J C,Pal N R.Some new indexes of cluster validity[J].IEEE Transactions on Systems,Man,and Cybernetics _ Part B:Cybernetics,1998,28(3):301-315.
5Ramze R M,Lelieveldt B P F,Reiber J H C.A new cluster validity indexes for the fuzzy c-mean[J].Pattern Recognition Letters,1998,19:237-246.
6Frey B J, Dueck D. Clustering by Passing Messages Between Data Points, Science[EB/OL]. (2007-02). http://www.psi.toronto.ed u/affinitypropagation/FreyDueckScience07.pdf.
7Kelly K. Affinity Program Slashes Computing Times[EB/OL]. (2007-02-15). http://www.news.utoronto.ca/bin6/070215-2952.asp.
8Wang K. Supplementary Information[EB/OL]. (2007-03). http://w w w.mathwork s.cona/matlabcentral/fileexchange/loadAuthor.do?obj ect Type=author&objectld= 1095267.
9Dudoit S, Fridlyand J. A Prediction-based Resampling Method for Estimating the Number of Clusters in a Dataset[EB/OL]. (2002-03). http://www.edlab.cs.um ass.edu/cs691 k/conlon/readings/Dudoit Fridlyand2002GB.pdf.
10范九伦,裴继红,谢维信.基于可能性分布的聚类有效性[J].电子学报,1998,26(4):113-115. 被引量：41

共引文献1361

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献785

1徐小斌,李传昭,徐锦秀,徐小凤.基于面板数据的中国能源与经济增长关系研究[J].生产力研究,2007(21):84-85. 被引量：7
2戴光.声发射检测技术在中国——庆祝中国机械工程学会无损检测分会成立三十周年[J].无损检测,2008(7):389-396. 被引量：17
3李美娟,陈国宏,陈衍泰.综合评价中指标标准化方法研究[J].中国管理科学,2004,12(z1):45-48. 被引量：184
4林良勋.集合预报系统及其产品应用综述[J].广东气象,2001,23(2):44-46. 被引量：13
5李刚成,刘赞波,曾庆光.一种基于模糊聚类的构造进化树方法[J].计算机应用,2009,29(3):836-838. 被引量：6
6肖宇,于剑.Gap statistic与K-means算法[J].计算机研究与发展,2007,44(z2):176-180. 被引量：7
7任喜伟,任工昌,杨帆.电磁场式油水界面测量分析及数据优化方法[J].化工自动化及仪表,2012,39(7):858-861. 被引量：8
8陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
9张宏伟,赖百炼.三维激光扫描技术特点及其应用前景[J].测绘通报,2012(S1):320-322. 被引量：57
10陈华伟,王爱民,宁汝新.制造单元构建过程中的模块化聚类分析[J].华中科技大学学报（自然科学版）,2012,40(S2):87-90. 被引量：2

引证文献90

1韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
2刘燕驰.基于密度的最佳聚类数确定方法[J].中国管理信息化,2011,14(9):30-33. 被引量：4
3周铁军,李新宇.基于加权特征的无监督模糊聚类入侵检测研究[J].湘潭大学自然科学学报,2011,33(1):98-102. 被引量：3
4刘燕驰,高学东,国宏伟,武森.聚类有效性的组合评价方法[J].计算机工程与应用,2011,47(19):15-17. 被引量：16
5刘燕驰,高学东,国宏伟,武森.应用分类方法进行聚类评价[J].计算机应用研究,2011,28(10):3637-3639. 被引量：1
6谢娟英,马箐,谢维信.一种确定最佳聚类数的新算法[J].陕西师范大学学报（自然科学版）,2012,40(1):13-18. 被引量：10
7孟海东,孙家驹,殷跃,徐贯东.基于聚类分析的地球化学数据分布特征研究[J].有色矿冶,2012,28(2):1-3. 被引量：4
8陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：39
9凌海峰,余笪.基于聚类的Web用户会话识别优化方法[J].计算机应用研究,2012,29(8):2862-2864. 被引量：1
10赵春晖,齐滨.基于模糊核加权C-均值聚类的高光谱图像分类[J].仪器仪表学报,2012,33(9):2016-2021. 被引量：19

二级引证文献634

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2刘盾,王韬.基于K-means的脑卒中相关肺炎的预测模型研究[J].中国数字医学,2021,16(11):86-89. 被引量：2
3李楠,樊瑞,傅饶.机场终端区交通流模式识别研究[J].武汉理工大学学报,2021,43(5):34-40. 被引量：1
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：18
5夏飞,张洁,张浩,陆剑峰.基于BIC准则和加权皮尔逊距离的居民负荷模式精细识别及预测[J].电子测量与仪器学报,2020,32(11):33-42. 被引量：14
6彭显刚,潘可达,张丹,刘艺,林志坚.基于季节性负荷自适应划分及重要点分割的多分段短期负荷预测[J].电网技术,2020,44(2):603-613. 被引量：27
7骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
8宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：31
9张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
10谢娟英,郭文娟,谢维信.基于邻域的K中心点聚类算法[J].陕西师范大学学报（自然科学版）,2012,40(4):16-22. 被引量：31

1黄美璇.一种基于Kmax的K-means改进算法[J].佛山科学技术学院学报（自然科学版）,2010,28(2):49-52. 被引量：1
2陈敏,余晓平,左文英.K-means算法的分析及改进[J].佳木斯大学学报（自然科学版）,2015,33(6):872-876.
3庞天杰,赵兴旺.一种基于先验信息的混合数据聚类个数确定算法[J].计算机科学,2016,43(2):101-104. 被引量：3
4杜强,孙敏.基于改进聚类分析算法的入侵检测系统研究[J].计算机工程与应用,2011,47(11):106-108. 被引量：27
5杨君石.基于WEKA的主成分分析聚类的数据归约方法[J].福建电脑,2015,31(8):86-88.
6向培素.一种自适应AP算法的matlab实现[J].西南民族大学学报（自然科学版）,2014,40(6):877-882. 被引量：1
7欧慧,夏卓群,武志伟.基于改进流形距离的粗糙集k-means聚类算法[J].计算机工程与应用,2016,52(14):84-89. 被引量：4
8成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：43
9王留正,何振峰.基于全局性分裂算子的进化K-means算法[J].计算机应用,2012,32(11):3005-3008. 被引量：3
10陈济舟,罗可.基于粒计算与粗糙集的人工鱼群聚类算法[J].计算机工程与应用,2015,51(21):116-120. 被引量：3

计算机工程与应用

2010年第16期

浏览历史

内容加载中请稍等...

新的K-均值算法最佳聚类数确定方法被引量：90

参考文献14

二级参考文献13

共引文献1361

同被引文献785

引证文献90

二级引证文献634

相关作者

相关机构

相关主题

浏览历史

新的K-均值算法最佳聚类数确定方法 被引量：90

参考文献14

二级参考文献13

共引文献1361

同被引文献785

引证文献90

二级引证文献634

相关作者

相关机构

相关主题

浏览历史

新的K-均值算法最佳聚类数确定方法被引量：90