K-均值算法中聚类个数优化问题研究被引量：17

Optimization Study on Class Number of K-means Algorithm

下载PDF

导出

摘要在传统的K-均值聚类算法中,聚类数K必须事先给定,然而,实际中K值很难被精确的确定,K值是否合理直接影响着K-均值算法的好坏。针对这个缺点,提出一种优化聚类数算法,根据聚类算法中类内相似度最大差异度最小和类间差异度最大相似度最小的基本原则,构建了距离评价函数F(S,K)作为最佳聚类数的检验函数,建立了相应的数学模型,并通过仿真实验进一步验证了新算法的有效性。 In traditional K-means algorithm,the class number must be confirmed in advance.However,it can not be clearly and easily confirmed in fact for its uncertainty.Whether the class number is optimized has a direct impact on the performance k-means algorithm.Considering this defection,a new improved algorithm is proposed.According to the basic principles of clustering algorithm that the Within-class similarity is Maximum and the within-class difference is least,the inter-class difference is maximum and the inter-class similarity is least,a distance cost of function F（S,K） to confirm the optimal class number is recommended in this paper.A corresponding math model is set up,and example results further verify the effectiveness of the new algorithm.

作者韩凌波

机构地区中共湛江市委党校理论信息室

出处《四川理工学院学报（自然科学版）》 CAS 2012年第2期77-80,共4页 Journal of Sichuan University of Science & Engineering(Natural Science Edition)

基金广西科学基金项目(0640067) 广西研究生教育创新计划项目(2007106020812M73)

关键词 K-均值算法聚类个数距离价值函数 K-means algorithm clustering center distance cost

分类号 TP311.12 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Tan Pangning,Michael Steinbach,Vipin Kumar.In-troduc- tion to Data Mining[M].Addison Wesley.2005.
2Ramze R M, Lelieveldt B P F, Reiber J H C. A new cluster validity indexes for the fuzzy c-mean[J].Pattem Recognition Letters,1988,19:237-246.
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
4于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[J].中国科学（E辑）,2002,32(2):274-280. 被引量：130
5李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
6孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
7Calinski R, Harabasz J. A dendrite method for cluster an.alysis[J].Communications in Statistics,1974,3(1):27.
8Kapp A V, Tibshirani R. Are clusters found in one dataset present in another dataset [J]. Biostati-stics, 2007,8(1 ):9-31.
9Frey B J,Dueck D.Response to comment on" clustering by passing messages between data points" [J]. Science, 2008,319.
10Frey B J, dueck D. Clustering by passing messages between data points [J]. science,2007,315:972-976.

二级参考文献42

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
2Treshansky A,McGraw R.An overview of clustering algorithms[A].Proceedings of SPIE,The International Society for Optical Engineering[C].2001(4367):41-51.
3Clausi D A.K-means Iterative Fisher (KIF) unsupervised clustering algorithm applied to image texture segmentation[J].Pattern Recognition,2002,35:1959-1972.
4Bezdek J C,Pal N R.Some new indexes of cluster validity[J].IEEE Transactions on Systems,Man,and Cybernetics _ Part B:Cybernetics,1998,28(3):301-315.
5Ramze R M,Lelieveldt B P F,Reiber J H C.A new cluster validity indexes for the fuzzy c-mean[J].Pattern Recognition Letters,1998,19:237-246.
6Xie X L，IEEE Trans Pattern Anal Mach Intell，1991年，13卷，841页
7Gonzalez T. Clustering to Minimize and Maximum Intercluster Distance. Theoretical Computer Science, 1985,38: 293 - 306
8Pal N R,Bezdek J C. On Cluster Validity for the Fuzzy C-Mean Model. IEEE Transactions on Fuzzy Systems [J], 1995. 370-390
9Xie X, Beni G. A Validity Measure for Fuzzy Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) ,1991, 13(8) :841-847
10Bensaid A M. Validity-Guided (Re) Clustering with Applications to Image Segmentation. IEEE Transactions on Fuzzy Systems,1996,4(2)

共引文献1476

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8王永敏.近20年太湖草型区水生植物遥感监测[J].现代测绘,2021(2):22-28. 被引量：3
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

同被引文献151

1徐小斌,李传昭,徐锦秀,徐小凤.基于面板数据的中国能源与经济增长关系研究[J].生产力研究,2007(21):84-85. 被引量：7
2米红娟,水静.基于CLARANS算法的孤立点挖掘[J].北京电子科技学院学报,2007,15(4):81-83. 被引量：3
3郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
4张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
5赵新,张建军,朱立东.北斗导航系统的快速选星算法研究[J].空间电子技术,2012,9(2):4-9. 被引量：7
6孙昌思核,孔万增,戴国骏.一种自动确定类个数的谱聚类算法[J].杭州电子科技大学学报（自然科学版）,2010,30(2):53-56. 被引量：5
7宗长富,杨肖,王畅,张广才.汽车转向时驾驶员驾驶意图辨识与行为预测[J].吉林大学学报（工学版）,2009,39(S1):27-32. 被引量：26
8李卓君,陈星光.基于个体出行决策分析的交通流演化模型与仿真[J].系统仿真学报,2015,27(4):866-874. 被引量：3
9陈军斌,肖述琴,李,屈展,周芳德.油气井压裂后效果评价的系统聚类分析方法[J].天然气工业,2004,24(10):56-58. 被引量：4
10刘卫果,胡思继.旅客交通方式选择行为研究的计算机模拟方法[J].系统仿真学报,2002,14(1):47-50. 被引量：11

引证文献17

1韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
2苏勇,黄烨,周冬.基于网格结构的二次CLARANS聚类算法[J].计算机应用与软件,2013,30(3):287-290. 被引量：2
3王鹏飞,舒红平,郑皎凌,文立玉.演化聚类在离散制造业质量管理中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):71-75.
4刘志强,周亮,汪澎,倪捷.交叉口驾驶员转向意图辨识研究[J].科学技术与工程,2014,22(17):299-302. 被引量：2
5周晓,冬雷,郝颖,廖晓钟,高阳.基于膨胀腐蚀聚类方法的风电功率预测[J].太阳能学报,2018,39(12):3536-3543. 被引量：3
6方方,王子英.K-means聚类分析在人体体型分类中的应用[J].东华大学学报（自然科学版）,2014,40(5):593-598. 被引量：32
7王学贺.一种基于改进微粒群和轮廓系数的划分聚类方法[J].云南民族大学学报（自然科学版）,2016,25(4):367-371. 被引量：13
8杨金花,刘显为.K-means算法中k值优化问题研究[J].河南科学,2017,35(9):1388-1395. 被引量：2
9张琳,牟向伟.基于Canopy+K-means的中文文本聚类算法[J].图书馆论坛,2018,38(6):113-119. 被引量：17
10周文娟,赵礼峰.基于非度量多维缩放的聚类组合算法[J].计算机应用,2018,38(A01):67-72.

二级引证文献99

1薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
2孙定华,许宪中.论材料特性与变压器的抗短路能力——写在新世纪到来之际[J].变压器,2000,37(2):15-20. 被引量：3
3孙士新.药商信息处理模型的设计与实现[J].宿州学院学报,2015,30(5):92-94.
4韩雨,潘波.北京市初中生的体型分类及号型研究[J].北京服装学院学报（自然科学版）,2015,35(3):40-46. 被引量：3
5孙福权,宋亮.水利工程施工场内交通运输交叉路口问题研究[J].工程管理学报,2015,29(6):119-123. 被引量：2
6齐雪良,袁惠芬,王旭.上海地区成年女性批量定制服装号型分类研究[J].武汉纺织大学学报,2016,29(4):8-12. 被引量：3
7邓椿山,李琴,周莉,张龙琳.体型分析在观测服装号型适应性上的应用[J].纺织学报,2017,38(1):111-115. 被引量：10
8丁中娟,杜劲松.女性体型分类研究概述[J].国际纺织导报,2016,44(12):57-61. 被引量：16
9王旭,袁惠芬,刘新华.基于Excel VBA技术的定制服装归号系统研究[J].武汉纺织大学学报,2017,30(3):46-49. 被引量：1
10夏凤勤,毋戈,谢昊洋,钟跃崎.基于人体纵截面特征曲线的体型分类[J].纺织学报,2017,38(6):86-91. 被引量：19

1韩凌波.一种新的K-means最佳聚类数确定方法[J].现代计算机,2013,19(20):12-15. 被引量：9
2姜囡,井元伟,邢伟.一类广义时滞系统的极小极大控制[J].控制与决策,2005,20(10):1107-1110. 被引量：1
3高丐琴,王飞.改进的基本粒子群算法[J].微计算机信息,2009,25(30):151-152. 被引量：6
4马淑霞.基于灵敏度的满意优化逆问题[J].计算机应用,2004,24(5):62-63.
5袁文亮,钟宝荣.对非线性规划问题的并行求解与分析[J].计算机工程与设计,2008,29(23):6175-6176. 被引量：1
6王全,杨国梁.一种改进的K平均聚类算法[J].国外电子元器件,2008(9):73-74. 被引量：4
7印桂生,崔晓晖,董红斌,董宇欣,崔香.量子协同的二分图最大权完美匹配求解方法[J].计算机研究与发展,2014,51(11):2573-2584. 被引量：9
8王欢,袁永生.Box-Cox变换用于分位数回归曲线相交问题的研究[J].数理统计与管理,2009,28(6):1024-1029. 被引量：3
9李文峰.BP神经网络在许昌小麦白粉病发病趋势预测中的应用[J].河南科学,2013,31(7):1008-1012. 被引量：2
10冯晓伟,田裕鹏.基于形状内容描述子的点特征匹配[J].光电工程,2008,35(3):108-111. 被引量：10

四川理工学院学报（自然科学版）

2012年第2期

浏览历史

内容加载中请稍等...

K-均值算法中聚类个数优化问题研究被引量：17

参考文献14

二级参考文献42

共引文献1476

同被引文献151

引证文献17

二级引证文献99

相关作者

相关机构

相关主题

浏览历史

K-均值算法中聚类个数优化问题研究 被引量：17

参考文献14

二级参考文献42

共引文献1476

同被引文献151

引证文献17

二级引证文献99

相关作者

相关机构

相关主题

浏览历史

K-均值算法中聚类个数优化问题研究被引量：17