基于多维网格空间的改进K-means聚类算法被引量：17

Improved K-means clustering algorithm based on multi-dimensional grid space

下载PDF

导出

摘要 K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。 K-means algorithm is a widely used clustering algorithm,but the selection of the initial clustering centers in the traditional K-means algorithm is random,which makes the algorithm easily fall into local optimum and causes instability in the clustering result.In order to solve this problem,the idea of multi-dimensional grid space was introduced to the selection of initial clustering center.Firstly,the sample set was mapped to a virtual multi-dimensional grid space structure.Secondly,the sub-grids containing the largest number of samples and being far away from each other were searched as the initial cluster center grids in the space structure.Finally,the mean points of the samples in the initial cluster center grids were calculated as the initial clustering centers.The initial clustering centers chosen by this method are very close to the actual clustering centers,so that the final clustering result can be obtained stably and efficiently.By using computer simulation data set and UCI machine learning data sets to test,both the iterative number and error rate of the improved algorithm are stable,and smaller than the average of the traditional K-means algorithm.The improved algorithm can effectively avoid falling into local optimum and guarantee the stability of clustering result.

作者邵伦周新志赵成萍张旭 SHAO Lun;ZHOU Xinzhi;ZHAO Chengping;ZHANG Xu(College of Electronics and Information Engineering,Sichuan University,Chengdu Sichuan 610065,China)

机构地区四川大学电子信息学院

出处《计算机应用》 CSCD 北大核心 2018年第10期2850-2855,共6页 journal of Computer Applications

基金国家973计划项目(2013CB328903-2)~~

关键词 K-MEANS算法聚类算法初始聚类中心多维网格空间均值点 K-means algorithm clustering algorithm initial clustering center multi-dimensional grid space mean point

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献17

1郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35
2王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328. 被引量：194
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
4陈朝威,常冬霞.基于密度差分的自动聚类算法[J].软件学报,2018,29(4):935-944. 被引量：16
5冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：50
6周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
7翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：108
8FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
9刘敏娟,柴玉梅,张西芝.基于相似度的网格聚类算法[J].计算机工程与应用,2007,43(7):198-201. 被引量：12
10周润物,李智勇,陈少淼,陈京,李仁发.面向大数据处理的并行优化抽样聚类K-means算法[J].计算机应用,2016,36(2):311-315. 被引量：45

二级参考文献256

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2伍忠东,高新波,谢维信.基于核方法的模糊聚类算法[J].西安电子科技大学学报,2004,31(4):533-537. 被引量：75
3WANGShun-jiu,YANGZhi-feng,DINGJing.Projection pursuit cluster model and its application in water quality assessment[J].Journal of Environmental Sciences,2004,16(6):994-995. 被引量：20
4周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
5邓赵红,王士同.鲁棒性的模糊聚类神经网络[J].软件学报,2005,16(8):1415-1422. 被引量：11
6张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
7杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
8李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
9修宇,王士同,吴锡生,胡德文.方向相似性聚类方法DSCM[J].计算机研究与发展,2006,43(8):1425-1431. 被引量：21
10王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：45

共引文献1086

1蒙克,华冉,汪佩洁.重新发现比较社会政策研究:概念化与方法[J].中国公共政策评论,2020(2):1-27. 被引量：1
2刘壮,张悦.统计学方法在生物信息学分析中的应用[J].医学信息学杂志,2020,41(6):20-23. 被引量：1
3吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
4杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：23
5陈卫东,胡盛林.兼顾公平和效率原则的我国电力市场碳配额分配方案[J].煤炭经济研究,2020,40(1):15-21. 被引量：8
6郭林,程保增,张博.定量方法在古墓葬研究中的运用——以邹县野店墓地为例[J].洛阳考古,2022(2):24-29.
7孙伟鹏,吴锡生,孟斌.基于Spark并行的密度峰值聚类算法[J].计算机应用研究,2020,37(1):163-166. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10汤周文,叶东毅.基于层次聚类的差异化属性约简算法[J].计算机应用,2009,29(2):419-420. 被引量：1

同被引文献150

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
2刘正军,左志权,徐胜攀.机载激光雷达数据处理方法研究及软件平台研发[J].测绘通报,2012(S1):770-771. 被引量：2
3李云翀,何克忠.基于激光雷达的室外移动机器人避障与导航新方法[J].机器人,2006,28(3):275-278. 被引量：33
4阎勤劳,邢作常,冯涛,薛少平.温室移动机器人避障功能研究[J].农业机械学报,2006,37(5):110-112. 被引量：10
5王海起,王劲峰.一种基于空间邻接关系的k-means聚类改进算法[J].计算机工程,2006,32(21):50-51. 被引量：15
6戴维,张申生.基于二值化聚类的图像文字提取算法[J].计算机应用,2009,29(1):57-59. 被引量：10
7Tong Jianhua Tan Hongzhou.CLUSTERING VALIDITY BASED ON THE IMPROVED S_DBW INDEX[J].Journal of Electronics(China),2009,26(2):258-264. 被引量：1
8熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
9王劲峰,李连发,葛咏,时陪中,关元秀,柏延臣,王智勇,HainingRobert.地理信息空间分析的理论体系探讨[J].地理学报,2000,55(1):92-103. 被引量：157
10唐波.改进的K-means聚类算法及应用[J].软件,2012,33(3):100-104. 被引量：10

引证文献17

1张明宇,齐瑞锋,王强,刘峰.喷杆机械臂障碍物检测系统设计与性能测试[J].中国农业信息,2021,33(2):49-56. 被引量：2
2富豪,邓立国.基于ALCIF描述逻辑的Web页面聚类[J].现代计算机,2019,25(12):41-45.
3吴广建,章剑林,袁丁.基于K-means的手肘法自动获取K值方法研究[J].软件,2019,40(5):167-170. 被引量：64
4毕曦文,纪明宇,吴鹏,方静,段仁翀,郭鹏鑫.个性化高校新闻分类推荐的应用研究[J].计算机应用与软件,2019,36(7):218-223. 被引量：10
5李永定.基于网格和密度的k-means聚类算法[J].洛阳理工学院学报（自然科学版）,2019,29(4):48-54. 被引量：1
6黄林,常健,杨帆,李忆,牛新征.基于改进k-means的电力信息系统异常检测方法[J].深圳大学学报（理工版）,2020,37(2):214-220. 被引量：23
7江浩斌,羊杰,孙军,朱剑,高列.适应不同距离的三维激光雷达数据处理方法[J].重庆理工大学学报（自然科学）,2020,34(8):22-28. 被引量：4
8张会敏,谢泽奇,张善文.基于改进k-means算法的猕猴桃叶部病斑分割方法[J].电脑知识与技术,2020,16(25):19-21. 被引量：2
9杨一帆,贺国先,李永定.优化初始聚类中心选择的K-means算法[J].电脑知识与技术,2021,17(5):252-255. 被引量：8
10张鸿雁,杜文锋,武丽芬.基于密度加权的分裂式K均值聚类算法[J].计算机仿真,2021,38(4):254-257. 被引量：2

二级引证文献135

1刘永超,刘秀文,谢兴涛,栾鑫.基于激光雷达的港口环境海面目标检测[J].电子测量技术,2023,46(6):153-158. 被引量：2
2赵源,王越,胡华.基于POI-K-means地铁车站聚类方法研究[J].智能计算机与应用,2022,12(5):114-118. 被引量：4
3赵有广.小企业的经营理念和战略[J].经济管理,2000,26(4):38-39. 被引量：2
4田师思,姜红,龚颖,王一端,满吉.X射线荧光光谱结合聚类分析对橡胶轮胎的检验[J].化学研究与应用,2020,32(4):578-583.
5张晨浩,李宏权,梁复台,王树刚.基于最优聚类个数的空中目标运动特征提取方法[J].空军预警学院学报,2020,34(1):35-38.
6李文政,顾益军,闫红丽.基于网络贝叶斯信息准则算法的社区数量预测研究[J].数据分析与知识发现,2020,4(4):72-82. 被引量：4
7姚程文,杨苹,刘泽健.基于CNN-GRU混合神经网络的负荷预测方法[J].电网技术,2020,44(9):3416-3423. 被引量：121
8陈聿,田博今,彭云竹,廖勇.联合手肘法和期望最大化的高斯混合聚类电力系统客户分群算法[J].计算机应用,2020,40(11):3217-3223. 被引量：28
9彭琳钧,吴其昌,李诗敏,周欣欣,肖存涛.基于k均值与SVM算法的学生综合评价及分类研究[J].数字技术与应用,2020,38(10):88-91. 被引量：1
10刘高军,王小宾.基于CNN+LSTMAttention的营销新闻文本分类[J].计算机技术与发展,2020,30(11):59-63. 被引量：1

1姚曦.基于改进K-Means的大学生体质健康评价细分模型研究[J].软件导刊,2018,17(10):55-59. 被引量：2
2索明亮,周鼎,安若铭,李顺利.邻域密度网格聚类算法及应用[J].清华大学学报（自然科学版）,2018,58(8):732-739. 被引量：3
3姜美羡.基于密度的半监督聚类算法研究[J].现代计算机（中旬刊）,2018(8):35-37.
4胡健,覃慧,毛伊敏.不确定GM-CFSFDP聚类算法在滑坡危险性预测中的应用[J].计算机系统应用,2018,27(6):195-201.
5冉芳.如何运用映射的观点分析排列组合问题[J].佳木斯职业学院学报,2018,34(5):304-304. 被引量：1
6张韧,徐志升,黄志松,洪梅.基于临界条件点——集映射与信息扩散的风险评估模型[J].理论数学,2011,1(1):30-36.
7刘熠志.基于HFSS的漏波长槽波导天线的口径场诊断[J].计算机辅助工程,2018,27(1):70-73.
8魏杰.基于K-means聚类算法改进算法的研究[J].信息通信,2018,31(5):14-15. 被引量：11
9陈珍平,谢金森,郭倩,谢芹,刘紫静,谢超,于涛.蒙特卡罗中子输运计算中弥散型颗粒燃料的子网格随机模型研究[J].南华大学学报（自然科学版）,2017,31(4):31-36. 被引量：1
10龙晓君,郑健松,李小建,何政伟,刘严松,朱纪广,陈慕华.基于GIS的地灾预警降雨栅格数据自定义网格抽稀点方法实现[J].物探化探计算技术,2017,39(6):848-853. 被引量：2

计算机应用

2018年第10期

浏览历史

内容加载中请稍等...

基于多维网格空间的改进K-means聚类算法被引量：17

参考文献17

二级参考文献256

共引文献1086

同被引文献150

引证文献17

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

基于多维网格空间的改进K-means聚类算法 被引量：17

参考文献17

二级参考文献256

共引文献1086

同被引文献150

引证文献17

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

基于多维网格空间的改进K-means聚类算法被引量：17