K均值聚类算法的研究与优化被引量：60

Research and Optimization of K-means Clustering Algorithm

下载PDF

导出

摘要聚类分析是数据挖掘的重要组成部分,K均值聚类算法是聚类分析方法中一种基本的划分式方法,也是无监督的机器学习方法。其具有效率高、容易理解和实现等优点,同时,可以对多种数据类型进行聚类,广泛应用于诸多领域。但是,K均值聚类算法也有一些局限性。算法中合理的k值难以确定,而且算法选择初始聚类中心的随机性会导致聚类结果不稳定,同时,算法对噪声和离群点数据也有很强的敏感性。为了解决初始聚类中心随机性的问题,通过全局化思想对K均值聚类算法进行了改进,改进的聚类效果评价使用常用的误差平方和准则。实验结果表明,相较于一般的K均值聚类算法,全局K均值聚类算法得到了更好的聚类效果,同时提升了算法的稳定性。 Clustering analysis is an important part of data mining.The K-means clustering algorithm is a basic partition method of clustering analysis,and it is also an unsupervised machine learning method with the advantages of high efficiency,easy understanding and implementing.At the same time,the clustering data type can be various,so it is widely used in many fields.However,the K-means clustering algorithm exists some limitations.For example,the reasonable value of k is difficult to determine,and choosing the initial clustering center is random,which can lead to the result unstable,also with strong sensitivity to noise and outliers.In order to solve the problem of the randomness for initial clustering center,we improve the K-means clustering algorithm through the idea of global change.The evaluation criterion of the clustering effect is the error sum of squares.Experiment shows that compared with normal K-means clustering algorithm,the global K-means clustering algorithm can get better clustering effect,while increasing its stability.

作者陶莹杨锋刘洋戴兵 TAO Ying;YANG Feng;LIU Yang;DAI Bing(School of Computer and Electronic Information,Guangxi University,Nanning 530004,China)

机构地区广西大学计算机与电子信息学院

出处《计算机技术与发展》 2018年第6期90-92,共3页 Computer Technology and Development

基金广西壮族自治区中青年教师基础能力提升项目(KY2016YB026) 广西自然科学基金(2014GXNSFBA118274)

关键词数据挖掘 K均值聚类中心点误差平方和 data mining K-means center point error sum of squares

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
2盘俊良,石跃祥,李娉婷.一种新的粒子群优化聚类方法[J].计算机工程与应用,2012,48(8):179-181. 被引量：7
3丁祥武,郭涛,王梅,金冉.一种大规模分类数据聚类算法及其并行实现[J].计算机研究与发展,2016,53(5):1063-1071. 被引量：21
4万静,张义,何云斌,李松.基于KD-树和K-means动态聚类方法研究[J].计算机应用研究,2015,32(12):3590-3595. 被引量：16
5罗军锋,锁志海.一种基于密度的k-means聚类算法[J].微电子学与计算机,2014,31(10):28-31. 被引量：12
6王涛,卿鹏,魏迪,漆锋滨.基于聚类分析的进程拓扑映射优化[J].计算机学报,2015,38(5):1044-1055. 被引量：5
7贾洪杰,丁世飞,史忠植.求解大规模谱聚类的近似加权核k-means算法[J].软件学报,2015,26(11):2836-2846. 被引量：31
8雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：112

二级参考文献134

1伍忠东,高新波,谢维信.基于核方法的模糊聚类算法[J].西安电子科技大学学报,2004,31(4):533-537. 被引量：75
2WANGShun-jiu,YANGZhi-feng,DINGJing.Projection pursuit cluster model and its application in water quality assessment[J].Journal of Environmental Sciences,2004,16(6):994-995. 被引量：20
3李洁,高新波,焦李成.模糊CLOPE算法及其参数优选[J].控制与决策,2004,19(11):1250-1254. 被引量：4
4周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
5修宇,王士同,吴锡生,胡德文.方向相似性聚类方法DSCM[J].计算机研究与发展,2006,43(8):1425-1431. 被引量：21
6金阳,左万利.一种基于动态近邻选择模型的聚类算法[J].计算机学报,2007,30(5):756-762. 被引量：18
7董红斌,黄厚宽,周成,何军,尚文倩.基于模糊权和有效性函数的演化聚类算法[J].电子学报,2007,35(5):964-970. 被引量：4
8Bandyopadhyay S,Matdik U.Genetic clustering for automatic evolution of clusters and application to image classification[J].Pattem Recognition, 2002,35 (2) : 1197-1208.
9Kennedy J, Eberhart R C.Particle swarm optimization[C]//Proc of IEEE Int' 1 Conf on Neural Networks.Perth, Australia: [s.n.], 1995.
10Kao Y,Lee S Y.Combining K-means and particle swarm optimization for dynamic data clustering problems[C]//IEEE International Conference on Intelligent Computing and Intelligent Systems, 2009: 757-761.

共引文献333

1王炳琪,聂潇乾,严鹏,吴彬彬,高承帅.多站点低空防御系统关键技术研究[J].制导与引信,2019,0(4):17-22.
2吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
3程龙欢,李舜酩.多源振动信号融合方法综述[J].计算机应用研究,2020,37(S02):12-14. 被引量：1
4王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
5周慧芳.自适应的k-means聚类算法SA-K-means[J].科技创新导报,2009,6(34):4-5. 被引量：3
6罗晖霞,曲晓玲.基于网络舆情的K-Means算法的改进研究[J].电脑开发与应用,2010,23(8):4-6. 被引量：3
7彭柳青,张军英,许进.基于k-Means均匀效应的健壮聚类初始算法[J].华中科技大学学报（自然科学版）,2010,38(8):73-76. 被引量：2
8李东艳,李绍滋,柯逍.基于外部数据库的图像自动标注改善模型[J].计算机应用,2010,30(10):2610-2613. 被引量：1
9刘琳,于海斌.异构无线传感器网络中簇首的优化部署策略[J].通信学报,2010,31(10):229-237. 被引量：7
10李晓燕,陈刚,寿黎但,董金祥.一种面向协作标签系统的图片检索聚类方法[J].中国图象图形学报,2010,15(11):1635-1643. 被引量：3

同被引文献574

1王宏展.浅析我国心理咨询行业存在的问题[J].中外企业家,2020,0(6):249-249. 被引量：4
2冷迪.基于区块链的动态数据同态加密保护方法[J].计算机产品与流通,2020,0(4):147-147. 被引量：2
3王燕,亓祥惠,段亚西.基于核函数与马氏距离的FCM图像分割算法[J].计算机应用研究,2020,37(2):611-614. 被引量：14
4Maryam Parvareh,Asrin Karimi,Satar Rezaei,Abraha Woldemichael,Sairan Nili,Bijan Nouri,Nader Esmail Nasab.Assessment and prediction of road accident injuries trend using time-series models in Kurdistan[J].Burns & Trauma,2018,6(1):55-62. 被引量：6
5宋克志,孙谋.复杂岩石地层盾构掘进效能影响因素分析[J].岩石力学与工程学报,2007,26(10):2092-2096. 被引量：43
6邓聚龙.社会经济灰色系统的理论与方法[J].中国社会科学,1984(6):47-60. 被引量：100
7逄玉俊,柳明,李元.k均值聚类分析在过程改进中的应用[J].华中科技大学学报（自然科学版）,2009,37(S1):245-247. 被引量：9
8李鹏,李占斌,郑良勇,鲁克新.坡面径流侵蚀产沙动力机制比较研究[J].水土保持学报,2005,19(3):66-69. 被引量：38
9赵泽茂,何坤金,胡友进.基于距离的异常数据挖掘算法及其应用[J].计算机应用与软件,2005,22(9):105-107. 被引量：12
10王华为,朱金兰,朱莲.泰州市1997～2004年耕地土壤肥力监测结果与分析[J].安徽农业科学,2005,33(8):1548-1549. 被引量：1

引证文献60

1吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：1
2林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
3王毅,谢瑞煜,杨利斌,赵建军.多无人机协同任务分群方案研究[J].舰船电子工程,2018,38(10):18-22. 被引量：1
4吴倩,王民慧.基于混合颜色空间K均值聚类的白斑面积测量方法[J].新型工业化,2018,8(7):88-93.
5郭卫霞,薛涛,李婷.基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析[J].西安工程大学学报,2018,32(6):705-712. 被引量：11
6夏永泉,孙静茹,WU Xin-wen,支俊,王兵,谢希望.基于改进K均值聚类算法的星点聚类研究[J].图学学报,2019,40(2):358-363. 被引量：4
7许颖芯,吴波锋,李懿.应用多元统计方法求解任务定价问题[J].福建电脑,2019,35(5):29-32.
8李金锁,章少燕.基于因子分析和K-means聚类算法的党员等级评定[J].信息技术与信息化,2019(6):102-104.
9赵荣标.基于公共投资空间布局优化的云南农田水利建设[J].农村实用技术,2019,0(9):79-80.
10林璐,陈健,曲大义,黑凯先,韩乐潍,邴其春.基于K均值聚类算法的交通状态判别方法研究[J].青岛理工大学学报,2019,40(4):109-114. 被引量：8

二级引证文献145

1王绿虹,杨小露,孟江,季德,陆兔林,张英,曹晖.广西莪术药材商品质量分级标准研究[J].中药材,2020,43(8):1926-1932. 被引量：1
2吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：1
3侯贤宇,陈玉明,吴克寿.多采样近似粒集成学习[J].南京大学学报（自然科学版）,2024,60(1):118-129.
4周火秀.机械制造企业利用ERP系统进行成本核算的方法[J].纳税,2023(9):106-108. 被引量：1
5夏邢,薛涛,李婷.基于Spark的模糊C均值算法改进[J].西安工程大学学报,2019,33(1):100-105. 被引量：5
6段勇强,廖红华,郑才,樊姗,滕召波.基于改进Kmeans算法的富硒绿茶嫩芽识别[J].湖北民族学院学报（自然科学版）,2019,37(4):445-448. 被引量：4
7常颖.基于Hadoop下的数据智能分类算法分析[J].通讯世界,2019,26(12):78-79. 被引量：1
8刘高峰,杨洋.一种基于信息熵的人工鱼群聚类方法[J].内江科技,2019,40(11):17-19.
9吴发辉,张玲.基于PRAM模型的集群计算机混合并行算法设计[J].信息工程大学学报,2019,20(4):417-420.
10李针,何维新,张益明,李军.浅谈智能化无人卫勤保障体系的构建[J].人民军医,2020,63(3):220-224. 被引量：5

1杨黎明,屈晓旭.基于K均值算法增强初始中心的研究[J].科技视界,2017(16):220-222.
2李娜.高校艺术教育管理特色研究与优化对策探讨[J].艺术科技,2017,30(9):326-326.
3郑艳.高校心理健康教育课教学方法研究与优化策略探讨[J].佳木斯职业学院学报,2018,34(4):258-258.
4刘儒衡.一种用于多类别划分的中心点选择算法[J].电脑知识与技术,2018,14(4X):188-190.
5高亚静,孙永健,杨文海,薛伏申,孙彦萍,梁海峰,李鹏.基于非参数核密度估计和改进谱多流形聚类的负荷曲线分类研究[J].电网技术,2018,42(5):1605-1612. 被引量：18
6顾洪博.一种MDHD-K-means算法的研究[J].牡丹江大学学报,2018,27(6):110-113.
7沈晶伟.转型时期高校信息化的治理结构变革研究[J].数码世界,2018,0(5):395-395.
8徐峰,赵燕.机电控制系统自动控制技术与一体化设计[J].科技创新导报,2018,15(8):1-2.
9向芙蓉,雍安跃.勘察技术在岩土工程施工中的应用论述[J].神州印象,2018,0(6):16-16.
10付泽强,王晓锋.基于变参数的DBSCAN算法[J].网络安全技术与应用,2018(8):34-36. 被引量：1

计算机技术与发展

2018年第6期

浏览历史

内容加载中请稍等...

K均值聚类算法的研究与优化被引量：60

参考文献8

二级参考文献134

共引文献333

同被引文献574

引证文献60

二级引证文献145

相关作者

相关机构

相关主题

浏览历史

K均值聚类算法的研究与优化 被引量：60

参考文献8

二级参考文献134

共引文献333

同被引文献574

引证文献60

二级引证文献145

相关作者

相关机构

相关主题

浏览历史

K均值聚类算法的研究与优化被引量：60