一种改进的K-means聚类算法被引量：6

An Improved K-means Clustering Algorithm

下载PDF

导出

摘要 K-means算法是一种应用非常广泛的聚类算法,它有很多优点,比如操作简单、效率很高、伸缩性较好,但也存在一些不足,比如聚类个数需要人工输入、初始聚类中心随机产生可能导致局部最优解、孤立点对聚类结果会产生较大影响等。笔者主要针对K-means算法的K值获取和初始聚类中心的选取对算法进行改进,并通过实验对比了原算法和改进算法,实验表明改进算法在聚类准确率和质量方面都优于原算法。 The K-means algorithm is a very widely used clustering algorithm.It has many advantages,such as simple operation,high efficiency,good scalability,but there are some shortcomings,such as the number of clusters need manual input,the random clustering of the initial clustering center may lead to local optimal solution,and the isolated point will have a great influence on the clustering result.In this paper,the K-means algorithm is used to improve the K-means and the initial clustering center.The algorithm is compared with the original algorithm and the improved algorithm.The experimental results show that the improved algorithm is superior to the original algorithm.

作者夏长辉 Xia Changhui(School of Computer Science,North China University of Technology,Beijing 100144,China;Department of Information Engineering,Shougang Institute of Technology,Beijing 100144,China)

机构地区北方工业大学计算机学院首钢工学院信息工程系

出处《信息与电脑》 2017年第14期40-42,共3页 Information & Computer

关键词数据挖掘 K-MEANS算法 K值初始聚类中心 data mining K-means algorithm K value initial clustering center

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1张忠平,王爱杰,柴旭光.简单有效的确定聚类数目算法[J].计算机工程与应用,2009,45(15):166-168. 被引量：23
2张逸清,刘文才.聚类数的确定[J].计算机与数字工程,2007,35(2):42-44. 被引量：7
3蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
4李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39

二级参考文献25

1杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
2李双虎,张风海.一个新的聚类有效性分析指标[J].计算机工程与设计,2007,28(8):1772-1774. 被引量：14
3普运伟,朱明,金炜东,胡来招.核聚类算法最佳聚类数的自适应确定方法[J].计算机工程,2007,33(4):11-13. 被引量：9
4毛韶阳,李肯立.优化K-means初始聚类中心研究[J].计算机工程与应用,2007,43(22):179-181. 被引量：26
5Redmond S J,Heneghan C.A method for initializing the K-means clustering algorithm using kd-trees[J].Patten Recognition Letter, 2007,28 : 965-973.
6Han J W,Wen S P.DataMing:Concepts and techniques[M].San Francisco:Morgan Kaumann Publishers,2000.
7Steinbach M,Karypis G,Kumar V.A comparison of document clustering techniques,TR00-034[R].USA:University of Minnesota,2000.
8Michael J A Berry,Gordon S Linoff．数据挖掘—客户关系管理的科学和艺术[M]．袁卫译．北京：中国财政经济出版社，2004．
9G. Katypis, E H Hart, V Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling [J]. Computer, 1999, 32(8):68-75.
10M Indulska, M E Orlowska. Gravity based spatial clustering [C]//Proceedings of the 10th ACM international symposium on Advances in geographic information systems. United States: Association for Computing Machinery, 2002: 125-130.

共引文献74

1周顺先,林亚平,王耀南,易叶青.基于聚簇隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2007,19(21):4926-4931. 被引量：2
2吴艳文,胡学钢.一种K-means算法的k值优化方案[J].巢湖学院学报,2007,9(6):21-24. 被引量：6
3徐鸽,陈江瑞.聚类分析在客户关系管理中的应用研究[J].企业技术开发,2008,27(1):9-11. 被引量：1
4耿晴.基于SSPG的空间聚类初始种子选择方法[J].地理空间信息,2008,6(4):58-61. 被引量：1
5魏士俨.基于SOM神经网的方向纹理分割[J].中国科技信息,2009(4):53-54.
6雷红艳,邹汉斌,周慧灿.基于聚类支持向量机的入侵检测算法[J].无线电工程,2009,39(2):45-47. 被引量：4
7邹汉斌,周学清.基于聚类的模糊支持向量机入侵检测算法[J].情报杂志,2009,28(3):175-178. 被引量：3
8张琪,胡昌华,乔玉坤.基于聚类粒子滤波器的故障预报方法研究[J].信息与控制,2009,38(1):115-120. 被引量：3
9汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
10巩敦卫,蒋余庆,张勇,周勇.基于微粒群优化聚类数目的K-均值算法[J].控制理论与应用,2009,26(10):1175-1179. 被引量：18

同被引文献32

1钱鑫,张龙波,田爱奎,邓齐志,汪金苗.一种面向数据密集型计算环境的聚类算法[J].济南大学学报（自然科学版）,2013,27(1):11-15. 被引量：3
2廖珣.基于Kmeans和CBR方法的高校就业预测模型应用研究[J].人力资源管理,2010(3):79-80. 被引量：3
3唐永年.阵面倾斜的干涉仪测向圆锥效应测向误差分析[J].电子对抗技术,1994(3):7-11. 被引量：3
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
5孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1077
6张星联,唐晓纯.我国食品安全预警数据库系统的建设与实现[J].食品科技,2008,33(12):250-254. 被引量：5
7吴云红,朱亮,初炜,孔祥金.食品监管改革的关键——基于互联网的动态第三方数据库[J].食品工业科技,2009,30(9):272-274. 被引量：8
8李卫平.对k-means聚类算法的改进研究[J].中国西部科技,2010,9(24):49-50. 被引量：6
9朱连江,马炳先,赵学泉.基于轮廓系数的聚类有效性分析[J].计算机应用,2010,30(12):139-141. 被引量：119
10赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：84

引证文献6

1朱迪锋,朱智谋.一卡通智能数据分析系统研究及应用[J].中国教育网络,2018(10):38-40.
2沈思,梁晓静.基于word2vec与K-means算法食品安全事件自动聚类研究[J].信息通信,2018,31(11):8-10. 被引量：4
3杨柳.K-means聚类算法性能分析与优化研究[J].火控雷达技术,2019,48(2):16-19. 被引量：4
4南亚飞,张云蕾,朱芮.基于核空间优化支持向量机的合作频谱感知算法[J].南开大学学报（自然科学版）,2021,54(3):8-14. 被引量：3
5黎伟,甘建超,刘高高,肖龙,哈章,王磊,邹菊红.均匀椭圆阵干涉仪测向[J].电子信息对抗技术,2022,37(1):70-75. 被引量：2
6李贞,刘海燕,刘策,李庆钰,刘刚.基于机器学习的K-Means聚类优化算法研究[J].数据挖掘,2022,12(1):20-26. 被引量：4

二级引证文献17

1韩琮师,李旭健.改进的K-means算法研究[J].软件,2020,41(3):21-23. 被引量：6
2沈思,孙豪,王东波.基于深度学习表示的医学主题语义相似度计算及知识发现研究[J].情报理论与实践,2020,43(5):183-190. 被引量：11
3张净,张涛,郭洪波.基于窄带物联网的中药材种植智能测控系统设计[J].江苏农业科学,2020,48(13):256-264. 被引量：6
4邓君,孙绍丹,宋先智,宋雪雁.哥伦比亚大学口述历史中心项目聚类分析与主题解构[J].图书情报工作,2020,64(17):37-48. 被引量：6
5安璐,李倩.基于热点主题识别的突发事件次生衍生事件探测[J].情报资料工作,2020,41(6):26-35. 被引量：22
6王洪,彭瑛,郭聪聪,陈博伟.基于k-means的机场终端区对流天气场景识别[J].哈尔滨商业大学学报（自然科学版）,2021,37(6):695-702. 被引量：2
7王霄汉,刘子虞,陈梓仪,单晓红.基于微博的中国新冠肺炎疫苗研发公众关注热点研究[J].情报探索,2022(5):125-134. 被引量：2
8宁春辉,孔萌,张家林,刘彦秋,张玉森.生物医学数据分析方法综述[J].数学建模及其应用,2022,11(1):1-15. 被引量：1
9欧萍.数据挖掘技术在软件工程中的应用[J].长江信息通信,2022,35(5):71-73. 被引量：3
10刘晓峰,崔丛波,梁森.基于聚类算法的水情分析系统的探讨与研究[J].城镇供水,2022(6):91-96. 被引量：1

1掌上缝纫机[J].电池,1980,17(4):62-62.
2王波,余相君.自适应布谷鸟搜索的并行K-means聚类算法[J].计算机应用研究,2018,35(3):675-679. 被引量：14
3萨·马尔夏克,任溶溶.“时间具有一种伸缩性……”[J].世界文学,1982(6):7-8.
4徐晓聪.K-means聚类算法及改进[J].信息与电脑,2017,29(16):107-108.
5祁力钧,程一帆,程浈浈,杨知伦,吴亚垒,葛鲁振.基于M-K聚类法的果树上下冠层体积比测算[J].农业机械学报,2018,49(5):57-64. 被引量：5
6祖志文,李秦.基于马氏距离的模糊聚类优化算法——KM-FCM[J].河北科技大学学报,2018,39(2):159-165. 被引量：6
7尹铁源,张瑞琴.基于MapReduce网页文本并行化计算的研究[J].信息通信,2018,31(4):32-34.
8胡立川.冲天炉结构的几点改进[J].中国铸造装备与技术,1976,28(6):26-28.
9Ed.佩波勒,周恕.1—3—1夹击(或称4—3防守)[J].山东体育科技,1982,4(4):67-68.
10王娜娜.基于无监督聚类的WSN最优路由方法设计[J].兰州工业学院学报,2018,25(2):53-56.

信息与电脑

2017年第14期

浏览历史

内容加载中请稍等...

一种改进的K-means聚类算法被引量：6

参考文献4

二级参考文献25

共引文献74

同被引文献32

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means聚类算法 被引量：6

参考文献4

二级参考文献25

共引文献74

同被引文献32

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means聚类算法被引量：6