期刊文献+

K均值聚类算法的研究与优化 被引量:60

Research and Optimization of K-means Clustering Algorithm
下载PDF
导出
摘要 聚类分析是数据挖掘的重要组成部分,K均值聚类算法是聚类分析方法中一种基本的划分式方法,也是无监督的机器学习方法。其具有效率高、容易理解和实现等优点,同时,可以对多种数据类型进行聚类,广泛应用于诸多领域。但是,K均值聚类算法也有一些局限性。算法中合理的k值难以确定,而且算法选择初始聚类中心的随机性会导致聚类结果不稳定,同时,算法对噪声和离群点数据也有很强的敏感性。为了解决初始聚类中心随机性的问题,通过全局化思想对K均值聚类算法进行了改进,改进的聚类效果评价使用常用的误差平方和准则。实验结果表明,相较于一般的K均值聚类算法,全局K均值聚类算法得到了更好的聚类效果,同时提升了算法的稳定性。 Clustering analysis is an important part of data mining.The K-means clustering algorithm is a basic partition method of clustering analysis,and it is also an unsupervised machine learning method with the advantages of high efficiency,easy understanding and implementing.At the same time,the clustering data type can be various,so it is widely used in many fields.However,the K-means clustering algorithm exists some limitations.For example,the reasonable value of k is difficult to determine,and choosing the initial clustering center is random,which can lead to the result unstable,also with strong sensitivity to noise and outliers.In order to solve the problem of the randomness for initial clustering center,we improve the K-means clustering algorithm through the idea of global change.The evaluation criterion of the clustering effect is the error sum of squares.Experiment shows that compared with normal K-means clustering algorithm,the global K-means clustering algorithm can get better clustering effect,while increasing its stability.
作者 陶莹 杨锋 刘洋 戴兵 TAO Ying;YANG Feng;LIU Yang;DAI Bing(School of Computer and Electronic Information,Guangxi University,Nanning 530004,China)
出处 《计算机技术与发展》 2018年第6期90-92,共3页 Computer Technology and Development
基金 广西壮族自治区中青年教师基础能力提升项目(KY2016YB026) 广西自然科学基金(2014GXNSFBA118274)
关键词 数据挖掘 K均值聚类 中心点 误差平方和 data mining K-means center point error sum of squares
  • 相关文献

参考文献8

二级参考文献134

共引文献333

同被引文献574

引证文献60

二级引证文献145

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部