结合mean-shift与MST的K-means聚类算法被引量：5

K-means Clustering Algorithm Combined with mean-shift and Minimum Spanning Tree

下载PDF

导出

摘要针对初始点选择不当导致K-means陷入局部最小值问题,提出一种结合自适应mean-shift与最小生成树(MST)的K-means聚类算法。将数据对象投影到主成分分析(PCA)子空间,给出自适应mean-shift算法,并在PCA子空间内将数据向密度大的区域聚集,再利用MST与图连通分量算法,找出数据的类别数和类标签,据此计算原始空间的密度峰值,并将其作为K-means聚类的初始中心点。对K-means的目标函数、聚类精度和运行时间进行比较,结果表明,该算法在较短的运行时间内能给出较优的全局解。 Given an inappropriate set of initial clustering centroids, K-means algorithm can get trapped in a local minimum. To remedy this, this paper proposes a K-means clustering algorithm combined with adaptive mean-shift and Minimum Spanning Tree（MST）. The original data set is projected into Principal Component Analysis（PCA） subspace. An adaptive Mean-shift is proposed and run in the PCA subspace to let the data move to dense regions, and via the MST and graph connected component algorithm, it finds the number of clusters and the cluster indicators. According to the indicators, the density peaks are computed in the full space and taken as the initial centroids for K-means clustering. Experimental results show that the proposed algorithm can provide better global solution and higher clustering accuracy within a shorter period of execution time.

作者徐沁罗斌

机构地区安徽大学计算智能与信号处理教育部重点实验室

出处《计算机工程》 CAS CSCD 2013年第12期204-210,共7页 Computer Engineering

基金国家自然科学基金资助项目(61073116 61211130309)

关键词聚类分析 K—means算法初始中心点 Mean—Shift算法主成分分析最小生成树 clustering analysis K-means algorithm initial centroid Mean-Shift algorithm Principal Component Analysis（PCA） Minimum Spanning Tree（MST）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献17

1Banfield J,Raftery A.Model-based Gaussian and Non-gaussian Clustering[J].Biometrics,1993,49(1):803-821.
2Linde Y,Buzo A,Gray R M.An Algorithm for Vector Quantizer Design[J].IEEE Transactions on Communications,1980,28(1):84-95.
3Huang C M,Harris R W.A Comparison of Several Vector Quantization Codebook Generation Approaches[J].IEEE Transactions on Image Processing,1993,2(1):108-112.
4Redmond S J,Heneghan C.A Method for Initialising the K-means Clustering Algorithm Using Kd-trees[J].Pattern Recognition Letters,2007,28(8):965-973.
5Kaufman L,Rousseeuw P J.Finding Groups in Data:An Introduction to Cluster Analysis[M].New Jersey,USA:Wiley Interscience,1990.
6Pe?a J M,Lozano J A,Larra?aga P.An Empirical Comparison of Four Initialization Methods for the K-means Algorithm[J].Pattern Recognition Letters,1999,20(10):1027-1040.
7汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
8Katsavounidis I,Kuo C C J,Zhang Z.A New Initialization Technique for Generalized Lloyd Iteration[J].IEEE Signal Processing Letters,1994,10(1):144-146.
9Galluccio L,Michel O,Comon P,et al,Graph Based K-means Clustering[J].Signal Processing,2012,92(9):1970-1984.
10Bishnu P S,Bhattacherjee V.Software Fault Prediction Using Quad Tree-based K-means Clustering Algorithm[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(6):1146-1150.

二级参考文献26

1李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
2钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
3Han J, Kamber M. Data Mining Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001
4Huang J Z, Ng M K, Rang Hongqiang, et al. Automated Variable Weighting in K-means Type Clustering. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27 (5) : 657 - 668
5Dhillon I S, Guan Yuqiang, Kogan J. Refining Clusters in High Dimensional Text Data//Proc of the 2nd SIAM Workshop on Clustering High Dimensional Data. Arlington, USA, 2002 : 59 - 66
6Zhang B. Generalized K-Harmonic Means: Dynamic Weighting of Data in Unsupervised Learning//Proc of the 1 st SIAM International Conference on Data Mining. Chicago, USA, 2001 : 1 - 13
7Sarafis I, Zalzala A M S, Trinder P W. A Genetic Rule-Based Data Clustering Toolkit//Proc of the Congress on Evolutionary Computation. Honolulu, USA, 2002 : 1238 - 1243
8Ma J, Perkins S. Time-Series Novelty Detection Using One-Class Support Vector Machines// Proc of the International Joint Conference on Neural Networks. Portland, USA, 2003, Ⅲ: 1741 - 1745
9Kaufman L,Rousseeuw P J. Finding Groups in Data: An Introduction to Cluster Analysis. New York, USA: John Wiley & Sons, 1990
10Rui Xu, Wunsch D I I. Survey of Clustering Algorithms. IEEE Trans on Neural Networks, 2005, 16(3 ) : 645 -678

共引文献141

1王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
4刘金岭.基于语义的中文文本聚类最佳簇数研究[J].计算机工程与设计,2010,31(9):2034-2036.
5杨瑞龙,朱庆生,谢洪涛.快速混合Web文档聚类[J].计算机工程与应用,2010,46(22):12-15. 被引量：3
6王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
7姚跃华,史秀岭.一种优化初始中心的K-means粗糙聚类算法[J].计算机工程与应用,2010,46(34):126-128. 被引量：14
8苏喻,郑诚,封军.文本聚类中基于密度聚类算法的研究与改进[J].微型机与应用,2011,30(1):1-3. 被引量：2
9崔春生,吴祈宗,王莹.用于推荐系统聚类分析的用户兴趣度研究[J].计算机工程与应用,2011,47(7):226-228. 被引量：15
10张燕平,张娟,何成刚,褚维翠,张利娜.基于佳点集与Leader方法的改进K-means聚类算法[J].计算机应用,2011,31(5):1359-1362. 被引量：3

同被引文献41

1贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228
2倪巍伟,陈耿,孙志挥.一种基于数据垂直划分的分布式密度聚类算法[J].计算机研究与发展,2007,44(9):1612-1617. 被引量：8
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
4Jiang Dongyang, Zheng Wei, Lin Xiaoqing. Research on selec- tion of initial center points based on improved K-Means algo- rithrn [C] //2nd International Conference on Computer Science and Network Technology, 2012: 1146-1149.
5Yao Mingyu, Pi Deehang, Cong Xiangxiang. Chinese text clustering algorithm based K-Means [C] //Proceedings of In- ternational Conference on Services Science, Management and Engineering, 2010: 9-12.
6Zhang Junhao, Ha Minghu, WU Jing. Implementation of rough fuzzy K-Means clustering algorithm in matlab [C] //In- ternationa Conference on Machine Learning and Cybernetics, 2010: 2084-2087.
7Chandrasekhar Am, Raghuveer K. Intrusion detection tech- nique by using K-Means, fuzzy neural network and SVM clas- sifiers [C] //International Conference onComputer Communi- cation and Informatics, 2013: 1-7.
8Verma Vieky Kumar, Khanna Nitin. Indian language identifi- cation using K-Means clustering and support vector machine (SVM) [C] //Students Conference on Engineering and Sys- tems, 2013: 1-5.
9Gan Zhigang, Xiao Nanfeng. A new ensemble learning algo- rithm based on improved K-Means for training neural network ensembles [C] //Second International Symposium on Intelli- gent Information Technology and Security Informatics, 2009: 8-11.
10Megler V M,Maier D. When Big Data Leads to Lost Data [ C ]//Proceedings of the 5th International Conference on Information and Knowledge Management. New York, USA : ACM Press,2012 : 1-8.

引证文献5

1岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
2侯荣涛,路郁,王琴,周彬.基于精细簇的K-Means文本聚类[J].计算机工程与设计,2015,36(7):1794-1799. 被引量：2
3沈俊鑫,郭晓军,王文浩,杨旭.基于协议组降低策略的二次并行k均值聚类算法[J].计算机工程,2015,41(8):150-155. 被引量：1
4贾瑞玉,李振.基于最小生成树的层次K-means聚类算法[J].微电子学与计算机,2016,33(3):86-88. 被引量：18
5周小亮,吴东洋,曹磊,王玉鹏,业宁.基于修剪树的优化聚类中心算法[J].南京大学学报（自然科学版）,2021,57(2):167-176. 被引量：1

二级引证文献25

1李明,刘敏,陈胜利,耿存胜,黄茂业,李茜.赣榆县生态林业建设与可持续发展的思考[J].江苏林业科技,2010,37(1):52-55.
2岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
3金华英.对农业承包中不完善合同的探讨[J].科技创新与应用,2013,3(25):253-253.
4田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
5宋国兴,周喜,马博,赵凡.基于R-树索引的高维相似重复记录检测改进算法[J].微电子学与计算机,2017,34(9):97-102. 被引量：3
6李俊,李玲娟.基于最小生成树的K-均值算法设计与并行化实现[J].南京邮电大学学报（自然科学版）,2017,37(5):81-86. 被引量：5
7颜金彪,郑文武,段晓旗,邓运员,郭元军,胡最.改进的最小生成树自适应空间点聚类算法[J].地球信息科学学报,2018,20(7):887-894. 被引量：3
8林昌辉.基于改进聚类算法在金融用户投资推荐中的应用研究[J].长沙航空职业技术学院学报,2015,15(4):47-51.
9乔琳,胡涛,朱金悦.基于最小生成树的K-means驴友结伴推荐算法研究[J].现代商业,2017(16):172-173. 被引量：2
10金晓民,张丽萍.基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用[J].吉林大学学报（理学版）,2018,56(5):1187-1192. 被引量：17

1王路情,樊勇,高苗粉,刘思思.一种改进的局部保持投影方法[J].电脑知识与技术,2013,9(11X):7613-7615.
2胡伟.一种改进的K_means聚类方法[J].计算机与现代化,2012(1):22-24. 被引量：6
3磨少清,刘正光,张军.基于图像质量和PCA子空间的车标识别方法[J].计算机应用,2010,30(8):2244-2246. 被引量：3
4宇雪垠,曹拓荒,陈本盛.基于特征脸的人脸识别及实现[J].河北工业科技,2009,26(5):428-430. 被引量：11
5魏新红,张凯.一种改进的PSO-Means聚类优化算法[J].河南科技大学学报（自然科学版）,2011,32(2):41-43. 被引量：7
6薛嘉,蔡金燕,马飒飒,张虹.基于群智能的连续优化算法研究[J].计算机工程与设计,2009,30(8):1969-1973. 被引量：3
7马忠丽,梁秀梅,文杰.无人水面艇目标图像自适应分割算法[J].哈尔滨工业大学学报,2014,46(7):53-59. 被引量：3
8王林,高红艳,王佰超.基于局部相似性的K-means谱聚类算法[J].西安理工大学学报,2013,29(4):455-459. 被引量：2
9林克正,姚欢.硬C-means聚类和DT-CWT变换的数字图像水印算法[J].计算机工程与应用,2013,49(18):167-170.
10张桢莉.不可限量的3D打印技术[J].现代制造,2016,0(30):62-62.

计算机工程

2013年第12期

浏览历史

内容加载中请稍等...

结合mean-shift与MST的K-means聚类算法被引量：5

参考文献17

二级参考文献26

共引文献141

同被引文献41

引证文献5

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

结合mean-shift与MST的K-means聚类算法 被引量：5

参考文献17

二级参考文献26

共引文献141

同被引文献41

引证文献5

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

结合mean-shift与MST的K-means聚类算法被引量：5