基于簇间相似度判定的自适应K均值算法被引量：1

Self-adaptive K-means algorithm based on determination of similarity between clusters

下载PDF

导出

摘要针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进。新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果。通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度。 The traditional K-means clustering algorithm has two drawbacks.One is that the number of clusters must be known in advance and the other is that the clustering result is sensitive to the selection of initial cluster centroids and this may make the algorithm converge to the local optima.An improved K-means based on the definition of a similarity measure between clusters is brought forward.Although the value of K is unknown,the new algorithm can determine the number of classes and supply a pretty good clustering result through the following steps：Select the initial center of mass,K-means clustering,filtering noising sample and calculate the similarity matrix between clusters and merge the similar clusters.The experimental results on UCI data sets show that the new method could accurately determine the number of classes and get a better clustering accuracy.

作者陈杰朱娟

机构地区华南理工大学计算机科学与工程学院

出处《计算机工程与设计》 CSCD 北大核心 2010年第10期2270-2272,2375,共4页 Computer Engineering and Design

关键词半聚类 K均值算法基本簇簇间相似度簇合并 clustering K-means basic cluster similarity between clusters cluster merger

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Kanungo T, Mount D M.A local search app roximafion algorithm for k-means clustering[J].Computational Geometry,2004,28(2/3):89-112.
2Bradley P S, Fayyad U M. Refining initial points for k-means clustering[C].Proceedings of the 15th International Conference on Machine Learning,2006:91-99.
3Pesa J M,Lozano J A,Larrasaga EAn empirical comparison of four initialization methods for the k-means algnrithm[J].Pattem Recognition Letters,2006,20(10): 1027-1040.
4Jiawei Han,Micheline Kamber(著),范明,孟小峰(译).数据挖掘概念与技术[M].北京:机械工业出版社,2007.3.2.
5严宇平,肖菁.基于可变染色体长度的遗传K均值聚类算法[J].计算机工程与设计,2008,29(14):3709-3713. 被引量：7
6周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
7姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：67
8徐义峰,陈春明,徐云青.一种改进的k-均值聚类算法[J].计算机应用与软件,2008,25(3):275-277. 被引量：41

二级参考文献70

1刘静,钟伟才,刘芳,焦李成.免疫进化聚类算法[J].电子学报,2001,29(z1):1868-1872. 被引量：43
2刘健庄,谢维信,黄建军,李文化.聚类分析的遗传算法方法[J].电子学报,1995,23(11):81-83. 被引量：27
3钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
4钱云涛,谢维信.聚类神经网络的通用设计方法[J].西安电子科技大学学报,1997,24(1):15-21. 被引量：3
5HanJ KamberM.数据挖掘概念与技术[M].北京:机械工业出版社,2002..
6Ester M, Kriegel H P, Sander J, Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise. In Proc. of the 2nd ACM SIGKDD, Portland, 1996:226 - 231.
7Sander J, Ester M, Kriegel H P, Xu X. Denslty-based clustering in spatial databases: the algorithm GDBSCAN and its applications.Data Mining and Knowledge Discovery, 1998, 2(2): 169 - 194.
8Ankerst M, Breunig M, Kfiegel H P, Sander J. OPTICS: Ordering points to identify clustering structure. In Proc. of the ACM SIGMOD Conference, Philadelphia, PA, 1999:49 - 60.
9Xu X, Ester M, Kiegel H P, Sander J. A distribution-based clustering algorithm for mining in large spatial databases. In Proc.of the 14th ICDE, Orlando, FL, 1998:324 - 331.
10Hinneburg A, Keim D. An efficient approach to clustering large multimedia databases with noise. In Proe. of the 40th ACMSIGKDD, New York, NY, 1998:58 - 65.

共引文献239

1赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
2梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
3张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
4王秀芳,王岩.优化K均值随机初始中点的改进算法[J].化工自动化及仪表,2012,39(10):1302-1304. 被引量：4
5徐晓华.高中阶段教育面临的形势与发展策略[J].教育科学论坛,2005(12):57-58.
6吕巍,陈洁.基于K-means算法的中国商业银行零售业务顾客行为细分策略[J].系统工程理论方法应用,2005,14(6):502-505. 被引量：1
7李秀芳,李志成.基于数据挖掘的聚类算法研究[J].计算技术与自动化,2006,25(3):41-45. 被引量：3
8孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
9覃拥军,刘先锋.数据挖掘中的聚类分析研究[J].科技咨询导报,2007(16):28-30.
10陈宇.聚类算法研究[J].福建电脑,2007,23(7):27-29. 被引量：1

同被引文献5

1牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：16
2吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：165
3金微,吕萍,朱翠青,汪克峰.基于关系数据库管理系统的K-means聚类算法[J].江苏理工学院学报,2015,21(4):26-31. 被引量：2
4周国兵,吴建鑫,周嵩.一种基于近邻表示的聚类方法[J].软件学报,2015,26(11):2847-2855. 被引量：11
5石云平.基于聚类K-means算法的初值依赖性研究[J].计算机与信息技术,2008(6):7-9. 被引量：2

引证文献1

1薛晨杰,林婷薇.基于异常检测的K-means改进算法研究[J].软件导刊,2019,18(4):74-78. 被引量：6

二级引证文献6

1林相泽,张俊媛,朱赛华,刘德营.基于K-SVD和正交匹配追踪稀疏表示的稻飞虱图像分类方法[J].农业工程学报,2019,35(19):216-222. 被引量：14
2赵向兵,白栋.基于Python的学生健康数据聚类分析系统[J].电子技术与软件工程,2021(14):183-185. 被引量：3
3庄丽丽,石鸿雁.基于改进布谷鸟搜索的k-means算法的离群点检测[J].计算机与现代化,2021(10):15-22. 被引量：1
4吴林慧,何毅斌,陈宇晨,杜伟,汪强.基于多元高斯分布的零件尺寸异常检测[J].组合机床与自动化加工技术,2022(4):92-95.
5张乐,吴艳芹,杨昊,张平,胡华伟.基于无监督学习的无线网络性能异常检测方法[J].无线电通信技术,2022,48(4):758-762. 被引量：1
6梁礼明,邹培.基于YOLOv4的绝缘子检测算法[J].软件导刊,2022,21(8):132-137. 被引量：4

1屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6
2陈坤,马燕,李顺宝.融合直方图阈值和K-均值的彩色图像分割方法[J].计算机工程与应用,2013,49(4):170-173. 被引量：6
3刘明术.基于K-均值聚类的混合聚类算法[J].安庆师范学院学报（自然科学版）,2016,22(1):40-42. 被引量：3
4安建成,史德增.一种改进的K-means算法[J].电脑开发与应用,2011,24(4):39-40. 被引量：6
5顾洪博,张继怀.基于孤立点和初始质心选择的k-均值改进算法[J].长江大学学报（自科版）（上旬）,2009,6(1):60-62. 被引量：7
6顾洪博,苏冬娜.基于孤立点和初始质心选择的k均值算法的改进与应用[J].陕西理工学院学报（自然科学版）,2009,25(3):45-49. 被引量：4
7马仕玉,李益才,蓝章礼.一种具有优良抗噪性能的初始聚类质心选择算法[J].计算机科学,2014,41(S1):406-408.
8孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
9田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
10张真,任贺宇.一种基于动态网格技术的K-means初始质心选取算法[J].微电子学与计算机,2013,30(6):101-104. 被引量：2

计算机工程与设计

2010年第10期

浏览历史

内容加载中请稍等...

基于簇间相似度判定的自适应K均值算法被引量：1

参考文献8

二级参考文献70

共引文献239

同被引文献5

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于簇间相似度判定的自适应K均值算法 被引量：1

参考文献8

二级参考文献70

共引文献239

同被引文献5

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于簇间相似度判定的自适应K均值算法被引量：1