一种确定最佳聚类数的新算法被引量：11

A new algorithm to determine the optimal number of clusters

下载PDF

导出

摘要针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响. To determine the optimal number of clusters for K-means clustering,a new algorithm is proposed based on the granular computing and the improved global K-means clustering.This algorithm introduces the granular computing into similar function to determine the similarity between two samples,so that the potential largest number Kmax of clusters is determined by the new similar function and fuzzy equivalence relation.Then the improved global K-means clustering and the criterion of BWP（Between-Within Proportion） are combined to determine the optimal number of clusters of a dataset,where BWP is a criterion to estimate the clustering result,and the optimal number of clusters for K-means clustering is determined according to the scores of BWP on different clustering results,during the procedure the Kmax is used as the upper bound of searching for the optimal number of clusters.The new algorithm is tested and compared to available studies about how many clusters will be best for K-means clustering through the UCI datasets and synthetic datasets with noisy data.All experimental results demonstrate that our new algorithm is effective in determining the optimal number of clusters especially in large datasets.The disadvantage of it is that it is sensitive to noisy data.

作者谢娟英马箐谢维信

机构地区陕西师范大学计算机科学学院西安电子科技大学电子工程学院深圳大学信息工程学院

出处《陕西师范大学学报（自然科学版）》 CAS CSCD 北大核心 2012年第1期13-18,共6页 Journal of Shaanxi Normal University：Natural Science Edition

基金陕西省自然科学基金资助项目(2010JM3004) 中央高校基本科研业务费专项资金重点项目(GK200901006 GK201001003) 陕西师范大学研究生培养创新基金项目(2011CX029)

关键词信息粒度 K-均值全局K-均值模糊相似度聚类指标BWP information granularity K-means global K-means fuzzy similarity clustering criterion BWP

分类号 TP181.1 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1MacQueen J. Some methods for classification and analy- sis of multivariate observations[C]//Lucien M. Le Cam and Jerzy Neyman. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1 .. Statistics. Berkeley: University of California Press, 1967:281-297.
2Gao Xinbo, Li Jie,Tao Dacheng, et al. Fuzziness meas urement of fuzzy sets and its application in cluster validi ty analysis[J]. International Journal of Fuzzy System 2007, 9(4) :188-197.
3Dudoit S, Fridlyand J. A prediction-based resampling method for estimating the number of clusters in a dataset [J]. Genome Biology, 2002, 3(7): 1-21.
4Rousseeuw P J. Silhouettes.. A graphical aid to the interpre- tation and validation of cluster analysis[J].Computational and Applied Mathematics, 1987, 20: 53-65.
5周世兵,徐振源,唐旭清.基于近邻传播算法的最佳聚类数确定方法比较研究[J].计算机科学,2011,38(2):225-228. 被引量：30
6Kapp A V, Tibshirani R. Are clusters found in one dataset present in another dataset? [J].Biostatistics, 2007, 8(1): 9-31.
7周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：142
8杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
9周世兵,徐振源,唐旭清.新的K-均值算法最佳聚类数确定方法[J].计算机工程与应用,2010,46(16):27-31. 被引量：90
10Lin T Y. Granular eomputing: from rough sets and neighborhood systems to information granulation and computing with words[C]//European Congress on In- telligent Techniques and Soft Computing, 1997: 1602-1606.

二级参考文献53

1杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
2王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
3苗夺谦.Rough Set理论在机器学习中的应用研究：博士学位论文[M].北京:中国科学院自动化研究所,1997..
4Vapnik V N.统计学习理论的本质（中文版）[M].北京:清华大学出版社,2000..
5黄萱菁.大规模中文文本的检索、分类与摘要研究：博士学位论文[M].上海:复旦大学,1998..
6Jain A K, Dubes R C. Algorithms for clustering data [ M]. Englewood Cliffs: Prentice-Hall, 1988 : 1-334.
7Huang Z. Extensions to the K-means algorithm for clustering large data sets with categorical values [J]. Data Ming and Knowledge Discovery, 1998, 2 (3): 283-304.
8Maulik U, Bandyopadhyay S. Genetic algorithm based clustering technique[J]. Pattern Recognition, 2000, 33 (9): 1 455-1 465.
9Selim S Z, Al-Sultan K S. A simulated annealing algorithm for the clustering[J]. Pattern Recognition, 1991, 24 (10):1 003-1 008.
10Likas A, Vlassis M, Verbeek J. The global K-means clustering algorithm[J]. Pattern Recognition, 2003, 36 (2) : 451-461.

共引文献573

1段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
2刘文一,孙伟,朱良明,赵志博.舰载飞行器打击水面舰艇编队队形识别和目标选择方法[J].兵器装备工程学报,2020,41(2):85-89. 被引量：11
3ZHAO Rong-zhen,LIAN Jin.基于邻域粗糙集概念的一种滚动轴承特征提取方法[J].兰州理工大学学报,2019,45(6):34-39. 被引量：2
4刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
5楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
6辛治运,顾明,马兆丰.基于粗糙集理论的金融信息推荐算法研究[J].计算机研究与发展,2007,44(z2):262-270.
7黄仁,冯阿瑞.基于Ncut的自适应图像分割方法[J].土木建筑与环境工程,2013,35(S2):107-110. 被引量：2
8韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
9毛军军,张铃,许义生.基于商空间和信息粒度的Fuzzy聚类分析[J].运筹与管理,2004,13(4):25-29. 被引量：3
10耿志强,朱群雄,李芳.知识粗糙性的粒度原理及其约简[J].系统工程与电子技术,2004,26(8):1112-1116. 被引量：26

同被引文献135

1李美娟,陈国宏,陈衍泰.综合评价中指标标准化方法研究[J].中国管理科学,2004,12(z1):45-48. 被引量：185
2徐辉,李石君.一种整合粒子群优化和K-均值的数据聚类算法[J].山西大学学报（自然科学版）,2011,34(4):518-523. 被引量：9
3张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
4吴景岚,朱文兴.基于K中心点的文档聚类算法[J].兰州大学学报（自然科学版）,2005,41(5):88-91. 被引量：4
5张逸清,刘文才.聚类数的确定[J].计算机与数字工程,2007,35(2):42-44. 被引量：7
6钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
7Han J W,Kamber M. Data Mining: Concepts and Techniques[M]. Beijing: China Machine Press, 2000:383-466.
8Theodoridis S, Koutroumbas K. Pattern tecognition[M]. Boston: Academic Press, 2009 : 745-748.
9Kaufman L, Rousseeuw P J. Finding groups in data: An introduction to cluster analysis[M]. New York: Wiley, 1990 : 126-163.
10Lucasius C B, Dane A clustering of large data algorithm: Background, Analytica Chimica Acta, D, Kateman G. On k-medoid sets with the aid of a genetic feasibility and comparison[J]. 1993, 282(3): 647-669.

引证文献11

1谢娟英,郭文娟,谢维信.基于邻域的K中心点聚类算法[J].陕西师范大学学报（自然科学版）,2012,40(4):16-22. 被引量：32
2谢娟英,郭文娟,谢维信,高新波.基于密度RPCL的K-means算法[J].西北大学学报（自然科学版）,2012,42(4):570-576. 被引量：5
3谢娟英,高瑞.Num-近邻方差优化的K-medoids聚类算法[J].计算机应用研究,2015,32(1):30-34. 被引量：11
4袁周米琪,周坚华.自适应确定K-means算法的聚类数：以遥感图像聚类为例[J].华东师范大学学报（自然科学版）,2014(6):73-80. 被引量：3
5卞彩峰,邱建林,陈燕云,陆鹏程,陈璐璐.基于粒计算的k值选取及其应用[J].计算机工程与设计,2015,36(11):3082-3086. 被引量：4
6谢娟英,周颖.一种新聚类评价指标[J].陕西师范大学学报（自然科学版）,2015,43(6):1-8. 被引量：13
7孙宏,景崇毅,黄赶祥,王晓东.基于机型等级的航线市场细分方法研究[J].中国民航飞行学院学报,2016,27(1):13-16.
8杨续昌,陈友玲,兰桂花,阳玮琦.基于聚类分析和双边匹配的产品开发任务分配方法[J].计算机集成制造系统,2017,23(4):717-725. 被引量：6
9李燕梅.一种基于全局K-均值聚类的改进算法[J].电脑与电信,2017(11):25-27.
10韩存鸽,刘长勇.一种改进的K-Means算法[J].闽江学院学报,2019,40(5):49-54. 被引量：6

二级引证文献74

1刘博,安建成.基于关键姿势的人体动作识别[J].电视技术,2014,38(5):38-41. 被引量：8
2殷樱,张玉冰,刘家诚,高昆.基于邻域互信息和K均值的基因选择算法[J].电脑知识与技术,2014(2):821-823.
3谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
4路浩,倪世宏,查翔,张鹏.基于递减概率初始点选择K中心点进化算法[J].计算机仿真,2014,31(9):314-318. 被引量：3
5谢娟英,高瑞.Num-近邻方差优化的K-medoids聚类算法[J].计算机应用研究,2015,32(1):30-34. 被引量：11
6唐涛,覃晓,易宗剑,韩冬越.基于k中心点聚类的图像二值化方法[J].计算机科学与探索,2015,9(2):234-241. 被引量：10
7谢娟英,周颖.一种新聚类评价指标[J].陕西师范大学学报（自然科学版）,2015,43(6):1-8. 被引量：13
8谢娟英,屈亚楠.密度峰值优化初始中心的K-medoids聚类算法[J].计算机科学与探索,2016,10(2):230-247. 被引量：27
9赵翠芹,易云飞.无线传感网中分簇分层k-medoids协议研究[J].云南民族大学学报（自然科学版）,2016,25(2):157-162. 被引量：2
10苏义鑫,夏慧雯.用于风电功率预测的RPCL优化神经网络模型[J].北京工业大学学报,2016,42(5):674-678. 被引量：5

1黄美璇.一种基于Kmax的K-means改进算法[J].佛山科学技术学院学报（自然科学版）,2010,28(2):49-52. 被引量：1
2白天,周春光,刘桂霞,王晗,王喆,张宏婷.一种共调控基因聚类的新方法[J].吉林大学学报（理学版）,2009,47(2):292-298. 被引量：2
3谢娟英,蒋帅,王春霞,张琰,谢维信.一种改进的全局K-均值聚类算法[J].陕西师范大学学报（自然科学版）,2010,38(2):18-22. 被引量：47
4彭长生,詹智财,张松松,程碧淳.一种基于多帧统计的车道背景建模方法[J].计算机应用与软件,2013,30(5):97-100. 被引量：1
5梁鲜,曲福恒,杨勇,才华.一种高效的全局K-均值算法[J].长春理工大学学报（自然科学版）,2015,38(3):112-115. 被引量：1
6王晓云,陈良生.旋转变化的人耳识别研究[J].计算机工程,2011,37(S1):208-210.
7凌莉.“轻型臂WEE” 引领中国协作机器人新纪元[J].中国科技产业,2016(4):43-47. 被引量：3
8英维思过程系统任命新亚太区总裁及市场营销副总裁[J].自动化博览,2008(7):3-3.
9即插式3D录影 Weeview发布Eye-Plug智能手机外接3D摄像头[J].照相机,2016,0(8):88-88.
10丁淑艳,宋婀娜,李伦波.退化交通标志图像的RBPNN分类算法研究[J].计算机仿真,2010,27(1):281-284. 被引量：1

陕西师范大学学报（自然科学版）

2012年第1期

浏览历史

内容加载中请稍等...

一种确定最佳聚类数的新算法被引量：11

参考文献16

二级参考文献53

共引文献573

同被引文献135

引证文献11

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

一种确定最佳聚类数的新算法 被引量：11

参考文献16

二级参考文献53

共引文献573

同被引文献135

引证文献11

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

一种确定最佳聚类数的新算法被引量：11