一种基于最大最小距离和SSE的自适应聚类算法被引量：45

Adaptive clustering algorithm based on maximum and minimum distances,and SSE

下载PDF

导出

摘要 K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。 The K-means clustering algorithm, one of the most common clustering algorithms, requires to specify the initial centers and the number of clusters. However, specifying the initial centers can random- ly incur the local optimum of the clustering, and the number of clusters is not known in practice. To solve these problems, this paper proposes an adaptive clustering algorithm. The algorithm can select initial cen- ters based on maximum and minimum distances between data instances, and the most sparse cluster based on the sum of squared based on the changing error （SSE） to split, and determine the number of clusters when to stop splitting trend of SSE, thus identifying the number of clusters automatically. Experimental results show that the proposed algorithm can generate more accurate clustering results without increasing the number of iterations, thus it verifies the effectiveness of the proposed clustering algorithm.

作者成卫青卢艳红

机构地区南京邮电大学计算机学院

出处《南京邮电大学学报（自然科学版）》北大核心 2015年第2期102-107,共6页 Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition

基金国家自然科学基金(61170322 71171117 61373065)资助项目

关键词 K均值聚类算法最大最小距离初始中心误差平方和 K-means clustering algorithm maximum and minimum distances initial centers sum ofsquared errors

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1谭旁宁,STEINBACHM, KUMAR V.数据挖掘导论[M],北京:人民邮电出版社,2012.
2HARTIGAN J A. Clustering Algorithms[ M] . New York:John Wiley & Sons, 1975.
3HAN J, KAMBER M, PEI J. Data Mining Concepts andTechniques Orlando[ M]. San Francisco: Morgan Kaufmann Publishers ,2001.
4MACQUEEN J. Some methods for classification and analy-sis of multivariate observations [C] // Proceedings of the5th Berkeley Symposium on Mathematical Statistics andProbability. 1967 : 281 -297.
5BALL G H,HALL D J. A Clustering Technique for Sum-marizing Multivariate Data [ J ]. Behavior Science,1967,12(2) :153 -155.
6REZAEE M R,LELIEVELDT B P F,REIBER J H C. ANew Cluster Validity Index for the Fuzzy C-Means [ J ].Pattern Recognition Letters, 1998,19(3/4) :237 - 246.
7张忠平,王爱杰,柴旭光.简单有效的确定聚类数目算法[J].计算机工程与应用,2009,45(15):166-168. 被引量：23
8BANDYOPADHYAY S,MAUUK U. Genetic clustering forautomatic evolution of clusters and application to imageclassification [ J ]. Pattern Recognition,2002, 35 ( 6 ):1197-1208.
9XU L,KRZYZAK A, OJA E. Rival penalized competitivelearning for clustering analysis,RBF net,and curve detec-tion[ J]. IEEE Transactions on Neural Networks, 1993 ,4(4):636-649.
10PELLEG D, MOORE A. X-means : Extending K-meanswith efficient estimation of the number of clusters[ C]Proceeding of the 17th International Conference on Ma-chine Learning. 2000 ; 727 - 734.

二级参考文献30

1曾建潮,崔志华.一种保证全局收敛的PSO算法[J].计算机研究与发展,2004,41(8):1333-1338. 被引量：160
2刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
3赫然,王永吉,王青,周津慧,胡陈勇.一种改进的自适应逃逸微粒群算法及实验分析[J].软件学报,2005,16(12):2036-2044. 被引量：134
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
5孟伟,韩学东,洪炳镕.蜜蜂进化型遗传算法[J].电子学报,2006,34(7):1294-1300. 被引量：78
6李双虎,张风海.一个新的聚类有效性分析指标[J].计算机工程与设计,2007,28(8):1772-1774. 被引量：14
7普运伟,朱明,金炜东,胡来招.核聚类算法最佳聚类数的自适应确定方法[J].计算机工程,2007,33(4):11-13. 被引量：9
8毛韶阳,李肯立.优化K-means初始聚类中心研究[J].计算机工程与应用,2007,43(22):179-181. 被引量：26
9Redmond S J,Heneghan C.A method for initializing the K-means clustering algorithm using kd-trees[J].Patten Recognition Letter, 2007,28 : 965-973.
10Han J W,Wen S P.DataMing:Concepts and techniques[M].San Francisco:Morgan Kaumann Publishers,2000.

共引文献211

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2徐辉,李石君.一种整合粒子群优化和K-均值的数据聚类算法[J].山西大学学报（自然科学版）,2011,34(4):518-523. 被引量：9
3王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
4周慧芳.自适应的k-means聚类算法SA-K-means[J].科技创新导报,2009,6(34):4-5. 被引量：3
5罗晖霞,曲晓玲.基于网络舆情的K-Means算法的改进研究[J].电脑开发与应用,2010,23(8):4-6. 被引量：3
6彭柳青,张军英,许进.基于k-Means均匀效应的健壮聚类初始算法[J].华中科技大学学报（自然科学版）,2010,38(8):73-76. 被引量：2
7李东艳,李绍滋,柯逍.基于外部数据库的图像自动标注改善模型[J].计算机应用,2010,30(10):2610-2613. 被引量：1
8刘琳,于海斌.异构无线传感器网络中簇首的优化部署策略[J].通信学报,2010,31(10):229-237. 被引量：7
9李晓燕,陈刚,寿黎但,董金祥.一种面向协作标签系统的图片检索聚类方法[J].中国图象图形学报,2010,15(11):1635-1643. 被引量：3
10雷小锋,何涛,李奎儒,谢昆青,丁世飞.面向结构稳定性的分裂-合并聚类算法[J].计算机科学,2010,37(11):217-222. 被引量：4

同被引文献446

1周佳,汤娟,富薇,丁友超,钱凯,董绍伟,曹立华.牙膏中荧光增白剂的检测[J].质量与市场,2020(21):54-56. 被引量：3
2李洛宾,龚晓南,甘晓露,程康,侯永茂.基于循环神经网络的盾构隧道引发地面最大沉降预测[J].土木工程学报,2020,53(S01):13-19. 被引量：50
3缪海旭.民航旅客价值初探[J].经营与管理,2021(4):30-34. 被引量：2
4吴英.上市公司并购效应实证分析[J].财会通讯（学术版）,2007(9):8-10. 被引量：4
5姚永明,陈玉琪,张啟祥,陈若礼.淮北夏玉米生育期气候资源特点和增产栽培技术[J].中国农业气象,2009,30(S2):205-209. 被引量：19
6程荣斌,邓云.审级制度研究[J].湖南省政法管理干部学院学报,2001,17(5):4-12. 被引量：19
7赵明清,蒋昌俊,陶树平.基于等价相异度矩阵的聚类[J].计算机科学,2004,31(7):183-184. 被引量：11
8鹿小明.文本挖掘及其在信息检索中的应用[J].情报资料工作,2004,25(6):26-28. 被引量：10
9袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
10刘春红,赵春晖,张凌雁.一种新的高光谱遥感图像降维方法[J].中国图象图形学报（A辑）,2005,10(2):218-222. 被引量：81

引证文献45

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
3束珏,成卫青,邓聪.基于话题标签和转发关系的微博聚类和主题词提取[J].计算机应用,2016,36(2):460-464. 被引量：2
4张晓民,张枫,刘黎明.一种基于代表点质量的万有引力聚类算法[J].南开大学学报（自然科学版）,2016,49(4):8-15.
5马洋春,王兴芬.基于Spark的K-means聚类的并行实现与优化[J].福建电脑,2017,33(11):1-4. 被引量：1
6王立国,赵亮,石瑶.基于最大最小距离的高光谱遥感图像波段选择[J].智能系统学报,2018,13(1):131-137. 被引量：6
7吴清寿,刘耿耿,郭文忠.基于部分实例重判的二分K-means算法[J].福州大学学报（自然科学版）,2018,46(3):317-323. 被引量：1
8鲁观娜,吕言国,李文文,姜振宇,黄凡.基于混合算法的智能电表计量自动化研究[J].舰船电子工程,2018,38(6):109-112.
9唐东凯,王红梅,胡明,刘钢.优化初始聚类中心的改进K-means算法[J].小型微型计算机系统,2018,39(8):1819-1823. 被引量：33
10谭彩娟,赖承栋,苗晴.基于改进的K-means算法研究家庭环境对中学生认知能力的影响[J].电脑知识与技术,2017,13(11X):178-180. 被引量：1

二级引证文献566

1王炳琪,聂潇乾,严鹏,吴彬彬,高承帅.多站点低空防御系统关键技术研究[J].制导与引信,2019,0(4):17-22.
2杜康,周恒为,丁明明,叶峰,石彤非.聚类分析橡胶炭黑填充量与Yeoh模型参数的关联[J].应用化学,2021,38(6):675-684. 被引量：3
3许毅超.基于人工智能算法的河道智能监控预警系统研究及应用[J].水利科技,2023(4):29-31. 被引量：1
4何立蜓.基于K-means聚类算法的防汛物资调配改进模型[J].人民黄河,2021,43(S02):272-275. 被引量：1
5王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
6冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
7黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
8胡小鹏,赵永杰,黄可心,项彦澍,梁冬泰,冯永飞,梁丹.基于深度学习与超像素的乒乓球运动轨迹检测[J].机械制造,2022,60(8):81-86. 被引量：4
9陈小君,叶子,石怀旺.基于K-Means聚类与SVM算法对古代玻璃文物的分类与鉴别[J].哈尔滨师范大学自然科学学报,2023,39(4):70-79.
10王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5

1陈敏,余晓平,左文英.K-means算法的分析及改进[J].佳木斯大学学报（自然科学版）,2015,33(6):872-876.
2庞天杰,赵兴旺.一种基于先验信息的混合数据聚类个数确定算法[J].计算机科学,2016,43(2):101-104. 被引量：3
3杜强,孙敏.基于改进聚类分析算法的入侵检测系统研究[J].计算机工程与应用,2011,47(11):106-108. 被引量：27
4欧慧,夏卓群,武志伟.基于改进流形距离的粗糙集k-means聚类算法[J].计算机工程与应用,2016,52(14):84-89. 被引量：4
5王留正,何振峰.基于全局性分裂算子的进化K-means算法[J].计算机应用,2012,32(11):3005-3008. 被引量：3
6唐燕雯.一种基于K-means的自适应聚类算法的研究[J].科技致富向导,2012(2):143-143. 被引量：1
7陈济舟,罗可.基于粒计算与粗糙集的人工鱼群聚类算法[J].计算机工程与应用,2015,51(21):116-120. 被引量：3
8李莎,陶红,高尚.基于属性约简与参数优化的SVM故障诊断研究[J].计算机技术与发展,2012,22(4):175-178. 被引量：1
9王菲菲,李秦,张梦佳.k-means聚类算法的改进研究[J].甘肃科技纵横,2017,46(3):68-70. 被引量：8
10周洋,陈凡凡.PB自定义报表[J].电脑编程技巧与维护,2008(8):57-61.

南京邮电大学学报（自然科学版）

2015年第2期

浏览历史

内容加载中请稍等...

一种基于最大最小距离和SSE的自适应聚类算法被引量：45

参考文献15

二级参考文献30

共引文献211

同被引文献446

引证文献45

二级引证文献566

相关作者

相关机构

相关主题

浏览历史

一种基于最大最小距离和SSE的自适应聚类算法 被引量：45

参考文献15

二级参考文献30

共引文献211

同被引文献446

引证文献45

二级引证文献566

相关作者

相关机构

相关主题

浏览历史

一种基于最大最小距离和SSE的自适应聚类算法被引量：45