依赖数据密度的K均值初始化调优被引量：4

Improved k-means initialization method based on data density

下载PDF

导出

摘要 K均值算法虽被广泛应用,但其算法性能和算法稳定性严重依赖算法的初始化过程,尤其是初始聚类中心的选取。比较合理的聚类中心应该出现在数据密集的区域,基于这个假设,提出了一种依赖数据局部密度的初始化调优算法。该算法以数据的局部密度函数为依据,并在高密度区域选取初始聚类中心。与同类算法相比,该算法有如下特点:能够自主发现数据集中数据分布的局部密集度;对类别数目较多的数据表现出更好的性能;对离群点和噪声鲁棒;易于实现。 K-means is a widely used clustering method in many communities. However, the initial procedure affects the clustering results seriously, especially the initial centroids. Reasonable initial centroids should be in the region with high data density, so an improved k-means initialization method is proposed based on local data density. Firstly, a definition of local data density function is given, and then initial centroids are chosen based on this definition. Experimental result shows that the proposed method has several advantages：it can find the data densities effective and the reasonable candi-dates of initial centroids, it shows outstanding performance when the number of categories is related large, it is robust to outliers and noisy, it is easy to implement.

作者沈国珍

机构地区浙江树人大学信息科技学院

出处《计算机工程与应用》 CSCD 2014年第11期139-144,166,共7页 Computer Engineering and Applications

关键词聚类 K均值算法聚类中心密度函数 clustering k-means initialization data density

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张雪凤,张桂珍,刘鹏.基于聚类准则函数的改进K-means算法[J].计算机工程与应用,2011,47(11):123-127. 被引量：41
2韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
3韩晓红,胡彧.K-means聚类算法的研究[J].太原理工大学学报,2009,40(3):236-239. 被引量：45
4赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
5王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：306
6孔锐,张国宣,施泽生,郭立.基于核的K-均值聚类[J].计算机工程,2004,30(11):12-13. 被引量：46
7袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
8胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63

二级参考文献67

1李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
2荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
3袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
4余建桥,张帆.基于数据场改进的PAM聚类算法[J].计算机科学,2005,32(1):165-167. 被引量：15
5贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
7谢崇宝,袁宏源,郭元裕.最优分类的模糊划分聚类改进方法[J].系统工程,1997,15(1):58-63. 被引量：12
8Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND lnt Conf Managemerit on Data, Seattle, Washington, 1998 . 73-84.
9Ester M,Kriegel H P,Sander J.A density-based algorithm tier discovering chlsters in large spatial databases with noise[C]//Proc 2nd Int Conf on Knowledge Discovery and Data Mining.Portland, 1999.20:226-231.
10[1]Vapnik V N. The Nature of Statistical Learning Theory. Springer Verlag New York, 1995

共引文献738

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2马燕,余海军,钟发生,刘丰林.基于残差编解码网络的CT图像金属伪影校正[J].仪器仪表学报,2020,41(8):160-169. 被引量：17
3谢皓,孙小东,何海熙.基于K-means聚类的高炉操作炉型研究[J].冶金自动化,2023,47(S01):88-91.
4赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：4
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6赵源,王越,胡华.基于POI-K-means地铁车站聚类方法研究[J].智能计算机与应用,2022,12(5):114-118. 被引量：4
7段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
8Kui Luo,Wenhui Shi,Weisheng Wang.Extreme scenario extraction of a grid with large scale wind power integration by combined entropy-weighted clustering method[J].Global Energy Interconnection,2020,3(2):140-148. 被引量：8
9楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
10郑攀,庹武.基于K-means聚类算法的女裤弹性面料分类研究[J].国际纺织导报,2014,42(5):71-72. 被引量：1

同被引文献34

1任江涛,施潇潇,孙婧昊,黄焕宇,印鉴.一种改进的基于特征赋权的K均值聚类算法[J].计算机科学,2006,33(7):186-187. 被引量：10
2王辉,张望,范明.基于集群环境的K-Means聚类算法的并行化[J].河南科技大学学报（自然科学版）,2008,29(4):42-45. 被引量：10
3汪丽娜,陈晓宏,李粤安,林凯荣.基于人工鱼群算法和模糊C-均值聚类的洪水分类方法[J].水利学报,2009,39(6):743-748. 被引量：30
4刘艳红,薛安荣,史习云.K-means聚类与SVDD结合的新的分类算法[J].计算机应用研究,2010,27(3):883-886. 被引量：7
5徐家宁,张立文,徐素莉,李进.改进遗传算法的K-均值聚类算法研究[J].微计算机应用,2010,31(4):11-15. 被引量：11
6韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
7吴文元,熊智华,吕宁,王京春,邵杰峰,钟向宏.支持向量回归在乙烯裂解产物收率软测量中的应用[J].化工学报,2010,61(8):2046-2050. 被引量：14
8王磊,汪西莉,刘高霞,赵琳.一种结合半监督的改进自适应亲和传播聚类[J].计算机应用研究,2010,27(12):4436-4438. 被引量：3
9唐明珠,王岳斌,阳春华.一种改进的支持向量数据描述故障诊断方法[J].控制与决策,2011,26(7):967-972. 被引量：16
10周世兵,徐振源,唐旭清.一种基于近邻传播算法的最佳聚类数确定方法[J].控制与决策,2011,26(8):1147-1152. 被引量：23

引证文献4

1孙茂伟,杨慧中.基于改进仿射传播聚类的多模型软测量建模及应用[J].南京理工大学学报,2016,40(2):204-211. 被引量：6
2曾庆山,张贵勇.基于距离阈值的自适应K-均值聚类算法[J].郑州大学学报（理学版）,2016,48(4):90-94. 被引量：5
3孙茂伟,杨慧中.一种基于支持向量数据描述的聚类多模型软测量建模[J].控制工程,2018,25(7):1184-1189. 被引量：1
4蒋华,武尧,王鑫,王慧娇.改进K均值聚类的海洋数据异常检测算法研究[J].计算机科学,2019,46(7):211-216. 被引量：14

二级引证文献26

1钟怀兵,熊伟丽.一种带奇异点检测和补偿的GPR在线软测量方法[J].南京理工大学学报,2017,41(4):503-510. 被引量：4
2张孙力,杨慧中.一种基于改进扩张搜索聚类算法的软测量建模方法[J].南京理工大学学报,2017,41(5):574-580. 被引量：3
3陈蓓,宋坤.基于AP-SVM多模型建模的风电场负荷预测研究[J].电力学报,2017,32(5):376-381.
4刘振鹏,董亚伟,赵璇,张彬.MDPA:基于MCL的社会网络差分隐私数据发布算法[J].郑州大学学报（理学版）,2018,50(1):1-7. 被引量：1
5郭新,徐明,张众.基于谱聚类的边缘检测算法[J].郑州大学学报（理学版）,2018,50(3):83-86. 被引量：4
6吕新帅,田斌,梁翔,谭玉霖,刘圣良.一种基于RBF神经网络的大气温度及水汽密度廓线反演方法[J].舰船电子工程,2019,39(4):29-33. 被引量：2
7彭涛.GPS/BDS双模自适应抗干扰接收机的研究与实现[J].舰船电子工程,2019,39(4):59-63. 被引量：1
8吉文鹏,杨慧中.基于自适应等距映射算法的软测量建模[J].南京理工大学学报,2019,43(3):269-274. 被引量：2
9张海林,李琳,夏传良.改进K-means算法的馈线线损计算[J].软件导刊,2019,18(12):22-25. 被引量：4
10尚家泽,安葳鹏,郭耀丹.基于阈值的BIRCH算法改进与分析[J].重庆邮电大学学报（自然科学版）,2020,32(3):487-494. 被引量：7

1程燕,李树军,秦现生,杨根君,吴军豪,范斌.大部件调姿平台的开发与设计[J].机械制造,2015,53(8):42-44. 被引量：8
2韩最蛟.基于数据密集性的自适应K均值初始化方法[J].计算机应用与软件,2014,31(2):182-187. 被引量：19
3信息化调查[J].中国信息化,2009(22):68-69.
4苑玮琦,白云,柯丽.虹膜区域选取与PCA算法识别率对应关系研究[J].光电子．激光,2008,19(10):1393-1397. 被引量：4
5变中求进精益求精 2015年中国制造业企业信息化调查[J].中国机电工业,2015,0(11):64-68. 被引量：4
6刘金彦,何传江,吴永飞.噪声鲁棒的水平集演化模型[J].计算机应用与软件,2016,33(4):173-176. 被引量：2
7董伟龙,屈倩如.变中求进精益求精——2015年中国制造业企业信息化调查[J].电器工业,2016(12):39-51.
8郑玉燕,何建农.基于数学形态学的SAR图像道路提取[J].微计算机信息,2008,24(24):293-294. 被引量：10
9王梦蕾.一种基于区域检测的图像检索相关反馈方法[J].计算机与现代化,2015(1):75-79.
10钱江,陈志杨,叶修梓,谭光华,张三元.噪声鲁棒的分水岭网格分割算法[J].计算机辅助设计与图形学学报,2008,20(3):310-315. 被引量：12

计算机工程与应用

2014年第11期

浏览历史

内容加载中请稍等...

依赖数据密度的K均值初始化调优被引量：4

参考文献8

二级参考文献67

共引文献738

同被引文献34

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

依赖数据密度的K均值初始化调优 被引量：4

参考文献8

二级参考文献67

共引文献738

同被引文献34

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

依赖数据密度的K均值初始化调优被引量：4