基于K近邻和优化分配策略的密度峰值聚类算法被引量：13

Density Peak Clustering Algorithm Based on K-nearest Neighbors and Optimized Allocation Strategy

下载PDF

导出

摘要密度峰值聚类(density peak clustering,DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一种基于K近邻(K-nearest neighbors,KNN)和优化分配策略的密度峰值聚类算法.首先,基于KNN、点的局部密度和边界点确定候选簇中心;定义路径距离以反映候选簇中心之间的相似度,基于路径距离提出密度因子和距离因子来量化候选簇中心作为簇中心的可能性,确定簇中心.然后,为了提升点的分配的准确性,依据共享近邻、高密度最近邻、密度差值和KNN之间距离构建相似度,并给出邻域、相似集和相似域等概念,以协助点的分配;根据相似域和边界点确定初始聚类结果,并基于簇中心获得中间聚类结果.最后,依据中间聚类结果和相似集,从簇中心到簇边界将簇划分为多层,分别设计点的分配策略;对于具体层次中的点,基于相似域和积极域提出积极值以确定点的分配顺序,将点分配给其积极域中占主导地位的簇,获得最终聚类结果.在11个合成数据集和27个真实数据集上进行仿真实验,与最新的基于密度峰值的聚类算法作对比,结果表明:所提算法在纯度、F度量、准确度、兰德系数、调整兰德系数和标准互信息上均表现出良好的聚类性能. The density peak clustering(DPC)algorithm is a simple and effective clustering analysis algorithm.However,in real-world practical applications,it is difficult for DPC to select the correct cluster centers for datasets with large differences of density among clusters or multi-density peaks in clusters.Furthermore,the allocation method of points in DPC has a domino effect.To address these issues,a density peak clustering algorithm based on the K-nearest neighbors(KNN)and the optimized allocation strategy was proposed.First,the candidate cluster centers using the KNN,densities of points,and boundary points were determined.The path distance was defined to reflect the similarity between the candidate cluster centers,based on which,the density factor and distance factor were proposed to quantify the possibility of candidate cluster centers as cluster centers,and then the cluster centers were determined.Second,to improve the allocation precision of points,according to the shared nearest neighbors,high density nearest neighbor,density difference,and distance between KNN,the similarity measures were constructed,and then some concepts of the neighborhood,similarity set,and similarity domain were proposed to assist in the allocation of points.The initial clustering results were determined according to the similarity domains and boundary points,and then the intermediate clustering results were achieved based on the cluster centers.Finally,according to the intermediate clustering results and similarity set,the clusters were divided into multiple layers from the cluster centers to the cluster boundaries,for which the allocation strategies of points were designed,respectively.To determine the allocation order of points in the specific layer,the positive value was presented based on the similarity domain and positive domain.The point was allocated to the dominant cluster in its positive domain.Thus,the final clustering results were obtained.The experimental results on 11 synthetic datasets and 27 real datasets demonstrate that the proposed algorithm has sound clustering performance in metrics of the purity,F-measure,accuracy,Rand index,adjusted Rand index,and normalized mutual information when compared with the state-of-the-art DPC algorithms.

作者孙林秦小营徐久成薛占熬 SUN Lin;QIN Xiao-Ying;XU Jiu-Cheng;XUE Zhan-Ao(College of Computer and Information Engineering,Henan Normal University,Xinxiang 453007,China;Key Laboratory of Artificial Intelligence and Personalized Learning in Education of Henan Province,Xinxiang 453007,China)

机构地区河南师范大学计算机科学与信息工程学院教育人工智能与个性化学习河南省重点实验室

出处《软件学报》 EI CSCD 北大核心 2022年第4期1390-1411,共22页 Journal of Software

基金国家自然科学基金(62076089,61976082,61772176) 河南省科技攻关项目(212102210136)。

关键词密度峰值聚类 K近邻簇中心积极值分配策略 density peak clustering K-nearest neighbors(KNN) cluster center positive value allocation strategy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1陈叶旺,申莲莲,钟才明,王田,陈谊,杜吉祥.密度峰值聚类算法综述[J].计算机研究与发展,2020,57(2):378-394. 被引量：45
2谷紫文,李鹏,郎恂,喻怡轩,沈鑫,曹敏.基于变分模态分解和密度峰值快速搜索的电力负荷曲线可控聚类模型[J].电力系统保护与控制,2021,49(8):118-127. 被引量：13
3丁世飞,徐晓,王艳茹.基于不相似性度量优化的密度峰值聚类算法[J].软件学报,2020,31(11):3321-3333. 被引量：28

二级参考文献18

1彭小圣,邓迪元,程时杰,文劲宇,李朝晖,牛林.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015,35(3):503-511. 被引量：521
2张斌,庄池杰,胡军,陈水明,张明明,王科,曾嵘.结合降维技术的电力负荷曲线集成聚类算法[J].中国电机工程学报,2015,35(15):3741-3749. 被引量：134
3Ziling Pang,Guoyin Wang,Jie Yang.A Multi-granularity Decomposition Mechanism of Complex Tasks Based on Density Peaks[J].Big Data Mining and Analytics,2018,1(3):245-256. 被引量：3
4谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：101
5巩树凤,张岩峰.EDDPC:一种高效的分布式密度中心聚类算法[J].计算机研究与发展,2016,53(6):1400-1409. 被引量：16
6史倩玉,梁吉业,赵兴旺.一种不完备混合数据集成聚类算法[J].计算机研究与发展,2016,53(9):1979-1989. 被引量：19
7谢敏,邓佳梁,吉祥,刘明波.基于信息熵和变精度粗糙集优化的支持向量机降温负荷预测方法[J].电网技术,2017,41(1):210-214. 被引量：38
8林顺富,田二伟,符杨,汤晓栋,李东东,王群京.基于信息熵分段聚合近似和谱聚类的负荷分类方法[J].中国电机工程学报,2017,37(8):2242-2252. 被引量：45
9张远鹏,邓赵红,钟富礼,杭文龙,王士同.基于代表点评分策略的快速自适应聚类算法[J].计算机研究与发展,2018,55(1):163-178. 被引量：5
10卜凡鹏,陈俊艺,张琪祁,田世明,丁坚勇,朱炳翔.一种基于双层迭代聚类分析的负荷模式可控精细化识别方法[J].电网技术,2018,42(3):903-910. 被引量：35

共引文献77

1王舰.基于高斯核优化的密度峰值聚类算法[J].电脑知识与技术,2020,16(28):192-194. 被引量：1
2吕佳,鲜焱.结合改进密度峰值聚类和共享子空间的协同训练算法[J].计算机应用,2021,41(3):686-693. 被引量：1
3李慧芳,钟新成,付晓丽.基于密度峰值聚类的大学生异常行为检测研究[J].电脑与电信,2021(3):26-29.
4李潇岩,卢宝松.聚类算法下的饲料粉碎机性能优化研究[J].农机化研究,2021,43(12):42-45.
5张亦弛,吕明明,关涛,王佳俊,余佳,任炳昱.基于改进自回归流模型的坝基三维裂隙网络多参数模拟[J].水利学报,2021,52(5):565-577. 被引量：2
6吴辰文,马宁,蒋雨璠.基于Jeffrey散度相似性度量的加权FCM聚类算法[J].激光与光电子学进展,2021,58(8):96-105. 被引量：2
7王大刚,丁世飞,钟锦.基于二阶k近邻的密度峰值聚类算法研究[J].计算机科学与探索,2021,15(8):1490-1500. 被引量：5
8龚旭,吕佳.基于加权主成分分析和改进密度峰值聚类的协同训练算法[J].重庆师范大学学报（自然科学版）,2021,38(4):87-96. 被引量：3
9杜淑颖,施天豪,丁世飞.基于电子分层模型和凝聚策略的密度峰值聚类[J].南京理工大学学报,2021,45(4):385-393. 被引量：1
10徐华杰.K-means聚类在A保险公司客户细分模型中的研究[J].网络安全技术与应用,2021(9):39-41. 被引量：2

同被引文献121

1黄丹阳,毕博洋,朱映秋.基于高斯谱聚类的风险商户聚类分析[J].统计研究,2021,38(6):145-160. 被引量：3
2贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021(4):131-144. 被引量：8
3梅松,程伟平,刘国华.基于支持向量机的洪水预报模型初探[J].中国农村水利水电,2005(3):34-36. 被引量：19
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
5张松兰.锅炉汽包水位模糊RBF自适应控制[J].河北工业科技,2010,27(4):248-250. 被引量：1
6张伟.基于特征值分解的图像边界与空间关系描述[J].计算机工程,2011,37(10):200-201. 被引量：3
7杨开睿,孟凡荣,梁志贞.一种自适应权值的PCA算法[J].计算机工程与应用,2012,48(3):189-191. 被引量：14
8于红斌,薛占熬.基于蚂蚁算法的中国邮路问题[J].河南师范大学学报（自然科学版）,2011,39(5):169-171. 被引量：5
9侯群群,王飞,严丽.基于灰度共生矩阵的彩色遥感图像纹理特征提取[J].国土资源遥感,2013,25(4):26-32. 被引量：62
10郭明玮,赵宇宙,项俊平,张陈斌,陈宗海.基于支持向量机的目标检测算法综述[J].控制与决策,2014,29(2):193-200. 被引量：113

引证文献13

1陈金山.基于密度峰值的电子商务用户行为数据聚类方法[J].哈尔滨师范大学自然科学学报,2023,39(4):65-69.
2张松兰.基于卷积神经网络的图像识别综述[J].西安航空学院学报,2023,41(1):74-81. 被引量：9
3陈羽.一种基于测地距离的密度峰值聚类改进算法[J].伊犁师范大学学报（自然科学版）,2023,17(1):56-65.
4徐磊,张志,章方圆,夏天.基于深度学习和白流量过滤的网络流量检测系统研究[J].电子技术与软件工程,2023(6):1-4.
5潘鑫鑫,侯精明,陈光照,周聂,吕佳豪,梁鑫,唐君言,张松.基于 K 近邻和水动力模型的城市内涝快速预报[J].水资源保护,2023,39(3):91-100. 被引量：4
6王威娜,朱钰,任艳.融合相对密度和最近邻关系的密度峰值聚类[J].计算机科学与探索,2023,17(8):1879-1892.
7马振明,安俊秀.基于空间向量搜索的密度峰值聚类算法[J].计算机工程与应用,2023,59(15):123-131. 被引量：1
8吴帅,陈宁江.基于密度峰值和K近邻的密度均衡采样方法[J].广西大学学报（自然科学版）,2023,48(4):931-942.
9陈迪,杜韬,周劲,仵匀政,王心耕.自适应多密度峰值子簇融合聚类算法[J].计算机工程与应用,2023,59(23):73-85.
10张清华,周靖鹏,代永杨,王国胤.基于代表点与K近邻的密度峰值聚类算法[J].软件学报,2023,34(12):5629-5648.

二级引证文献15

1乔贤玲,侯精明,张文晴,陈光照,马鑫,潘鑫鑫,高徐军,刘园.社区尺度居民楼内涝淹没过程精细化模拟及室内财产损失评估[J].水利水电科技进展,2023,43(5):73-81.
2张伟,庄子孟,孙慧超,李俊奇.我国城市内涝风险图编制关键问题及研究展望[J].水资源保护,2023,39(5):58-68. 被引量：1
3郑红木,陈康.基于深度学习的无线电干扰信号识别研究[J].中国无线电,2023(8):39-42. 被引量：2
4陈金鹏,安俊秀,李睿熙.基于密度万有引力改进的引力峰值聚类算法[J].山西大学学报（自然科学版）,2023,46(5):1064-1075.
5梁博文.基于mini_Xception的动漫人物表情识别[J].信息与电脑,2023,35(15):158-161.
6张韬.基于红外图像识别的泵站电气设备故障诊断[J].电气技术与经济,2023(10):155-158.
7黎施欣,范小平.图像处理与识别在果蔬成熟度监测中的研究及应用[J].包装工程,2024,45(3):153-164.
8胡雅祺,孔静,李宇恒,陈天星.基于深度学习的图像识别技术在选矿中的应用进展[J].矿冶,2024,33(1):131-140.
9考文涛,李明,马金刚.卷积神经网络在结直肠息肉辅助诊断中的应用综述[J].计算机科学与探索,2024,18(3):627-645.
10刘继,杨金瑞.基于网格近邻优化的密度峰值聚类算法[J].计算机应用研究,2024,41(4):1058-1063.

1方如举,葛瑜,孙伟,王建平.基于WSNs的智能配电网通信数据传输带宽的优化分配策略[J].电力系统保护与控制,2021,49(23):88-95. 被引量：18
2石中英.中国共产党百年来的人格理想与人格教育[J].中国社会科学文摘,2021(9):142-143.
3丁圣俊.基于文本细读的阅读教学评价[J].中学语文,2021(20):70-74.
4姚黄金,雷霞,付鑫权,胡益.基于改进自适应密度峰值算法的日负荷曲线聚类分析[J].电力系统保护与控制,2022,50(3):121-130. 被引量：6
5GU Ziwen,LI Peng,LANG Xun,YU Yixuan,SHEN Xin,CAO Min.A Multi-Granularity Density Peak Clustering Algorithm Based on Variational Mode Decomposition[J].Chinese Journal of Electronics,2021,30(4):658-668.
6迄今最大细菌肉眼可见[J].科学大观园,2022(6):6-6.
7沈维蕾,杨雪春,吴善春.基于DPC-SVDD的制造过程异常诊断[J].合肥工业大学学报（自然科学版）,2022,45(4):433-439. 被引量：1
8Sara Bauknecht,马励(译).善行的多米诺骨牌效应——小举动为世界带来大改变[J].空中英语教室（高级版．彭蒙惠英语）,2022(2):35-35.
9王哲.俄乌冲突会打开“潘多拉之盒”吗?[J].中国报道,2022(4):30-32.
10张炜健,施先亮,黄安强,华国伟,汪寿阳,李江宁.重大公共卫生事件下应急药品储备方式优化分配策略[J].系统工程理论与实践,2022,42(1):110-122. 被引量：11

软件学报

2022年第4期

浏览历史

内容加载中请稍等...

基于K近邻和优化分配策略的密度峰值聚类算法被引量：13

参考文献3

二级参考文献18

共引文献77

同被引文献121

引证文献13

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于K近邻和优化分配策略的密度峰值聚类算法 被引量：13

参考文献3

二级参考文献18

共引文献77

同被引文献121

引证文献13

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于K近邻和优化分配策略的密度峰值聚类算法被引量：13