自适应截断距离与样本分配的密度峰值聚类算法

Density Peak Clustering Algorithm Based on Adaptive Cutoff Distance and Sample Allocation

下载PDF

导出

摘要针对密度峰值聚类算法中,样本局部密度截断距离需主观选择和样本分配策略的误差扩散问题,提出自适应截断距离和构造流形距离优化样本分配的改进型密度峰值聚类算法。该算法首先使用样本K近邻自适应的选取各点的截断距离,即在样本密度大的点,选用大截断距离,准确选取类簇中心,在样本密度小的点,选用小截断距离,判别离群点。其次对于剩余样本通过样本的连接路径构造流形距离,优化样本分配策略。最后选取人工数据集进行聚类分析算法实验,与传统的密度峰值聚类算法进行实验对比,验证所提改进算法对聚类中心选取和样本分配的准确性。 Aiming at the shortcomings of the subjective selection of the cutoff distance and the sample allocation strategy in the sample local density of the density peaks fast search clustering algorithm,an improved density peaks clustering algorithm which is adaptive to the cutoff distance and Manifold distance optimization is proposed.The algorithm uses the sample K nearest neighbor adaptive selection cutoff distance.In the place where the sample density is large,the large cutoff distance is selected to accurately select the cluster center.For the remaining samples,an optimized sample allocation strategy of manifold distance was adopted.Artificial data sets were selected for clustering analysis in the algorithm verification experiment,and the experiment was compared with the traditional peak density clustering algorithm to verify the accuracy of the improved algorithm in clustering center selection and sample allocation.

作者张志壮高文华石慧董增寿 ZHANG Zhi-zhuang;GAO Wen-hua;SHI Hui;DONG Zeng-shou(School of Electronic and Information Engineering,Taiyuan University of Science and Technology,Taiyuan 030024,China)

机构地区太原科技大学电子信息工程学院

出处《太原科技大学学报》 2023年第2期91-96,共6页 Journal of Taiyuan University of Science and Technology

基金国家自然科学基金青年科学基金(61703297) 山西省重点研发计划(201903D321012 201903D121023) 山西省自然科学基金(201801D121166 201901D111264)。

关键词密度峰值聚类聚类中心自适应截断距离流形距离 density peak clustering cluster center adaptive cutoff distance manifold distance

分类号 O159 [理学—基础数学] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1周永祥,杨海峰,蔡江辉,尚晓群.一种快速确定聚类中心的光谱聚类方法[J].太原科技大学学报,2020,41(6):425-432. 被引量：3
2杨华晖,孟晨,王成,姚运志.基于目标特征选择和去除的改进K-means聚类算法[J].控制与决策,2019,34(6):1219-1226. 被引量：17
3陈迎春,李鸥,孙昱.基于聚类离散化和变精度邻域熵的属性约简[J].控制与决策,2018,33(8):1407-1414. 被引量：11
4辜振谱,刘晓波,韩子东,洪连环.基于改进密度峰值聚类的航空发动机故障诊断[J].计算机集成制造系统,2020,26(5):1211-1217. 被引量：8
5王业东,李向前,敬石开,魏振达,陈英.基于密度峰值法的设计理性聚类方法[J].计算机集成制造系统,2017,23(8):1662-1669. 被引量：3
6周世波,徐维祥.一种基于相对密度和决策图的聚类算法[J].控制与决策,2018,33(11):1921-1930. 被引量：8
7黄岚,李玉,王贵参,王岩.基于点距离和密度峰值聚类的社区发现方法[J].吉林大学学报（工学版）,2016,46(6):2042-2051. 被引量：17
8褚睿鸿,王红军,杨燕,李天瑞.基于密度峰值的聚类集成[J].自动化学报,2016,42(9):1401-1412. 被引量：15
9Ziling Pang,Guoyin Wang,Jie Yang.A Multi-granularity Decomposition Mechanism of Complex Tasks Based on Density Peaks[J].Big Data Mining and Analytics,2018,1(3):245-256. 被引量：3
10谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：103

二级参考文献113

1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3Han J W, Kamber M. Data Mining Concepts and Techniques. 2nd ed. New York:Elsevier Inc, 2006. 383-424.
4Jain A K. Data clustering:50 years beyond K-means. Pattern Recogn Lett, 2010, 31:651-666.
5Williamson B, Guyon I. Clustering:science or art?. J Mach Learn Res, 2012, 27:65-80.
6Frey B J, Dueck D. Clustering by passing messages between data points. Science, 2007, 315:972-976.
7Rodri?uez A, Laio A. Clustering by fast search and find of density peaks. Science, 2014, 344:1492-1496.
8Xu R, Wunsch D. Survey of clustering algorithms. IEEE Trans Neural Netw Learn Syst, 2005, 16:645-678.
9McQueen J. Some methods for classification and analysis of multivariate observations. In:Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Los Angeles:University of California, 1967. 281-297.
10Likas A, Vlassis N, Verbeek J J. The global K-means clustering algorithm. Pattern Recogn, 2003, 36:451-464.

共引文献226

1陆小莉,刘强,徐生霞.中国产业转型升级的空间分异与影响机制研究[J].经济问题探索,2021(2):135-144. 被引量：5
2夏飞,张洁,张浩,陆剑峰.基于BIC准则和加权皮尔逊距离的居民负荷模式精细识别及预测[J].电子测量与仪器学报,2020,32(11):33-42. 被引量：15
3杨磊,吴涛.一种常用的二维任意域的Delaunay三角剖分算法的健壮性补充[J].中国图象图形学报（A辑）,2000,5(4):323-326. 被引量：4
4赵建军,汪清,由磊,洪文兴.基于信息传递和峰值聚类的自适应社区发现算法[J].重庆大学学报（自然科学版）,2018,41(11):76-83. 被引量：2
5徐森,皋军,徐秀芳,花小朋,徐静,安晶.一种基于二部图谱划分的聚类集成方法[J].控制与决策,2018,33(12):2208-2212.
6李延,王大魁,耿晶,王树良.数据质量聚类算法[J].武汉大学学报（信息科学版）,2019,44(1):153-158. 被引量：3
7WANG Shuliang,LI Qi,YUAN Hanning,GENG Jing,DAI Tianru,DENG Chenwei.Robust Clustering with Topological Graph Partition[J].Chinese Journal of Electronics,2019,28(1):76-84. 被引量：1
8Ziling Pang,Guoyin Wang,Jie Yang.A Multi-granularity Decomposition Mechanism of Complex Tasks Based on Density Peaks[J].Big Data Mining and Analytics,2018,1(3):245-256. 被引量：3
9陶辉.基于密度峰值选取聚类中心的优化[J].内江科技,2016,37(10):31-33. 被引量：1
10贾培灵,樊建聪,彭延军.一种基于簇边界的密度峰值点快速搜索聚类算法[J].南京大学学报（自然科学版）,2017,53(2):368-377. 被引量：6

1王少帆,魏福豪,黄世雨,尹宝才.基于图密度峰值聚类算法的热点路段发现[J].中国传媒大学学报（自然科学版）,2023,30(1):31-38. 被引量：1
2汪洋,傅洪亮,陶华伟,杨静,谢跃,赵力.基于决策边界优化域自适应的跨库语音情感识别[J].计算机应用,2023,43(2):374-379. 被引量：1
3马宇红,李兴义,薛生倩,王小小.一种基于流形距离核的谱聚类和量子聚类融合算法[J].西北师范大学学报（自然科学版）,2023,59(2):37-46. 被引量：1
4陈豫禹,杨宇明,李厚彪.基于网格密度峰值聚类的测向交叉定位[J].电光与控制,2023,30(4):40-44. 被引量：2
5陶新民,郭文杰,李向可,陈玮,吴永康.基于密度峰值的依维度重置多种群粒子群算法[J].软件学报,2023,34(4):1850-1869. 被引量：6
6李传耀,陈依婷.自主式交通系统功能架构优化密度峰值聚类算法[J].山东科学,2023,36(2):93-102. 被引量：1
7王明,严飞.局部距离优化的点云配准算法[J].激光杂志,2023,44(2):57-62. 被引量：1
8朱淑雯,罗戈,韦平,李晟,张新鹏,钱振兴.隐蔽图像后门攻击[J].中国图象图形学报,2023,28(3):864-877.
9王野枫,韩俊英,陈佰鸿,毛娟,陈俊康.苹果颜色模型分量与淀粉染色级数关系的研究[J].软件,2023,44(2):88-93.
10李曦,张光明.同向航迹对ITP距离的影响分析[J].现代计算机,2023,29(3):21-27.

太原科技大学学报

2023年第2期

浏览历史

内容加载中请稍等...

自适应截断距离与样本分配的密度峰值聚类算法

参考文献11

二级参考文献113

共引文献226

相关作者

相关机构

相关主题

浏览历史