基于相似性的密度峰值聚类分析算法

Density Peak Clustering Analysis Algorithm Based on Similarity

下载PDF

导出

摘要密度峰值聚类是一类具有代表性的聚类分析方法,但针对复杂数据集时,其聚类效果较差。论文利用数据对象的近邻信息,提出了一种密度峰值聚类分析算法。该算法首先采用数据对象的K近邻,计算数据对象局部密度,并通过与其K近邻的密度和距离的比值得到邻域密度比,重新定义了DPC密度计算方法,有效地解决了DPC截断距离dc在选择上的随意性;其次利用数据对象之间的相似性度量,结合影响空间、共享K近邻和密度比,给出了一种新的数据对象之间的相似性度量方法;然后利用数据对象的距离和密度相似的影响因素并与相似近邻结合,改进了FKNN-DPC分配策略。最后采用UCI数据集,实验验证了该算法具有良好的聚类簇效果。 Density peak clustering is a representative cluster analysis method,but its clustering effect is poor for complex data sets.In this paper,a clustering analysis algorithm of density peak is proposed by using the nearest neighbor information of data ob-jects.Firstly,the local density of the data object is calculated by using the k-nearest neighbor of the data object,and the neighbor-hood density ratio is obtained by the ratio of the density and distance of its k-nearest neighbor.The DPC density calculation method is redefined,and the DPC cutoff distance dc is effectively solved.Secondly,using the similarity measure between data objects,combined with influence space,shared k-nearest neighbor and density ratio,a new similarity measure method between data objects is proposed.Then,using the influence factors of distance and density similarity of the data objects and combined with most similar nearest neighbor,FKNN-DPC allocation strategy is improved.Finally,experiments on UCI datasets show that the algorithm has a good cluster effect.

作者刘昱胡立华 LIU Yu;HU Lihua(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024)

机构地区太原科技大学计算机科学与技术学院

出处《计算机与数字工程》 2023年第6期1250-1255,共6页 Computer & Digital Engineering

关键词聚类分析密度峰值相似性度量聚类簇扩展密度 cluster analysis density peak similarity measure cluster expansion density

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1何云斌,董恒,万静,李松.基于密度峰值和近邻优化的聚类算法[J].计算机科学与探索,2020,14(4):554-565. 被引量：7
2高鑫,徐建,胡建洪.基于Word2Vec的改进密度峰值新闻话题聚类[J].计算机与数字工程,2020,48(1):7-12. 被引量：3

二级参考文献17

1冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报,2008,37(1):105-111. 被引量：88
2索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
3李松,郝忠孝.基于Voronoi图的反向最近邻查询方法研究[J].哈尔滨工程大学学报,2008,29(3):261-265. 被引量：27
4李凤岭,朱保平.基于LDA模型的微博话题发现技术研究[J].计算机应用与软件,2014,31(10):24-26. 被引量：10
5谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：104
6巩树凤,张岩峰.EDDPC:一种高效的分布式密度中心聚类算法[J].计算机研究与发展,2016,53(6):1400-1409. 被引量：17
7唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：144
8蒋礼青,张明新,郑金龙,戴娇,尚赵伟.快速搜索与发现密度峰值聚类算法的优化研究[J].计算机应用研究,2016,33(11):3251-3254. 被引量：32
9王飞,王国胤,李智星,彭思源.一种基于网格的密度峰值聚类算法[J].小型微型计算机系统,2017,38(5):1034-1038. 被引量：22
10杨洁,王国胤,庞紫玲.密度峰值聚类相关问题的研究[J].南京大学学报（自然科学版）,2017,53(4):791-801. 被引量：12

共引文献8

1黄学雨,程世超.KNN优化的密度峰值聚类算法[J].通信技术,2021,54(7):1608-1618. 被引量：6
2潘玉,陈晓红,李舜酩,李纪永.块增量典型相关分析[J].计算机科学与探索,2022,16(8):1809-1818. 被引量：1
3钟磊,冷根.基于神经网络的文本聚类研究[J].信息与电脑,2022,34(11):154-156.
4张桂莲,张东华,郑福海.机载雷达测绘遥感图像下的典型空间信息数据挖掘方法[J].湘潭大学学报（自然科学版）,2022,44(4):60-70. 被引量：2
5冯健,陈少剑,付立东,史丹丹.基于链路变化的增量式动态网络社团检测模型[J].计算机工程与设计,2022,43(9):2464-2469.
6王淼,方振西,王晓桐,李松,郝忠孝.空间方向关系定性推理技术研究进展[J].计算机应用研究,2023,40(9):2561-2572. 被引量：2
7张震,汤鲲,邱秀连.基于BERT-LDA模型的短文本主题挖掘[J].计算机与数字工程,2023,51(9):2098-2102. 被引量：1
8张利,路颜萍,侯晴,张皓博.K近邻空间密度分布的模糊聚类算法[J].辽宁大学学报（自然科学版）,2023,50(4):289-301.

1董雪,万仁霞,苗夺谦,岳晓冬.基于阴影集的三支高斯混合聚类算法[J].广西大学学报（自然科学版）,2023,48(4):958-971.
2徐慧,郭青青,秦正斌.软件定义网络的入侵检测模型及实验验证[J].实验技术与管理,2023,40(7):41-48. 被引量：1
3徐蕾,王海霞.血清25-(OH)D_(3)、LTB4、FKN联合检测对慢阻肺急性加重期患者预后的临床价值研究[J].临床肺科杂志,2023,28(10):1531-1535. 被引量：2
4郭锐,熊风光,谢剑斌,尹宇慧,刘磊.基于改进残差池化层的纹理识别[J].计算机技术与发展,2023,33(9):37-44.
5王若宾,耿芳东,张永梅,宋威,王伟锋,徐琳.基于改进自适应DBSCAN的混合式MOOC视频观看模式挖掘[J].计算机工程与科学,2023,45(9):1670-1678.
6吴辰文,王莎莎,曹雪同.结合柯西分布和蚁狮算法改进的模糊聚类算法[J].计算机工程与应用,2023,59(17):91-98. 被引量：1
7余豪东,陈玉明,吴克寿,韩锋钢.决策粒K均值聚类算法[J].闽南师范大学学报（自然科学版）,2023,36(3):1-13. 被引量：1
8邵良杉,赵松泽.基于多模型融合的不完整数据分数插补算法[J].计算机工程,2023,49(9):79-88.
9任晓莹,陈浩,刘玘晗,李紫璇,王淑琴.基于判别结构向量互补的集成特征选择方法[J].天津师范大学学报（自然科学版）,2023,43(4):57-63. 被引量：1

计算机与数字工程

2023年第6期

浏览历史

内容加载中请稍等...

基于相似性的密度峰值聚类分析算法

参考文献2

二级参考文献17

共引文献8

相关作者

相关机构

相关主题

浏览历史