基于共享近邻相似度的密度峰聚类算法被引量：8

Density peaks clustering algorithm based on shared near neighbors similarity

下载PDF

导出

摘要密度峰聚类是一种基于密度的高效聚类方法,但存在对全局参数dc敏感和需要人工干预决策图进行聚类中心选择的缺陷。针对上述问题,提出了一种基于共享近邻相似度的密度峰聚类算法。首先,该算法结合欧氏距离和共享近邻相似度进行样本局部密度的定义,避免了原始密度峰聚类算法中参数dc的设置;其次,优化聚类中心的选择过程,能够自适应地进行聚类中心的选择;最后,将样本分配至距其最近并拥有较高密度的样本所在的簇中。实验结果表明,在UCI数据集和模拟数据集上,该算法与原始的密度峰聚类算法相比,准确率、标准化互信息(NMI)和F-Measure指标分别平均提高约22.3%、35.7%和16.6%。该算法能有效地提高聚类的准确性和聚类结果的质量。 Density peaks clustering is an efficient density-based clustering algorithm. However, it is sensitive to the global parameter dc. Furthermore, artificial intervention is needed for decision graph to select clustering centers. To solve these problems, a new density peaks clustering algorithm based on shared near neighbors similarity was proposed. Firstly, the Euclidean distance and shared near neighbors similarity were combined to define the local density of a sample, which avoided the setting of parameter dcof the original density peaks clustering algorithm. Secondly, the selection process of clustering centers was optimized to select initial clustering centers adaptively. Finally, each sample was assigned to the cluster as its nearest neighbor with higher density samples. The experimental results show that, compared with the original density peaks clustering algorithm on the UCI datasets and the artificial datasets, the average values of accuracy, Normalized Mutual Information（NMI） and F-Measure of the proposed algorithm are respectively increased by about 22. 3%, 35. 7% and16. 6%. The proposed algorithm can effectively improve the accuracy of clustering and the quality of clustering results.

作者鲍舒婷孙丽萍郑孝遥郭良敏 BAO Shuting 1,2 , SUN Liping 1,2 ,ZHENG Xiaoyao 1,2 ,GUO Liangmin 1,2(1. School of Computer and Information, Anhui Normal University, Wuhu Anhui 241002, China;2. Anhui Provincial Key Laboratory of Network and Information Security （ Anhui Normal University ） , Wuhu Anhui 241002, China)

机构地区安徽师范大学计算机与信息学院网络与信息安全安徽省重点实验室(安徽师范大学)

出处《计算机应用》 CSCD 北大核心 2018年第6期1601-1607,共7页 journal of Computer Applications

基金国家自然科学基金资助项目(61602009 61772034) 安徽省自然科学基金资助项目(1608085MF145 1508085QF133)~~

关键词密度峰聚类 K近邻共享近邻局部密度相似性度量 density peaks clustering k nearest neighbors shared near neighbors local density similarity measure

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
2李涛,葛洪伟,苏树智.基于密度自适应距离的密度峰聚类[J].小型微型计算机系统,2017,38(6):1347-1352. 被引量：6
3张俊.基于信息熵的高维数据流子空间聚类方法[J].安徽师范大学学报（自然科学版）,2015,38(1):36-39. 被引量：2
4谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：104
5马春来,单洪,马涛.一种基于簇中心点自动选择策略的密度峰值聚类算法[J].计算机科学,2016,43(7):255-258. 被引量：47

二级参考文献49

1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3颜晓龙,沈鸿.一种适用于高维数据流的子空间聚类方法[J].计算机应用,2007,27(7):1680-1684. 被引量：6
4BIN Liu, SHU Gui Cao, WU He. Distributed data mining for e-business[ j]. Information Technology and Management, 2011,12(2) : 67 -146.
5LV Xiao, LI Yong Jie, LU Xu . A web data mining algorithm based on weighted association rules[j]. Key Engineering Materials,2011,1104(467):1368-2777.
6BIN Liu, SHU Gui Cao, WU He. Distributed data mining for e-business[j]. Information Technology and Management, 2011,12(2) :67-69.
7孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
8Han J W, Kamber M. Data Mining Concepts and Techniques. 2nd ed. New York:Elsevier Inc, 2006. 383-424.
9Jain A K. Data clustering:50 years beyond K-means. Pattern Recogn Lett, 2010, 31:651-666.
10Williamson B, Guyon I. Clustering:science or art?. J Mach Learn Res, 2012, 27:65-80.

共引文献165

1夏飞,张洁,张浩,陆剑峰.基于BIC准则和加权皮尔逊距离的居民负荷模式精细识别及预测[J].电子测量与仪器学报,2020,32(11):33-42. 被引量：16
2杨磊,吴涛.一种常用的二维任意域的Delaunay三角剖分算法的健壮性补充[J].中国图象图形学报（A辑）,2000,5(4):323-326. 被引量：4
3陶永才,何宗真,石磊,卫琳,曹仰杰.基于加权动态兴趣度的微博个性化推荐[J].计算机应用,2014,34(12):3491-3496. 被引量：12
4石博,何楚,卓桐,徐新.慕课教学中基于局部社区发现的主题交互模型[J].计算机应用研究,2015,32(6):1724-1727. 被引量：8
5颜义人.基于特征加权与特征选择的数据挖掘算法研究[J].电子技术与软件工程,2015(15):211-211.
6关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,60(2):112-121. 被引量：52
7高永兵,陈超,熊振华,王宇,马占飞.基于个人微博特征的事件提取研究[J].计算机应用与软件,2016,33(7):47-51. 被引量：3
8张明微,吴海涛.一种优化初始聚类中心的k-means算法[J].上海师范大学学报（自然科学版）,2016,45(5):599-603. 被引量：2
9张明君,杨福猛,谢珍珠,王浩宇,魏雪琦.医学图像检索二进制码学习方法[J].安徽师范大学学报（自然科学版）,2017,40(1):43-47.
10贾培灵,樊建聪,彭延军.一种基于簇边界的密度峰值点快速搜索聚类算法[J].南京大学学报（自然科学版）,2017,53(2):368-377. 被引量：6

同被引文献39

1俞金寿.软测量技术及其应用[J].自动化仪表,2008,29(1):1-7. 被引量：101
2冯少荣,肖文俊.一种提高DBSCAN聚类算法质量的新方法[J].西安电子科技大学学报,2008,35(3):523-529. 被引量：13
3李丽娟,宋坤,赵英凯.基于仿射传播聚类的ARA发酵过程建模[J].化工学报,2011,62(8):2116-2121. 被引量：18
4王强,田学民.基于KPCA-LSSVM的软测量建模方法[J].化工学报,2011,62(10):2813-2817. 被引量：27
5张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2272
6李丽娟,潘磊,张湜.基于AP聚类算法的跳汰机床层松散度软测量建模[J].化工学报,2012,63(9):2675-2680. 被引量：10
7杨慧中,董陶,陶洪峰.基于改进K-means聚类算法的组合模型建模[J].控制工程,2013,20(2):201-203. 被引量：18
8吴健,崔志明,时玉杰,盛胜利,龚声蓉.基于局部密度构造相似矩阵的谱聚类算法[J].通信学报,2013,34(3):14-22. 被引量：14
9耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：62
10王振雷,唐苦,王昕.一种基于D-S和ARIMA的多模型软测量方法[J].控制与决策,2014,29(7):1160-1166. 被引量：21

引证文献8

1宁建会,刘莉.FHYA—02B型油田管柱智能测长仪的研制[J].测井与射孔,2000(1):71-73.
2杜沛,程晓荣.一种基于K近邻的比较密度峰值聚类算法[J].计算机工程与应用,2019,55(10):161-168. 被引量：12
3高月,杨小飞,马盈仓,汪义瑞.基于共享k-近邻与共享逆近邻的密度峰聚类[J].计算机工程与应用,2019,55(20):43-51. 被引量：5
4沈斌,赵重远.基于KNN算法的财政预算监督方法[J].武汉工程大学学报,2020,42(1):108-112. 被引量：5
5刘聪,谢莉,杨慧中.基于改进DPC的青霉素发酵过程多模型软测量建模[J].化工学报,2021,72(3):1606-1615. 被引量：5
6周欢欢,张征,张琦.结合共享近邻和共享逆近邻的密度峰聚类[J].西华师范大学学报（自然科学版）,2022,43(1):108-115. 被引量：1
7周欢欢,郑伯川,张征,张琦.基于自适应近邻参数的密度峰聚类算法[J].计算机应用,2022,42(5):1464-1471. 被引量：1
8张紫丹,徐华,杨重阳.二阶自然最近邻和多簇合并的密度峰值聚类算法[J].计算机应用研究,2023,40(12):3559-3565.

二级引证文献29

1李泰,韩强,黄银龙,王宗宏.基于kNN算法的红外测温图谱的温度数字识别研究[J].电力信息与通信技术,2019,17(6):14-19. 被引量：6
2聂启阳,朱峰.基于fastMCD和DBSCAN的公车私用监管模型[J].技术与市场,2019,26(10):176-180.
3康雷雷,卢维科,刘澜.城市快速路入口匝道与交叉口协调控制策略[J].计算机工程与应用,2020,56(9):267-271. 被引量：7
4高月,杨小飞,马盈仓,汪义瑞.基于共享逆近邻与指数核的密度峰聚类算法[J].纺织高校基础科学学报,2020,33(2):78-84.
5吴辰文,蒋雨璠,马宁.结合KNN和图标签传播的密度峰值聚类算法[J].西北大学学报（自然科学版）,2020,50(6):979-986. 被引量：5
6王芙银,张德生,张晓.结合鲸鱼优化算法的自适应密度峰值聚类算法[J].计算机工程与应用,2021,57(3):94-102. 被引量：20
7张要,马盈仓,杨小飞,朱恒东,杨婷.基于L_(2,1)-范数距离的约束相似矩阵的聚类算法[J].计算机工程与设计,2021,42(3):726-733. 被引量：2
8柏锷湘,罗可,罗潇.结合自然和共享最近邻的密度峰值聚类算法[J].计算机科学与探索,2021,15(5):931-940. 被引量：7
9耿元玲,黄德镛,杜志锦,杨洋,郭琦.FA-KNN模型在围岩稳定性评价中的应用[J].有色金属（矿山部分）,2021,73(3):22-27. 被引量：1
10罗凯,徐俊武,杨敏.一种改进KNN的无人机图像快速拼接方法[J].武汉工程大学学报,2021,43(3):344-348. 被引量：3

1刘奕志,程汝峰,梁永全.一种基于共享近邻的密度峰值聚类算法[J].计算机科学,2018,45(2):125-129. 被引量：4
2刘悦婷,金兆强,刘凯,孙志权.一种新的基于局部密度改进SVM分类算法[J].青海大学学报（自然科学版）,2018,36(2):26-32.
3陈璟.分层抽样设计中的样本量最优分配问题探究[J].信息记录材料,2018,19(5):107-109. 被引量：2
4郑丹丹,秦会斌.复杂环境中多音节语音自适应端点检测的实现[J].计算机仿真,2018,35(7):154-157. 被引量：3
5李宗民,周晨晨,宫延河,刘玉杰,李华.结合域变换和轮廓检测的显著性目标检测[J].计算机辅助设计与图形学学报,2018,30(8):1457-1465. 被引量：7
6辛群荣,姚吉利,徐广鹏.共享近邻聚类算法点云面线提取[J].测绘科学,2018,43(1):112-116. 被引量：2
7唐一斐.NMI指数与GDP增长关系的实证研究[J].农村经济与科技,2018,29(8):91-92.
8王贝贝,杨明,燕慧超,孙笑仙.一种基于自适应相似矩阵的谱聚类算法[J].河北工业科技,2018,35(2):77-83. 被引量：2
9李倩,王恩伟,雷景生,宋硕.一种面向电力用户细分的鲁棒k-means算法[J].桂林电子科技大学学报,2017,37(5):406-410. 被引量：2
10孙羊子,王晅.基于流行距离的聚类算法及其在极光分类中的应用[J].计算机科学与应用,2016,6(5):303-316.

计算机应用

2018年第6期

浏览历史

内容加载中请稍等...

基于共享近邻相似度的密度峰聚类算法被引量：8

参考文献5

二级参考文献49

共引文献165

同被引文献39

引证文献8

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于共享近邻相似度的密度峰聚类算法 被引量：8

参考文献5

二级参考文献49

共引文献165

同被引文献39

引证文献8

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于共享近邻相似度的密度峰聚类算法被引量：8