基于网格的半监督密度峰值聚类算法

A Grid-based Semi-supervised Density Peak Clustering Algorithm

下载PDF

导出

摘要为了有效利用已知信息快速地进行数据聚类,提出了一种基于网格的半监督密度峰值聚类(GS-DPC)算法。利用统计信息网格对数据集进行划分,将落在网格内数据点的个数作为局部密度值,计算出每一个网格代表点;根据局部密度值和相对距离值确定聚类中心;利用成对约束集指导聚类过程后得到聚类结果。实验结果表明,GS-DPC算法进行数据聚类算法的平均消耗时间比密度峰值聚类算法(DPC)降低32百分点;GS-DPC算法在6个数据集上的平均精确度(ACC)约为0.84,平均调整互信息(AMI)约为0.68,平均调整兰德系数(ARI)约为0.67,因此GS-DPC算法可以快速且有效地进行数据聚类并获得较好的聚类结果。 In order to efficiently cluster data using known information,a Grid-based Semi-supervised Density Peak Clustering(GS-DPC)algorithm is proposed.The algorithm divides the dataset using statistical information grids,with the number of data points within each grid serving as the local density value to calculate a representative point for each grid.Clustering centers are determined based on local density values and relative distance values,and clustering results are obtained after guiding the clustering process using a pairwise constraint set.Experimental results show that the average time consumption of the GS-DPC algorithm for data clustering is 32 percentage points lower than that of the density peak clustering algorithm(DPC).The GS-DPC algorithm achieves an average accuracy(ACC)of about 0.84,an average Adjusted Mutual Information(AMI)of about 0.68,and an average Adjusted Rand Index(ARI)of about 0.67 on six datasets,demonstrating that it can efficiently and effectively cluster data while obtaining good clustering results.

作者杨金瑞刘继 YANG Jinrui;LIU Ji(School of Statistics&Data Science,Xinjiang University of Finance&Economics,Urumqi 830012,China;Xinjiang Social&Economic Statistics&Big Data Application Research Center,Xinjiang University of Finance&Economics,Urumqi 830012,China)

机构地区新疆财经大学统计与数据科学学院新疆财经大学新疆社会经济统计与大数据中心

出处《软件工程》 2024年第5期1-6,共6页 Software Engineering

基金国家自然科学基金项目(大数据背景下网络舆情智能治理:共同体构建、协同演进与引导机制,72164034)。

关键词密度峰值聚类网格半监督 STING 成对约束 density peak clustering grid semi-supervised STING pairwise constraint

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1徐久成,侯钦臣,瞿康林,孙元豪,孟祥茹.面向时间序列的鲁棒性半监督模糊C均值聚类[J].计算机工程与应用,2023,59(8):73-80. 被引量：3
2罗丹,毛先成,邓浩.一种基于密度峰值的半监督聚类算法[J].地理与地理信息科学,2017,33(2):69-74. 被引量：4
3刘如辉,黄炜平,王凯,刘创,梁军.半监督约束集成的快速密度峰值聚类算法[J].浙江大学学报（工学版）,2018,52(11):2191-2200. 被引量：23
4徐晓,丁世飞,孙统风,廖红梅.基于网格筛选的大规模密度峰值聚类算法[J].计算机研究与发展,2018,55(11):2419-2429. 被引量：24
5杨洁,王国胤,王飞.基于密度峰值的网格聚类算法[J].计算机应用,2017,37(11):3080-3084. 被引量：12

二级参考文献20

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
3肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
4李光强,邓敏,刘启亮,程涛.一种适应局部密度变化的空间聚类方法[J].测绘学报,2009,38(3):255-263. 被引量：32
5李昆仑,曹铮,曹丽苹,张超,刘明.半监督聚类的若干新进展[J].模式识别与人工智能,2009,22(5):735-742. 被引量：50
6邓敏,刘启亮,李光强,程涛.基于场论的空间聚类算法[J].遥感学报,2010,14(4):694-709. 被引量：14
7马箐,谢娟英.基于粒计算的K-medoids聚类算法[J].计算机应用,2012,32(7):1973-1977. 被引量：39
8张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
9贾洪杰,丁世飞,史忠植.求解大规模谱聚类的近似加权核k-means算法[J].软件学报,2015,26(11):2836-2846. 被引量：31
10谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：104

共引文献61

1张辉,韩发,鹿方凯.自适应局部密度变化空间聚类算法研究[J].软件导刊,2019,18(1):95-98.
2孙绵,侯再恩,韩肖赟.基于多密度峰值的CFSFDP算法改进[J].计算机应用与软件,2019,36(8):235-240.
3何洋,吴飞,贺成成,朱海,毛万葵.基于K-IDPC算法的Wi-Fi室内定位方法[J].传感器与微系统,2019,38(11):46-49. 被引量：2
4郑诚,曹杨.参数自适应的网格密度聚类算法[J].计算机应用研究,2019,36(11):3278-3281. 被引量：3
5史海洋,虞慧群,范贵生.基于聚类算法的客户细分及其优化[J].计算机工程与设计,2019,40(11):3282-3287. 被引量：5
6赵燕伟,朱芬,桂方志,任设东,谢智伟,徐晨.融合可拓关联函数的密度峰值聚类算法[J].小型微型计算机系统,2019,40(12):2512-2518. 被引量：8
7王玮琪,万仁霞,周方祥.局部网格动态聚类算法[J].现代电子技术,2020,43(1):102-106. 被引量：2
8何云斌,董恒,万静,李松.基于密度峰值和近邻优化的聚类算法[J].计算机科学与探索,2020,14(4):554-565. 被引量：7
9徐红艳,普蓉,黄法欣,王嵘冰.基于网格和密度比的DBSCAN聚类算法研究[J].计算机与数字工程,2020,48(6):1269-1274. 被引量：4
10任昌鸿,安军.改进PSO结合DSA技术的无线传感器网络均衡密度聚类方法[J].计算机应用与软件,2020,37(8):122-129. 被引量：4

1李艳.基于标签传播的自适应图聚类算法[J].长江信息通信,2024,37(1):85-87.
2严超.画线段图巧解题[J].数学小灵通（启智版）（低年级）,2024(3):44-46.
3张博君.基于近邻传播聚类的电商商品信息个性化推送研究[J].中国信息界,2024(2):246-248.
4刘华清,王晗,武美辰.基于改进YOLOv5的无人机遥感图像检测算法探究[J].中国新技术新产品,2024(7):25-27.
5谢光强,钟必为,李杨.基于平均一致协议的分布式自适应多智能体聚集控制[J].计算机科学,2024,51(5):242-249.
6宋鑫晶.基于对比学习的深度聚类基线方法[J].信息与电脑,2024,36(4):74-77.
7仵匀政,杜韬,周劲,陈迪,王心耕.基于三阶张量的大规模数据谱聚类集成算法[J].大数据,2024,10(3):133-148.
8陆佳程,王斌,张军,倪艺洋.RIS辅助MIMO NOMA系统中利用统计CSI的下行传输方法[J].电子与信息学报,2024,46(4):1257-1265.
9胡科,刘新跃.基于改进YOLOv3的川贝母检测识别算法研究[J].科学技术创新,2024(9):79-82.
10科学家用头发研究南非金矿铀污染[J].矿产与地质,2024,38(2):370-370.

软件工程

2024年第5期

浏览历史

内容加载中请稍等...

基于网格的半监督密度峰值聚类算法

参考文献5

二级参考文献20

共引文献61

相关作者

相关机构

相关主题

浏览历史