-
题名基于三阶张量的大规模数据谱聚类集成算法
- 1
-
-
作者
仵匀政
杜韬
周劲
陈迪
王心耕
-
机构
济南大学信息科学与工程学院
山东省网络环境智能计算技术重点实验室
-
出处
《大数据》
2024年第3期133-148,共16页
-
基金
国家自然科学基金项目(No.62273164,No.61873324)
山东省自然科学基金项目(No.ZR2019MF040)。
-
文摘
为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图分割的方法得到初步聚类结果;最后,提出三阶张量集成方法,将多个聚类结果进行融合,得到最终的聚类结果。在大规模的真实数据集和合成数据集上验证,相较经典的谱聚类算法、聚类集成算法以及近年来对其改进的算法,该算法表现出更优异的性能。
-
关键词
数据聚类
大规模数据
谱聚类
三阶张量
聚类集成
-
Keywords
data clustering
large-scale data
spectral clustering
three-order tensor
clustering ensemble
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于共享最近邻的自适应密度峰值聚类算法
- 2
-
-
作者
王心耕
杜韬
周劲
陈迪
仵匀政
-
机构
济南大学信息科学与工程学院
山东省网络环境智能计算技术重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2024年第8期97-105,共9页
-
基金
国家自然科学基金(62273164)
山东省自然科学基金联合基金(ZR2020LZH009)。
-
文摘
密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分配样本点时易出现连锁反应这3个缺陷,提出一种基于共享最近邻的自适应密度峰值聚类算法。首先,利用共享最近邻重新定义局部密度等度量值,充分考虑了数据分布的局部特点,使样本点的空间分布特征得以更好地体现;其次,通过引入密度衰减现象让样本点自动聚集成微簇,实现了簇个数自适应确定和簇中心自适应选取;最后,提出一种两阶段的分配方法,先将微簇合并形成簇的主干部分,再用上一步分配好的簇主干指导剩余点的分配,避免了链式反应的发生。在二维合成数据集以及UCI数据集上的实现表明,相较于经典的密度峰值聚类算法及近年来对其提出的改进算法,在大多数情况下,所提算法表现出更优异的性能。
-
关键词
共享最近邻
密度峰值聚类
分配策略
聚类中心
密度衰减
-
Keywords
Shared nearest neighbor
Density peak clustering
Allocation strategy
Cluster center
Density decay
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名自适应多密度峰值子簇融合聚类算法
- 3
-
-
作者
陈迪
杜韬
周劲
仵匀政
王心耕
-
机构
济南大学信息科学与工程学院
山东省网络环境智能计算技术重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第23期73-85,共13页
-
基金
国家自然科学基金(62273164,61873324,61903156)
山东省自然科学基金(ZR2019MF040)
济南市“高校20条”资助项目(2020GXRC057)。
-
文摘
经典的密度峰值聚类算法在计算局部密度时过分依赖截断距离,在分配非中心点时易出现连锁效应,且人工选取聚类中心点的方式难以识别出密度不均匀簇的聚类中心。针对该问题,提出一种自适应多密度峰值子簇融合聚类算法。考虑样本的邻域信息,将自然邻居的思想引入密度峰值聚类中,实现了样本点局部密度的自适应计算;为发现稀疏密度簇的中心,提出一种簇中心自动选取策略用于确定初始子簇中心,并使用一种两阶段分配策略降低连锁效应发生的概率;提出一种基于K近邻相似度的度量准则,将相似度高的子簇进行融合,得到最终的聚类结果。在二维合成数据集以及UCI数据集上,相较经典的密度峰值聚类算法以及近年来对其改进的算法,该算法表现出更优异的性能。
-
关键词
自然邻居
密度峰值聚类
多子簇融合
分配策略
-
Keywords
natural neighbors
density peak clustering
multi-sub cluster fusion
assignment strategy
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-