-
题名基于三阶张量的大规模数据谱聚类集成算法
- 1
-
-
作者
仵匀政
杜韬
周劲
陈迪
王心耕
-
机构
济南大学信息科学与工程学院
山东省网络环境智能计算技术重点实验室
-
出处
《大数据》
2024年第3期133-148,共16页
-
基金
国家自然科学基金项目(No.62273164,No.61873324)
山东省自然科学基金项目(No.ZR2019MF040)。
-
文摘
为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图分割的方法得到初步聚类结果;最后,提出三阶张量集成方法,将多个聚类结果进行融合,得到最终的聚类结果。在大规模的真实数据集和合成数据集上验证,相较经典的谱聚类算法、聚类集成算法以及近年来对其改进的算法,该算法表现出更优异的性能。
-
关键词
数据聚类
大规模数据
谱聚类
三阶张量
聚类集成
-
Keywords
data clustering
large-scale data
spectral clustering
three-order tensor
clustering ensemble
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名自适应多密度峰值子簇融合聚类算法
- 2
-
-
作者
陈迪
杜韬
周劲
仵匀政
王心耕
-
机构
济南大学信息科学与工程学院
山东省网络环境智能计算技术重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第23期73-85,共13页
-
基金
国家自然科学基金(62273164,61873324,61903156)
山东省自然科学基金(ZR2019MF040)
济南市“高校20条”资助项目(2020GXRC057)。
-
文摘
经典的密度峰值聚类算法在计算局部密度时过分依赖截断距离,在分配非中心点时易出现连锁效应,且人工选取聚类中心点的方式难以识别出密度不均匀簇的聚类中心。针对该问题,提出一种自适应多密度峰值子簇融合聚类算法。考虑样本的邻域信息,将自然邻居的思想引入密度峰值聚类中,实现了样本点局部密度的自适应计算;为发现稀疏密度簇的中心,提出一种簇中心自动选取策略用于确定初始子簇中心,并使用一种两阶段分配策略降低连锁效应发生的概率;提出一种基于K近邻相似度的度量准则,将相似度高的子簇进行融合,得到最终的聚类结果。在二维合成数据集以及UCI数据集上,相较经典的密度峰值聚类算法以及近年来对其改进的算法,该算法表现出更优异的性能。
-
关键词
自然邻居
密度峰值聚类
多子簇融合
分配策略
-
Keywords
natural neighbors
density peak clustering
multi-sub cluster fusion
assignment strategy
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-