-
题名基于子空间的I-nice聚类算法
- 1
-
-
作者
何一帆
何玉林
崔来中
黄哲学
-
机构
深圳大学计算机与软件学院
人工智能与数字经济广东省实验室(深圳)
-
出处
《计算机科学》
CSCD
北大核心
2024年第6期153-160,共8页
-
基金
国家自然科学基金面上项目(61972261)
广东省自然科学基金面上项目(2023A1515011667)
+1 种基金
深圳市基础研究重点项目(JCYJ20220818100205012)
深圳市基础研究面上项目(JCYJ20210324093609026)。
-
文摘
高维数据的子空间聚类是无监督学习领域的热点研究问题,其难点在于寻找恰当的子空间以及其中的数据簇。大多数现有的子空间聚类算法均存在计算复杂度高和参数选择难的缺陷,这是因为在高维数据中子空间的组合数量很大,算法的执行时间非常长,且不同数据集和应用场景需要不同的参数设定。为此,提出了基于子空间的I-nice(简记为sub-I-nice)聚类算法用于识别高维数据中子空间内数据簇的个数。首先,该算法将原始数据维度随机划分成多个维度组,根据维度组生成子空间样本;接着,使用最新的I-niceMO算法对每个子空间数据进行聚类;最后,采用新设计的球模型对所有子空间的基聚类结果进行集成。在含有噪声的高维仿真数据集上对所提出的sub-I-nice算法进行了详细的性能验证,实验结果表明sub-I-nice算法相比其他3种代表性聚类算法有更好的准确性和鲁棒性,从而证实了其合理性和有效性。
-
关键词
子空间聚类
i-nice聚类
高维数据
无监督学习
球模型
-
Keywords
Subspace clustering
i-nice clustering
High-dimensional data
Unsupervised learning
Ball model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于夹角几何的I-niceMO增强算法
- 2
-
-
作者
何一帆
何玉林
蔡湧达
黄哲学
-
机构
深圳大学计算机与软件学院
深圳大学大数据系统计算技术国家工程实验室
-
出处
《系统仿真学报》
CAS
CSCD
北大核心
2023年第4期797-808,共12页
-
基金
国家自然科学基金面上项目(61972261)
深圳市基础研究项目(JCY20210324093609026,JCY120200813091134001)。
-
文摘
针对I-niceMO算法在候选聚类中心合并时中心数目难以确定和中心点识别不准确的问题,提出了基于夹角几何的I-niceMO增强(I-niceMOEn)算法。利用观测点与数据点之间的距离和角度分布情况找出数据中尽可能多的候选聚类中心,以避免多类别数据聚类中出现的类别丢失的情况;利用谱聚类算法对候选聚类中心进行聚类,根据拉普拉斯矩阵特征值的大小自动地对候选聚类中心进行合并;根据合并后的聚类中心的数量确定最终的数据聚类类别数。I-niceMOEn算法实现了对数据类别数的自动确定,并且在聚类过程中不需要人为设置参数。实验结果表明:I-niceMOEn算法在收敛的同时能够获得优于传统自动聚类算法和I-niceMO算法的类中心确定表现。
-
关键词
自动聚类
i-nice聚类
谱聚类
无监督学习
观测点机制
-
Keywords
automatic clustering
i-nice clustering
spectral clustering
unsupervised learning
observation point mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于候选中心融合的多观测点I-nice聚类算法
- 3
-
-
作者
陈鸿杰
何玉林
黄哲学
尹剑飞
-
机构
深圳大学计算机与软件学院大数据技术与应用研究所
深圳大学大数据系统计算技术国家工程实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2022年第4期348-362,共15页
-
基金
国家自然科学基金面上项目(No.61972261)
深圳市基础研究项目(No.JCYJ20210324093609026,JCYJ20200813091134001)。
-
文摘
伴随着问题场景数据在规模上的快速增长和构成上的复杂化,精确估计簇的个数和簇的中心点是当下聚类算法处理和分析复杂大规模数据的重要挑战.簇数及簇心的精确估计对于部分有参聚类算法、数据集整体复杂性度量和数据简化表示等都十分关键.文中在深入分析I-nice的基础上,提出基于候选中心融合的多观测点I-nice聚类算法.在原多观测点投影分治框架上采用混合高斯模型(Gaussian Mixture Model,GMM),结合粗细粒度最佳GMM搜索策略,实现数据子集的精确划分.此外,基于候选中心点分别到各观测点的距离值及最佳GMM,构造候选中心点的GMM构件向量,并设计一组闵可夫斯基距离对进行候选中心点间的相异度度量,实现基于GMM构件向量相异度的多观测点I-nice候选中心融合.不同于现有聚类算法,文中算法联合优化分治环节数据子集划分和候选中心集成这两个关键过程,实现成百上千个簇的精确高效估计.在真实数据集和仿真数据集上的一系列实验表明,文中算法能精确估计簇数和簇中心,具备较高的聚类精度.实验同时验证算法的有效性及在各类数据场景下的稳定性.
-
关键词
无监督学习
观测点
i-nice
无参聚类
高斯混合模型
-
Keywords
Unsupervised Learning
Observation Point
i-nice
Parameter-Free Clustering
Gaussian Mixture Model
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-