深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比...深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。展开更多
长尾分类在现实世界中是一项不可避免且充满挑战的任务。传统方法通常只专注于类间的不平衡分布,然而近期的研究开始重视类内的长尾分布,即同一类别内,具有头部属性的样本远多于尾部属性的样本。由于属性的隐含性和其组合的复杂性,类内...长尾分类在现实世界中是一项不可避免且充满挑战的任务。传统方法通常只专注于类间的不平衡分布,然而近期的研究开始重视类内的长尾分布,即同一类别内,具有头部属性的样本远多于尾部属性的样本。由于属性的隐含性和其组合的复杂性,类内不平衡问题更加难以处理。为此,文中提出一种基于引领森林并使用多中心损失的广义长尾分类框架(Cognisance),旨在通过不变性特征学习的范式建立长尾分类问题的多粒度联合求解模型。首先,该框架通过无监督学习构建粗粒度引领森林(Coarse-Grained Leading Forest,CLF),以更好地表征类内关于不同属性的样本分布,进而在不变风险最小化的过程中构建不同的环境。其次,设计了一种新的度量学习损失,即多中心损失(Multi-Center Loss,MCL),可在特征学习过程中逐步消除混淆属性。同时,Cognisance不依赖于特定模型结构,可作为独立组件与其他长尾分类方法集成。在ImageNet-GLT和MSCOCO-GLT数据集上的实验结果显示,所提框架取得了最佳性能,现有方法通过与本框架集成,在Top1-Accuracy指标上均获得2%~8%的提升。展开更多
文摘深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。
文摘长尾分类在现实世界中是一项不可避免且充满挑战的任务。传统方法通常只专注于类间的不平衡分布,然而近期的研究开始重视类内的长尾分布,即同一类别内,具有头部属性的样本远多于尾部属性的样本。由于属性的隐含性和其组合的复杂性,类内不平衡问题更加难以处理。为此,文中提出一种基于引领森林并使用多中心损失的广义长尾分类框架(Cognisance),旨在通过不变性特征学习的范式建立长尾分类问题的多粒度联合求解模型。首先,该框架通过无监督学习构建粗粒度引领森林(Coarse-Grained Leading Forest,CLF),以更好地表征类内关于不同属性的样本分布,进而在不变风险最小化的过程中构建不同的环境。其次,设计了一种新的度量学习损失,即多中心损失(Multi-Center Loss,MCL),可在特征学习过程中逐步消除混淆属性。同时,Cognisance不依赖于特定模型结构,可作为独立组件与其他长尾分类方法集成。在ImageNet-GLT和MSCOCO-GLT数据集上的实验结果显示,所提框架取得了最佳性能,现有方法通过与本框架集成,在Top1-Accuracy指标上均获得2%~8%的提升。