-
题名基于改进的半监督聚类的不平衡分类算法
被引量:4
- 1
-
-
作者
陆宇
赵凌云
白斌雯
姜震
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机应用》
CSCD
北大核心
2022年第12期3750-3755,共6页
-
基金
国家自然科学基金资助项目(61906077)
江苏大学大学生实践创新训练计划项目(202010299312X)。
-
文摘
不平衡分类的相关算法是机器学习领域的研究热点之一,其中的过采样通过重复抽取或者人工合成来增加少数类样本,以实现数据集的再平衡。然而当前的过采样方法大部分是基于原有的样本分布进行的,难以揭示更多的数据集分布特征。为了解决以上问题,首先,提出一种改进的半监督聚类算法来挖掘数据的分布特征;其次,基于半监督聚类的结果,在属于少数类的簇中选择置信度高的无标签数据(伪标签样本)加入原始训练集,这样做除了实现数据集的再平衡外,还可以利用半监督聚类获得的分布特征来辅助不平衡分类;最后,融合半监督聚类和分类的结果来预测最终的类别标签,从而进一步提高算法的不平衡分类性能。选择G-mean和曲线下面积(AUC)作为评价指标,将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析。实验结果表明,与TU、CDSMOTE相比,所提算法在AUC指标上分别平均提高了6.7%和3.9%,在G-mean指标上分别平均提高了7.6%和2.1%,且在两个评价指标上相较于所有对比算法都取得了最高的平均结果。可见所提算法能够有效地提高不平衡分类性能。
-
关键词
不平衡分类
半监督聚类
伪标签样本
过采样
融合
-
Keywords
imbalanced classification
semi-supervised clustering
pseudo-labeled sample
oversampling
fusion
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-