-
题名利用采样安全系数的多类不平衡过采样算法
被引量:3
- 1
-
-
作者
董明刚
刘明
敬超
-
机构
桂林理工大学信息科学与工程学院
广西嵌入式技术与智能系统重点实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2020年第10期1776-1786,共11页
-
基金
国家自然科学基金Nos.61563012,61802085
广西嵌入式技术与智能系统重点实验室基金项目No.2018A-04
+1 种基金
广西研究生教育创新计划项目No.YCSW2019162
广西自然科学基金Nos.2014GXNSFAA118371,2015GXNSFBA139260。
-
文摘
传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那些会造成过度泛化的邻域分配一个较小的权重。然后考虑到样本点的全局特性,采用反向近邻采样安全系数防止新合成的样本点侵入到其他类别区域,减轻类别之间的重叠问题。最后以C4.5决策树作为基分类器,将SSCMIO算法与7种典型的过采样算法进行了对比实验。在16个公开的真实数据集上,SSCMIO算法在准确率、召回率、F-measure、MG、MAUC这5个指标上均能取得11个以上的最优值,在5个指标上最大提升分别是0.4818、0.3053、0.3420、0.2664、0.1307。实验结果表明SSCMIO算法相比其他7种算法可以取得更好的分类性能。
-
关键词
采样安全系数
过采样
合成少数类技术
多类不平衡问题
-
Keywords
sampling safety coefficient
oversampling
synthetic minority technique
multi-class imbalanced problems
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-