-
题名结合样本局部密度的非平衡数据集成分类算法
被引量:10
- 1
-
-
作者
杨浩
陈红梅
-
机构
西南交通大学信息科学与技术学院
云计算与智能技术高校重点实验室(西南交通大学)
-
出处
《计算机科学与探索》
CSCD
北大核心
2020年第2期274-284,共11页
-
基金
国家自然科学基金No.61572406~~
-
文摘
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。
-
关键词
非平衡数据
近邻计算策略
集成学习
过采样
-
Keywords
imbalanced data
strategy for calculating nearest neighbors
ensemble learning
oversampling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-