期刊文献+

利用可信反事实的不平衡数据过采样方法

Oversampling Method for Imbalanced Data Using Credible Counterfactual
下载PDF
导出
摘要 针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采样的插值法,更能充分挖掘数据中的边界决策信息,从而为分类器提供更多的有用信息,提高分类性能。在9个来自KEEL与UCI的不平衡数据集、5种不同分类器(SVM、DT、Logistic、RF、AdaBoost)上与4种传统过采样方法(SMOTE、B1-SMOTE、B2-SMOTE、ADASYN)进行了大量对比实验,结果表明,所提方法具有更高的AUC值、F1值和G-mean值,可以更为有效地解决类不平衡问题。 A new method for imbalanced data sets on counterfactual is proposed(counterfactual,CF),and further removes the“incredibility”composite samples,which aims to solve the problem of the traditional sampling method that cannot make full use of the data set information.Its core idea is to synthesize new samples based on the original instance features of the dataset.Compared with the traditional oversampling interpolation method,it can fully mine the boundary decision infor-mation in the data,so as to provide more useful information for the classifier and improve the classification performance.A lot of comparative experiments have been carried out on 9 KEEL and UCI unbalanced datasets,5 different classifiers(SVM,DT,Logistic,RF,AdaBoost)and 4 traditional oversampling methods(SMOTE,B1-SMOTE,B2-SMOTE,ADASYN).The results show that the algorithm has higher AUC value、F1 value and G-mean value,which can effectively solve the class imbalance problem.
作者 高峰 宋媚 祝义 GAO Feng;SONG Mei;ZHU Yi(School of Computer Science and Technology,Jiangsu Normal University,Xuzhou,Jiangsu 221000,China)
出处 《计算机工程与应用》 CSCD 北大核心 2024年第5期165-171,共7页 Computer Engineering and Applications
基金 国家自然科学基金(No.62077029,71503108,61902161) 江苏师范大学研究生科研创新项目(2022XKT1554)。
关键词 不平衡数据集 分类器 过采样 反事实(CF) imbalanced data classifiers oversampling counterfactual(CF)
  • 相关文献

参考文献12

二级参考文献52

共引文献74

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部