利用可信反事实的不平衡数据过采样方法

Oversampling Method for Imbalanced Data Using Credible Counterfactual

下载PDF

导出

摘要针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采样的插值法,更能充分挖掘数据中的边界决策信息,从而为分类器提供更多的有用信息,提高分类性能。在9个来自KEEL与UCI的不平衡数据集、5种不同分类器(SVM、DT、Logistic、RF、AdaBoost)上与4种传统过采样方法(SMOTE、B1-SMOTE、B2-SMOTE、ADASYN)进行了大量对比实验,结果表明,所提方法具有更高的AUC值、F1值和G-mean值,可以更为有效地解决类不平衡问题。 A new method for imbalanced data sets on counterfactual is proposed(counterfactual,CF),and further removes the“incredibility”composite samples,which aims to solve the problem of the traditional sampling method that cannot make full use of the data set information.Its core idea is to synthesize new samples based on the original instance features of the dataset.Compared with the traditional oversampling interpolation method,it can fully mine the boundary decision infor-mation in the data,so as to provide more useful information for the classifier and improve the classification performance.A lot of comparative experiments have been carried out on 9 KEEL and UCI unbalanced datasets,5 different classifiers(SVM,DT,Logistic,RF,AdaBoost)and 4 traditional oversampling methods(SMOTE,B1-SMOTE,B2-SMOTE,ADASYN).The results show that the algorithm has higher AUC value、F1 value and G-mean value,which can effectively solve the class imbalance problem.

作者高峰宋媚祝义 GAO Feng;SONG Mei;ZHU Yi(School of Computer Science and Technology,Jiangsu Normal University,Xuzhou,Jiangsu 221000,China)

机构地区江苏师范大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2024年第5期165-171,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.62077029,71503108,61902161) 江苏师范大学研究生科研创新项目(2022XKT1554)。

关键词不平衡数据集分类器过采样反事实(CF) imbalanced data classifiers oversampling counterfactual(CF)

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1高雷阜,张梦瑶,赵世杰.融合簇边界移动与自适应合成的混合采样算法[J].电子学报,2022,50(10):2517-2529. 被引量：4
2胡峰,王蕾,周耀.基于三支决策的不平衡数据过采样方法[J].电子学报,2018,46(1):135-144. 被引量：30
3崔鑫,徐华,朱亮.面向不均衡数据的多分类集成算法[J].计算机工程与应用,2022,58(2):176-183. 被引量：7
4刘宁,朱波,阴艳超,李岫宸.一种混合CGAN与SMOTEENN的不平衡数据处理方法[J].控制与决策,2023,38(9):2614-2621. 被引量：5
5陈俊丰,郑中团.WKMeans与SMOTE结合的不平衡数据过采样方法[J].计算机工程与应用,2021,57(23):106-112. 被引量：7
6王明,武文芳,王大玲,冯时,张一飞.生成链接树:一种高数据真实性的反事实解释生成方法[J].计算机科学,2022,49(9):33-40. 被引量：2
7马舒岑,史建琦,黄滟鸿,秦胜潮,侯哲.基于最小不满足核的随机森林局部解释性分析[J].软件学报,2022,33(7):2447-2463. 被引量：2
8夏子芳,于亚新,王子腾,乔佳琪.融合协同知识图谱与反事实推理的可解释推荐机制[J].计算机应用,2023,43(7):2001-2009. 被引量：3
9吴艺凡,梁吉业,王俊红.基于混合采样的非平衡数据分类算法[J].计算机科学与探索,2019,13(2):342-349. 被引量：20
10马汉达,朱敏.改进SVM不平衡数据分类的IGWOSMOTE方法[J].计算机工程与科学,2022,44(6):1133-1140. 被引量：1

二级参考文献52

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2008,25(2):332-336. 被引量：46
3杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31
4曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：49
5钱洪波,贺广南.非平衡类数据分类概述[J].计算机工程与科学,2010,32(5):85-88. 被引量：17
6秦玉平,罗倩,王秀坤,王春立.一种快速的支持向量机多类分类算法[J].计算机科学,2010,37(7):240-242. 被引量：3
7陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
8姚旭,王晓丹,张玉玺,邢雅琼.基于自适应t分布变异的粒子群特征选择方法[J].系统工程与电子技术,2013,35(6):1335-1341. 被引量：5
9易令,吕忠元,丁进良,刘长鑫.面向原油总氢物性预测的数据扩增预处理方法[J].控制与决策,2018,33(12):2153-2160. 被引量：6
10翟云,王树鹏,马楠,杨炳儒,张德政.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319. 被引量：18

共引文献74

1马贺,宋媚,祝义.改进边界分类的Borderline-SMOTE过采样方法[J].南京大学学报（自然科学版）,2023,59(6):1003-1012. 被引量：1
2张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
3穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：1
4张清华,吕功勋,陈玉洪,谢秦.基于字符型属性值更新的动态三支决策模型[J].电子学报,2019,47(2):344-350. 被引量：7
5段刚龙,张兴冉,马鑫,王建仁.小米智能手机定价现状及问题分析——基于随机森林模型[J].当代经济,2019,36(5):95-98.
6张燕,杜红乐.面向不均衡数据的动态抽样集成学习算法[J].计算机应用与软件,2019,36(6):271-276. 被引量：2
7林怀逸,刘箴,柴玉梅,刘婷婷,柴艳杰.基于词向量预训练的不平衡文本情绪分类[J].中文信息学报,2019,33(5):132-142. 被引量：7
8张燕,杜红乐.基于异构距离的集成分类算法研究[J].智能系统学报,2019,14(4):733-742. 被引量：13
9郭英杰,胡峰,于洪,张红亮.基于时间粒的铝电解过热度预测模型[J].南京大学学报（自然科学版）,2019,55(4):624-632. 被引量：6
10张扬帆,张海鹏,孙俊.基于Lévy分布的不平衡数据过采样方法[J].计算机工程与应用,2019,55(16):150-156. 被引量：1

1张忠林,赵喆梅,马海云.优化合成样本分布的加权过采样方法[J].统计与决策,2024,40(4):50-55. 被引量：1
2朱深,徐华,成金海.面向不均衡数据的重采样算法[J].小型微型计算机系统,2024,45(3):542-548. 被引量：1
3李毅,张德生,张晓.一种改进的局部均值伪近邻算法[J].计算机工程与应用,2024,60(5):88-94.
4Shanshan HUANG,Yuanhao WANG,Zhili GONG,Jun LIAO,Shu WANG,Li LIU.Controllable image generation based on causal representation learning[J].Frontiers of Information Technology & Electronic Engineering,2024,25(1):135-148. 被引量：1

计算机工程与应用

2024年第5期

浏览历史

内容加载中请稍等...

利用可信反事实的不平衡数据过采样方法

参考文献12

二级参考文献52

共引文献74

相关作者

相关机构

相关主题

浏览历史