一种基于SMOTE的不平衡数据集重采样方法被引量：19

A NEW RESAMPLING METHOD BASED ON SMOTE FOR IMBALANCED DATA SET

下载PDF

导出

摘要不平衡数据集是指在数据集中,某一类样本的数量远大于其他类样本的数量,其会影响分类结果,使基本分类器偏向多数类。合成少数样本过采样技术(SMOTE)是处理数据不平衡问题的一种经典过采样方法,以两个少数样本对应的线段为端点生成一个合成样本。提出一种基于SMOTE的少数群体过采样方法,改进生成新样本的方式,在合成样本的过程中参考两个以上的少数类样本,增加合成样本的多样性。实验结果表明,在不同的基本分类器下该方法可以获得更好的接收者操作特征曲线面积(ROC-AUC)和稳定性。 The imbalanced data set refers to more instances in one class than that in other classes,which can influence classification results,and make basic classifiers have bias towards the majority class.Synthetic minority over-sampling technique(SMOTE)is one of over-sampling methods dealing with data imbalance problem,this method generates one synthetic sample according to a line segment of two minority samples as endpoint.This paper proposes a new over-sampling method of the minority class based on SMOTE.This method made improvement on how to generate new samples,it took more than two real samples into account to generate one synthetic sample,which increased diversity of synthetic samples.The experimental results show that this method achieves better area under curve and stability.

作者张天翼丁立新 Zhang Tianyi;Ding Lixin(School of Computer Science,Wuhan University,Wuhan 430072,Hubei,China)

机构地区武汉大学计算机学院

出处《计算机应用与软件》北大核心 2021年第9期273-279,共7页 Computer Applications and Software

基金广东省珠海市产学研合作项目(2010A090200067,2016B090918097,2012D0501990016,2012D0501990026)。

关键词不平衡数据集过采样样本合成分类 Imbalanced dataset Over-sampling Sample synthesis Classification

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献4

1李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
2张菲菲,王黎明,柴玉梅.一种改进过采样的不平衡数据集成分类算法[J].小型微型计算机系统,2018,39(10):2162-2168. 被引量：10
3刘余霞,刘三民,刘涛,王忠群.一种新的过采样算法DB_SMOTE[J].计算机工程与应用,2014,50(6):92-95. 被引量：12
4杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31

二级参考文献50

1凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
2Bartlett P L, Traskin M. AdaBoost is consistent. Journal of Machine Learning Research, 2007, 8:2347-2368.
3Schapire R E. The convergence rate of AdaBoost [open prob lem]//Proceedings of the 23rd Conference on Learning Theo ry. Haifa, Israel, 2010.
4Japkowicz N. Learning from imbalanced data sets: A com parison of various strategies/ /Proceedings of the AAAI 2000 Workshop, 2000:10-15.
5Chawla N V, Japkowicz N, Kotcz A. Workshop on learning from imbalanced data sets//Proceedings of the ICML' 2003. Washington, DC, USA, 2003.
6Chawla N V, Japkowicz N, Kolez A. Editorial: Special issue on learning from imbalanced data sets. ACM SIGKDD Ex- plorations Newsletter, 2004, 6 (1) : 1-6.
7He Hai-Bo, Garcia E A. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
8Liu X Y, Zhou Z H. The influence of class imbalance on cost-sensitive learning: An empirical study//Proeeedings of the 6th International Conference on Data Mining(ICDM'06). Hong Kong, China, 2006 : 970-974.
9Wang B X, Japkowicz N. Boosting support vector machines for imbalanced data sets. Lecture Notes in Artificial Intelli- gence, 2008, 4994: 38-47.
10Ertekin S, Huang J, Bottou L, Giles L. Learning on the border: active learning in imbalanced data classification// Proceedings of the ACM Conference on Information and Knowledge Management. Lisbon, Portugal, 2007: 127-136.

共引文献109

1李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
2张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
3王慧燕,徐珊.基于贝叶斯分类器的脉象自动识别方法[J].中国生物医学工程学报,2009,28(5):735-742. 被引量：3
4谷琼,蔡之华,朱莉,王贤明.新型混合重取样算法在岩爆预测中的应用[J].地球科学（中国地质大学学报）,2010,35(2):311-316.
5谷琼,王贤明,李文新.基于非均衡数据集的新型混合重取样算法[J].武汉理工大学学报,2010,32(20):55-60. 被引量：1
6陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
7杨明生,张春光,杨晓东.醒脑通腑液治疗急性期脑出血30例观察[J].实用中医药杂志,2000,16(2):6-6.
8王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
9胡小生,钟勇.基于加权聚类质心的SVM不平衡分类方法[J].智能系统学报,2013,8(3):261-265. 被引量：4
10楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31

同被引文献178

1李梦涛,吕朝辉.基于数据挖掘的信用卡欺诈检测[J].中国传媒大学学报（自然科学版）,2020,27(6):69-73. 被引量：2
2崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：30
3陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
4周东华,胡艳艳.动态系统的故障诊断技术[J].自动化学报,2009,35(6):748-758. 被引量：305
5刘晟,朱玉全,孙金津.基于核空间相对密度的SVDD多类分类算法[J].计算机应用研究,2010,27(5):1694-1696. 被引量：4
6王贵,蒲晓林,文志明,唐继平,梁红军.基于断裂力学的诱导裂缝性井漏控制机理分析[J].西南石油大学学报（自然科学版）,2011,33(1):131-134. 被引量：27
7陈一飞.农业复杂大系统的智能控制与农业物联网关系探讨[J].农业网络信息,2012(2):8-12. 被引量：23
8田丽丽,姜博,付义.全国水污染现状分析[J].黑龙江科技信息,2012(25):61-61. 被引量：9
9沈仁芳,陈美军,孔祥斌,李永涛,同延安,汪景宽,李涛,鲁明星.耕地质量的概念和评价与管理对策[J].土壤学报,2012,49(6):1210-1217. 被引量：205
10郭琴琴,李淑琴,包华.亚马逊棋机器博弈系统中评估函数的研究[J].计算机工程与应用,2012,48(34):50-54. 被引量：13

引证文献19

1李若溪,高铭.基于CNN模型的亚马逊棋搜索算法设计[J].数字技术与应用,2022,40(2):164-166.
2蔺研锋,闵超,代博仁,张馨慧.基于动态特征和深度神经网络的钻井漏失事故预测[J].西安石油大学学报（自然科学版）,2022,37(3):64-69. 被引量：7
3安猛,孟新宇,陈长征,安文杰.基于数据挖掘的汽车生产线螺栓打紧异常识别[J].机械工程与自动化,2022(3):7-10.
4黄子扬,周凌柯.基于K-means Bayes和AdaBoost-SVM的故障分类[J].计算机系统应用,2022,31(7):239-246. 被引量：1
5陈铁,冷昊伟,李咸善,陈一夫.基于油中气体分析与类重叠特征的变压器分层故障诊断模型[J].中国电力,2022,55(7):22-32. 被引量：7
6孙丹,施炜利,饶兰香,孟莎莎,郭晓明,李逸伦.基于改进混合采样和XGBoost算法的信用卡欺诈检测方法[J].计算机与现代化,2022(9):111-118. 被引量：2
7饶娟娟,刘少群,林勇,莫惠仪,俞秀英,黄奕璇,蔡瑶芳.基于SMOTE的髋部骨折病人术后便秘预测模型的构建[J].护理研究,2023,37(2):207-211. 被引量：3
8李亚硕,赵博,王长伟,徐名汉,伟利国,庞在溪.基于DBSCAN和BPAdaboost的农机作业地块划分方法[J].农业机械学报,2023,54(1):37-44. 被引量：3
9宣晶雪,张权,李晓红,王书宜.基于SMOTE不平衡扩充采样算法的改进[J].科技风,2023(12):1-3. 被引量：2
10杨雪.基于DCGAN的数据增强方法[J].江苏通信,2023,39(2):97-100.

二级引证文献30

1刘丹丹,宋鸣,李霞,徐夏君.老年髋部骨折术后便秘的影响因素及其列线图预测模型[J].中华关节外科杂志（电子版）,2023,17(5):607-612.
2陈铁,张治藩,李咸善,陈一夫,李鸿鑫.基于混合模态分解和LSTM-CNN的变压器油中溶解气体浓度预测[J].中国电力,2023,56(1):132-141. 被引量：7
3郑业爽,李世春,鲁玲.基于多策略ISOA优化SVM的变压器故障诊断研究[J].智慧电力,2023,51(2):38-44. 被引量：15
4李刚,孟坤,贺帅,刘云鹏,杨宁.考虑特征耦合的Bi-LSTM变压器故障诊断方法[J].中国电力,2023,56(3):100-108. 被引量：7
5罗超月岭,郑韵馨,徐帧雨,谢雨龙,代明成,李黎.基于Borderline-SMOTE-IHT混合采样的改进GWO-SVM变压器故障诊断方法[J].智慧电力,2023,51(7):108-114. 被引量：6
6孙伟峰,卜赛赛,张德志,李威桦,刘凯,戴永寿.基于DCC-LSTM的钻井液微量漏失智能监测方法[J].天然气工业,2023,43(9):141-148. 被引量：3
7王爽,罗倩,唐波,姜岚,李锦.考虑样本类内不平衡的CHPOA-DBN变压器故障诊断方法[J].中国电力,2023,56(10):133-144. 被引量：4
8吴立胜,皮珣珣.基于交叉区域SMOTE算法的非平衡数据分类[J].电脑与电信,2023(7):75-79.
9郑含博,敬佳兴,罗晓庆,刘泰蔚,李一航.基于多源融合的油纸绝缘套管缺陷辨识及绝缘状态评估[J].电力系统保护与控制,2023,51(20):119-128. 被引量：4
10张慧杰,刘莉,马莎莎,刘立云,孙敏敏,王鲁繁,董海丽.脑出血患者便秘风险预测模型的构建与验证[J].中国实用护理杂志,2023,39(29):2285-2291. 被引量：1

1任若楠,杨有龙,孙丽芹.基于模糊代表度的不平衡数据重采样方法[J].统计与决策,2021,37(14):11-15. 被引量：3
2张薇.我国绿色经济评价指标体系的构建与实证[J].统计与决策,2021,37(16):126-129. 被引量：22
3陈阳,李一,姬正一,张胜光,雷博.基于振动时域特征的船用滚动轴承故障诊断方法[J].机床与液压,2021,49(14):193-200. 被引量：9
4常新.儒家关于美好生活的思想资源及其价值发掘[J].伦理学研究,2021(4):60-66. 被引量：1
5高欣,纪维佳,赵兵,贾欣,黄子健,任昺.不平衡数据集下基于CVAE-CNN模型的智能电表故障多分类方法[J].电网技术,2021,45(8):3052-3060. 被引量：20
6刘健,刘春林.一带一路倡议下跨境电商对区域经济均衡发展的研究[J].物流工程与管理,2021,43(8):94-98. 被引量：5

计算机应用与软件

2021年第9期

浏览历史

内容加载中请稍等...

一种基于SMOTE的不平衡数据集重采样方法被引量：19

参考文献4

二级参考文献50

共引文献109

同被引文献178

引证文献19

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种基于SMOTE的不平衡数据集重采样方法 被引量：19

参考文献4

二级参考文献50

共引文献109

同被引文献178

引证文献19

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种基于SMOTE的不平衡数据集重采样方法被引量：19