改进SMOTE的非平衡数据集分类算法研究被引量：27

Research on classification algorithm of imbalanced datasets based on improved SMOTE

下载PDF

导出

摘要针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本集分布趋于中心化,用更少的正类样本点人为构造样本,从而达到限制样本区域、降低算法复杂度的目的。在6种不平衡数据集上的大量实验表明,改进算法与传统算法相比,算法消耗时间大幅减少,取得更高的G-mean值、F-value值和AUC值。 There are dataset marginal distribution problem and the computational complexity shortcomings using random forest combined SMOTE algorithm in dealing with imbalanced dataset.This paper proposes a TSMOTE algorithm(triangle SMOTE)and MDSMOTE algorithm(Max Distance SMOTE).The core idea of the improved algorithm is to restrict the generation of new samples in a certain area,so that the distribution of the sample set tends to be centralized,which reduces the complexity of the traditional SMOTE algorithm and the time complexity of the algorithm.Extensive experiments on six imbalanced datasets show that the improved algorithm reduces the time consumption and achieves higher Gmean value,F-value value,AUC value compared with the state-of-art method SMOTE.

作者赵清华张艺豪马建芬段倩倩 ZHAO Qinghua;ZHANG Yihao;MA Jianfen;DUAN Qianqian(MicroNano System Research Center,College of Information Engineering&Key Lab of Advanced Transducers and Intelligent Control System(Ministry of Education),Taiyuan University of Technology,Taiyuan 030600,China)

机构地区太原理工大学

出处《计算机工程与应用》 CSCD 北大核心 2018年第18期168-173,共6页 Computer Engineering and Applications

基金国家自然科学基金(No.51505324) 山西省国际科技合作计划项目(No.2013-036)。

关键词随机森林 SMOTE算法不平衡数据集 random forest SMOTE algorithm imbalanced dataset

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1金建国.聚类方法综述[J].计算机科学,2014,41(B11):288-293. 被引量：78
2吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：17
3杨扬,李善平.基于实例重要性的SVM解不平衡数据分类[J].模式识别与人工智能,2009,22(6):913-918. 被引量：14
4陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28

二级参考文献60

1李瑞,邱玉辉.基于离散点的蚁群聚类算法的研究[J].计算机科学,2005,32(6):111-113. 被引量：4
2田铮,李小斌,句彦伟.谱聚类的扰动分析[J].中国科学（E辑）,2007,37(4):527-543. 被引量：33
3Phua C, Alahakoon D, Lee V. Minority Report in Fraud Detection: Classification of Skewed Data. ACM SIGKDD Explorations Newsletter, 2004, 6 ( 1 ) : 50 - 59.
4Zheng Zhaohui, Srihari R. Optimally Combining Positive and Negative Features for Text Categorization [ EB/OL]. [ 2003-08-24 ]. http ://www. site. uottwa. ca/-nat/Workshop2003/zheng.pdf.
5Ertekin S, Huang Jian, Bottou L, et al. Learning on the Border: Active Learning in Imbalanced Data Classification [ EB/OL ]. [ 2007-11-08 ]. http://www. personal. psu. edu/juh177/pubs/ CIKM2007. pdf.
6Kubat M, Matwin S. Addressing the Curse of Imbalanced Training Sets: One Sided Selection// Proc of the 14th International Conference on Machine Learning. Nashville, USA, 1997: 179- 186.
7Barandela R, Valdovinos R M, Sanchez J S, et al. The Imbalanced Training Sample Problem: Under or over Sampling// Proc of the Joint IAPR International Workshops on Structural, Syntactic and Statistical Pattern Recognition. Lisbon, Portugal, 2004 : 806 - 814.
8Chawla N V, Hall L O, Bowyer K W, et al. Smote: Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research, 2002, 16 : 321 - 357.
9Han Hui, Wang Wenyuan, Mao Binghua. Borderline Smote: A New Over-Sampling Method in Imbalanced Data Sets Learning//Proc of the International Conference on Intelligent Computing. Hefei, China, 2005 : 878 -887.
10Jo T, Japkowicz N. Class Imbalances versus Small Disjuncts. ACM SIGKDD Explorations Newsletter, 2004, 6( 1 ) : 40 -49.

共引文献131

1吕超,鲁洪良,于洋,王昊阳,吴绍斌.基于分层强化学习和社会偏好的自主超车决策系统[J].中国公路学报,2022,35(3):115-126. 被引量：8
2谢志强,高丽,杨静.基于球结构的完全二叉树SVM多类分类算法[J].计算机应用研究,2008,25(11):3268-3270. 被引量：7
3文传军,詹永照.基于自调节分类面SVM的平衡不平衡数据分类[J].系统工程,2009,27(3):110-114. 被引量：6
4文传军,詹永照.基于样本投影分布的平衡不平衡数据集分类[J].计算机应用研究,2009,26(8):3131-3133. 被引量：2
5杜娟,姜丽丽,陈红丽.不均衡数据集文本分类中少数类样本生成方法研究[J].计算机应用研究,2009,26(10):3731-3734. 被引量：5
6杜娟,衣治安,周颖.基于聚类和遗传交叉的少数类样本生成方法[J].计算机工程,2009,35(22):182-184. 被引量：2
7张亚普,孟相如,张立,麻海圆.基于SVM和模糊逻辑的告警相关性分析[J].计算机应用研究,2011,28(2):685-688. 被引量：3
8刘志刚,杜娟,衣治安.一种改进的分类算法在不良信息过滤中的应用[J].微计算机应用,2011,32(2):9-14. 被引量：1
9杜娟,刘志刚,衣治安.一种适用于不均衡数据集分类的KNN算法[J].科学技术与工程,2011,11(12):2680-2685. 被引量：5
10王晓娟.一种改进的SMOTE过采样方法[J].福建电脑,2011,27(6):145-146.

同被引文献177

1程磊,吴晓富,张索非.数据集类别不平衡性对迁移学习的影响分析[J].信号处理,2020,36(1):110-117. 被引量：3
2许冠英,韩萌,王少峰,贾涛.数据流集成分类算法综述[J].计算机应用研究,2020,37(1):1-8. 被引量：11
3阳春华,王觉,朱红求,桂卫华.一种混合核函数SVM建模方法及其应用[J].控制工程,2010,17(4):524-526. 被引量：11
4林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
5蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
6郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
8陈健美,宋顺林,朱玉全,宋余庆,陈耿,程鹏,桂长青.一种基于贝叶斯和神经网络的医学图像组合分类方法[J].计算机科学,2008,35(3):244-246. 被引量：7
9王和勇,樊泓坤,姚正安.SMOTE和Biased-SVM相结合的不平衡数据分类方法[J].计算机科学,2008,35(5):174-176. 被引量：16
10张桂香,费岚,杜喆,刘三阳.非均衡数据的去噪模糊支持向量机新方法[J].计算机工程与应用,2008,44(16):142-144. 被引量：4

引证文献27

1刘新雯.基于综合改进随机森林算法的中国财政风险预警研究[J].计算机应用与软件,2018,35(9):73-78. 被引量：3
2温雪岩,赵丽影,徐克生,陆光.改进的MDSMOTE与FC-SVM在不平衡数据集分类中的应用[J].哈尔滨理工大学学报,2018,23(4):87-94. 被引量：1
3向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程与应用,2019,55(4):1-16. 被引量：54
4余凯.基于SVM的信用反欺诈预测模型探讨[J].现代商贸工业,2019,40(17):165-168. 被引量：1
5邵良杉,周玉.一种改进过采样算法在类别不平衡信用评分中的应用[J].计算机应用研究,2019,36(6):1683-1687. 被引量：9
6张扬帆,张海鹏,孙俊.基于Lévy分布的不平衡数据过采样方法[J].计算机工程与应用,2019,55(16):150-156. 被引量：1
7罗康洋,王国强.L-SMOTE与SVM结合的不平衡数据集分类研究[J].计算机工程与应用,2019,55(17):55-62. 被引量：12
8杨浩,陈红梅.结合样本局部密度的非平衡数据集成分类算法[J].计算机科学与探索,2020,14(2):274-284. 被引量：10
9王彩文,杨有龙.针对不平衡数据的改进的近邻分类算法[J].计算机工程与应用,2020,56(7):30-38. 被引量：9
10崔鑫,徐华,宿晨.面向不均衡数据集的过抽样算法[J].计算机应用,2020,40(6):1662-1667. 被引量：9

二级引证文献219

1梁硕,李海华.基于深度学习的布线违例预测方法[J].微电子学,2022,52(6):1027-1032. 被引量：2
2崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：30
3冯瑶,梁春玲.图书馆推行目标责任制的几个问题[J].图书馆建设,2000(3):92-92.
4段光强,杨春明,张晖.高校学生信用评分系统关键技术研究[J].中国教育网络,2018(11):71-74.
5李宇帆,张会福,刘上力,唐兵.教育数据挖掘研究进展[J].计算机工程与应用,2019,55(14):15-23. 被引量：20
6袁帅,张慧丽,王晓燕,王涵,赵波.不平衡学习在电力设备故障诊断中的应用[J].信息与电脑,2019,0(9):38-40. 被引量：2
7王灿.利用少量样本集成吸毒人员预测模型的方法[J].数学的实践与认识,2019,49(15):270-276.
8吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：13
9王利君,支志英,贾鹿,李伟.基于SCRF的抽油井结蜡预测方法优化研究[J].计算机科学,2019,46(S11):599-603. 被引量：2
10王圆方.基于层次聚类改进SMOTE的过采样方法[J].软件,2020,41(2):201-204. 被引量：2

1黄海松,魏建安,康佩栋.基于不平衡数据样本特性的新型过采样SVM分类算法[J].控制与决策,2018,33(9):1549-1558. 被引量：27
2吴欢,薛万国,应俊,冷文修,刘继轩,刘燕玉,杨跃进.基于机器学习方法的PCI术预后主要不良心血管事件预测模型研究[J].中国数字医学,2018,13(8):2-5. 被引量：9
3李楠,于孟渤,贾珍珍,王一惠,李昕宸,邹淑雪.基于改进MapReduce模型的BP神经网络并行化研究[J].通信技术,2018,51(4):799-804. 被引量：2
4闫慈,田翔华,阿拉依.阿汗,张伟文,曹明芹.基于AdaBoost法在代谢综合征不平衡数据分类中的应用[J].现代预防医学,2017,44(21):3850-3852. 被引量：2
5谭浩,田爱奎,吴志勇.一种针对类别不平衡的代价敏感集成算法[J].山东理工大学学报（自然科学版）,2018,32(6):63-66. 被引量：2
6杜利敏,徐扬.基于证据理论的不平衡数据半监督分类方法[J].计算机应用研究,2018,35(2):342-345. 被引量：3
7李冉,周丽娟,王华.面向类不平衡数据集的软件缺陷预测模型[J].计算机应用研究,2018,35(9):2806-2810. 被引量：11
8燕昺昊,韩国栋.基于深度循环神经网络和改进SMOTE算法的组合式入侵检测模型[J].网络与信息安全学报,2018,4(7):48-59. 被引量：10
9李建伟,岳宗河,黄焱,段向欢.基于异构网络拓扑数据的人类必要基因预测[J].河北工业大学学报,2018,47(3):36-41.
10汤榕,李相荣,冯天义,李江平,许静怡.2005～2014年孕产妇死亡率变化趋势及影响因素分析[J].中国卫生事业管理,2018,35(9):710-712. 被引量：5

计算机工程与应用

2018年第18期

浏览历史

内容加载中请稍等...

改进SMOTE的非平衡数据集分类算法研究被引量：27

参考文献4

二级参考文献60

共引文献131

同被引文献177

引证文献27

二级引证文献219

相关作者

相关机构

相关主题

浏览历史

改进SMOTE的非平衡数据集分类算法研究 被引量：27

参考文献4

二级参考文献60

共引文献131

同被引文献177

引证文献27

二级引证文献219

相关作者

相关机构

相关主题

浏览历史

改进SMOTE的非平衡数据集分类算法研究被引量：27