ADASYN和SMOTE相结合的不平衡数据分类算法被引量：15

Unbalanced Data Classification Algorithm Based on Combination of ADASYN and SMOTE

下载PDF

导出

摘要传统支持向量机(SVM)对不平衡数据进行二分类时,存在分类边界容易偏移的问题。目前,对于不平衡数据问题主要从数据集和算法两方面来解决。提出了一种基于数据集方法是采用ADASYN和SMOTE算法来联合生成小类样本点。上述方法是根据K近邻算法计算小类样本点和大类样本点数目,对小样本点进行分类后分别采用ADASYN和SMOTE算法进行小类样本点合成。最后实验对算法验证,结果采用ROC曲线来比较单独采用SMOTE或者ADASYN算法合成小类样本点,文中介绍的算法具有最高AUC值,由此可见提出的算法可以提高不平衡数据分类的有效性。 When the traditional support vector machine(SVM)classifies the unbalanced data,there is a problem that the classification boundary is easily offset.At present,the problem of unbalanced data is mainly solved from two aspects of data sets and algorithms.This paper proposes a data set based method that uses ADASYN and SMOTE algorithms to jointly generate small class sample points.The method calculated the number of small sample points and large sample points according to the nearest neighbor algorithm,and classified the small sample points and then used the ADASYN and SMOTE algorithms to perform small sample point synthesis.Finally,the experiment verifiesd the algorithm.The ROC curve was used to compare the SMOTE or ADASYN algorithm to synthesize small sample points.The algorithm introduced in this paper has the highest AUC value.The proposed algorithm can improve the classifica?tion of unbalanced data.

作者蒋华江日辰王鑫王慧娇 JIANG Hua;JIANG Ri-chen;WANG Xin;WANG Hui-jiao(School of Computer and Information Security,Guilin University of Electronic Technology,Guilin Guangxi 541000,China)

机构地区桂林电子科技大学计算机与信息安全学院

出处《计算机仿真》北大核心 2020年第3期254-258,420,共6页 Computer Simulation

基金 2016广西高校中青年教师基础能力提升项目(ky2016YB150) 桂林电子科技大学研究生教育创新计划项目(2017YJCX48)。

关键词不平衡数据支持向量机分类算法 Imbalance dataset SVM Classification algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6
2王俊红,段冰倩.一种基于密度的SMOTE方法研究[J].智能系统学报,2017,12(6):865-872. 被引量：9
3李鑫,郭汉,张欣,胡方强,帅仁俊.基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究[J].计算机科学,2018,45(B06):371-374. 被引量：4
4熊冰妍,王国胤,邓维斌.基于样本权重的不平衡数据欠抽样方法[J].计算机研究与发展,2016,53(11):2613-2622. 被引量：43
5季晨雨.不平衡数据分类问题解决办法[J].电子技术与软件工程,2018(15):152-153. 被引量：4
6袁兴梅,杨明,杨杨.一种面向不平衡数据的结构化SVM集成分类器[J].模式识别与人工智能,2013,26(3):315-320. 被引量：22
7赵小强,张露.基于SVM的高维不平衡数据集分类算法[J].南京大学学报（自然科学版）,2018,54(2):452-461. 被引量：3
8朱安安.基于过采样SVM的不平衡数据信用评价模型[J].软件导刊,2018,17(10):64-67. 被引量：7
9李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：74
10柳培忠,洪铭,黄德天,骆炎民,王守觉.基于ADASYN与AdaBoostSVM相结合的不平衡分类算法[J].北京工业大学学报,2017,43(3):368-375. 被引量：10

二级参考文献104

1肖智,王明恺,谢林林.基于支持向量机的大学生助学贷款个人信用评价[J].清华大学学报（自然科学版）,2006,46(z1):1120-1124. 被引量：20
2吴旗,刘健男,寇文龙,张宗升.改进的单类支持向量机的网络流量检测[J].吉林大学学报（工学版）,2013,43(S1):124-127. 被引量：3
3刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
4凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
5Chawla N V, Bowyer K, Hall L, et al. SMOTE: Synthetic Mino- rity Over-sampling Technique[J]. Journal of Artificial Intelli- gence Research, 2002,16(1) : 321-357.
6Tomek I. Two modifications of CNN[J]. IEEE Transaction on Systems, Man and Communications, 1976,26 (1) : 769-772.
7Kermanidis K, Maragoundakis K, Fakotakis N, et al. Learning greek verb complements: addressing the class imbalance[C]//'Procee- dings of the 20th International Conference on Computational Linguistics. Geneva, Switzerland, 2004 : 1065-1071.
8Yen Show-jane, Lee Yue-shi. Under-sampling approaches for improving prediction of the minority class in an imbalaneed data- set[C]//Proceedings of Intelligent Control and Automation,Se- ries: I.ecture Notes in Control and Information Sciences. Berlin/ Heidelberg: Springer, 2006 : 731-740.
9Tang Y, Zhang Y Q, Chawla N V, et al. SVMs modeling for highly imbalanced classifications[J]. IEEE Transaction on Sys- tems, Man, and Cybernetics, Part B: Cybernetics, 2009,39 ( 1 ) : 281-288.
10Ertekin S, Huang J,Bottou L, et al. Learning on the border: ac tive learning in imbalanced data classification[C]//Proceedings of the ACM Conference on Information and Knowledge Manage- ment. Lisbon, Portugal, 2007 : 127-136.

共引文献247

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：3
2李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
3张建宁.基于改进动态图算法的软件保护技术[J].科技通报,2021,37(8):56-60. 被引量：1
4李蕾,谢旸,蒋亚飞,刘咏彬.一种用于图卷积网络的社交关系方向门控算法[J].北京邮电大学学报,2020(5):77-83. 被引量：1
5秦胜君,卢志平.基于降噪自动编码器的不平衡情感分类研究[J].科学技术与工程,2014,22(12):232-235. 被引量：12
6李勇.结合欠抽样与集成的软件缺陷预测[J].计算机应用,2014,34(8):2291-2294. 被引量：7
7吉利鹏,张洪伟.Memetic算法及其在分类中的应用研究[J].四川理工学院学报（自然科学版）,2014,27(5):43-46.
8孟银凤,梁吉业.基于最小二乘支持向量机的函数型数据回归分析[J].模式识别与人工智能,2014,27(12):1124-1130. 被引量：8
9廖雨婷,王慧琴,柴茜,卢英,马宗方.Adaboost算法在图像型火灾探测中的应用研究[J].计算机应用与软件,2015,32(4):153-155. 被引量：3
10王平,吴剑.基于模糊加权近似支持向量机的Web文本分类[J].计算机应用与软件,2015,32(5):54-58. 被引量：2

同被引文献120

1程磊,吴晓富,张索非.数据集类别不平衡性对迁移学习的影响分析[J].信号处理,2020,36(1):110-117. 被引量：3
2程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
3綦方中,俞婷婷,朱国荣.一种基于RFE特征选择的PSO-SVR用电需求预测模型[J].计算机应用研究,2020,37(S01):105-107. 被引量：10
4崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：30
5林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
6蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
7彭宁云,文习山,王一,陈江波,柴旭峥.基于线性分类器的充油变压器潜伏性故障诊断方法[J].中国电机工程学报,2004,24(6):147-151. 被引量：35
8王和勇,樊泓坤,姚正安,李成安.不平衡数据集的分类方法研究[J].计算机应用研究,2008,25(5):1301-1303. 被引量：24
9杨扬,李善平.基于实例重要性的SVM解不平衡数据分类[J].模式识别与人工智能,2009,22(6):913-918. 被引量：14
10郭虎升,亓慧,王文剑.处理非平衡数据的粒度SVM学习算法[J].计算机工程,2010,36(2):181-183. 被引量：15

引证文献15

1程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61.
2孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：10
3徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：60
4陈欢,王忠震.基于TF-IDF特征词提取的不平衡文本分类[J].智能计算机与应用,2020,10(9):73-76. 被引量：1
5张浩,康海燕.基于特征优化生成对抗网络的在线交易反欺诈方法研究[J].郑州大学学报（理学版）,2022,54(1):69-74. 被引量：1
6庄跃生,林珊玲,林志贤,张永爱,郭太良.生成对抗网络在数据异常检测中的研究[J].计算机工程与应用,2022,58(4):143-149. 被引量：7
7张忠林,傅添翼,闫光辉.概率密度函数的自适应过采样算法研究[J].小型微型计算机系统,2022,43(3):514-519. 被引量：3
8戚元星,崔双喜,姚岱伟,闫斯哲.混合采样算法在电网假数据入侵检测上的应用[J].现代电子技术,2022,45(13):173-178.
9苏海明,亓开元,逄立业,郭涛,张连法.结合小波包与XGBoost的云平台时序监控数据异常检测方法[J].数字技术与应用,2022,40(7):6-8. 被引量：1
10侯方迪,高卫东,张勇,翟哲,杨凡,吴亮.电网总调调度信息披露不平衡性数据处理模型[J].电子设计工程,2022,30(17):104-108.

二级引证文献87

1张艺豪,盛丹红,李丽芳,翟丹丹.基于加权随机森林的信用卡欺诈检测应用与研究[J].电脑编程技巧与维护,2021(4):111-112. 被引量：2
2张蕾.基于卡方差异性和t-SNE的定性数据分类研究[J].电子测量技术,2021,44(5):100-106.
3孙柳.基于多种群协同进化算法的数据并行聚类算法[J].智能计算机与应用,2021,11(6):144-147.
4阮顺领,金裕,李发本,顾清华,王丹娜.基于人工鱼群神经网络进化的露天矿卡车优化调度研究[J].矿业研究与开发,2021,41(8):154-160. 被引量：11
5杨昊天,黎敏,万齐康,邓雄狮,顾乾晖.基于多段处理的软件缺陷预测[J].工业控制计算机,2021,34(8):118-119.
6彭文良,吴红虹.基于Python语言的高敏数据动态抓取方法研究[J].蚌埠学院学报,2021,10(5):61-65. 被引量：4
7王文博,曾小梅,赵引川,张云云,刘达.基于SMOTE-XGBoost的变压器缺陷预测[J].华北电力大学学报（自然科学版）,2021,48(5):54-60. 被引量：11
8夏毅.大数据融合时代运营商构建反欺诈堡垒[J].互联网周刊,2021(24):28-30.
9舒志鸿,沈苏彬.在不平衡数据中进行高效通信的联邦学习[J].计算机技术与发展,2021,31(12):33-38. 被引量：1
10李偲希,白全生,舒畅,肖祥武.基于spark平台的供电煤耗并行回归预测[J].电力大数据,2021,24(11):85-92. 被引量：1

1向伟,王新维.基于多类邻域三支决策模型的不平衡数据分类[J].计算机科学,2020,47(5):103-109. 被引量：2
2李婷婷,吕佳.基于数据模糊性的PU学习研究[J].北京师范大学学报（自然科学版）,2020,56(1):45-51.
3张喆,陶云春,梁睿,迟鹏.一种带式输送机故障诊断方法[J].工矿自动化,2020,46(4):81-84. 被引量：14
4张野,李明超,韩帅,任秋兵,朱月琴.基于金矿规格单元数据的机器学习方法在成矿建模分析中的应用[J].大地构造与成矿学,2020,44(2):183-191. 被引量：6
5郝仁杰.网贷信用风险预警[J].合作经济与科技,2020,0(9):188-190.
6解康辉,李鹤,王成诚,汤勇明,郑姚生.基于表情识别的智能音乐播放控制系统设计[J].电子器件,2020,43(1):5-9. 被引量：2
7李以通,李铮伟,杨光,周立宁,付强,贾晓晴,丁宏研.基于贝叶斯网络的变风量末端故障诊断方法[J].暖通空调,2020,50(4):21-27. 被引量：3
8王雨墨,李彦博,李晓平,艾迪辉,昝林峰,王维嘉,王孟欣,宫敬.人工神经网络预测管道冲蚀速率研究进展[J].石油科学通报,2020,5(1):114-121. 被引量：10

计算机仿真

2020年第3期

浏览历史

内容加载中请稍等...

ADASYN和SMOTE相结合的不平衡数据分类算法被引量：15

参考文献13

二级参考文献104

共引文献247

同被引文献120

引证文献15

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

ADASYN和SMOTE相结合的不平衡数据分类算法 被引量：15

参考文献13

二级参考文献104

共引文献247

同被引文献120

引证文献15

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

ADASYN和SMOTE相结合的不平衡数据分类算法被引量：15