不平衡数据集分类方法研究综述被引量：19

Review of imbalanced data classification methods

下载PDF

导出

摘要社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。 The development of society has brought countless data,with the unbalancedness becoming a significant feature of many data sets.So it has come to be a research hotspot for machine learning on how to make those unbalanced data sets obtain better effects of classification.Based on this,this paper conducted a comprehensive research on the current unbalanced data set classification method,and made an overall interpretation and conclusion from such three aspects as the unbalanced data sampling method,the method of machine learning-based improved algorithm and the combination method.It also analyzed and took into account many factors,including the problems solved by each method,algorithm mentality,application scenarios,as well as the advantages and disadvantages of each,and delivered a summary on potential problems of the classification methods and a prospect on the future research directions.

作者周玉孙红玉房倩夏浩 Zhou Yu;Sun Hongyu;Fang Qian;Xia Hao(School of Electric Power,North China University of Water Resources&Electric Power,Zhengzhou 450045,China)

机构地区华北水利水电大学电力学院

出处《计算机应用研究》 CSCD 北大核心 2022年第6期1615-1621,共7页 Application Research of Computers

基金河南省高等学校青年骨干教师培养计划项目(2018GGJS079) 国家自然科学基金资助项目(U1504622,31671580)。

关键词不平衡数据集分类数据处理机器学习 unbalanced data set classification data processing machine learning

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1李敏波,董伟伟.面向不平衡数据集的汽车零部件质量预测[J].中国机械工程,2022,33(1):88-96. 被引量：11
2董燕辉,肖军弼,张红霞,杨勇进,计志滨.面向不平衡数据集的应用系统识别方法[J].计算机与现代化,2021(5):93-97. 被引量：2
3杨智明,彭宇,彭喜元.基于支持向量机的不平衡数据集分类方法研究[J].仪器仪表学报,2009,30(5):1094-1099. 被引量：16
4陈斌,苏一丹,黄山.基于KM-SMOTE和随机森林的不平衡数据分类[J].计算机技术与发展,2015,25(9):17-21. 被引量：21
5费洪磊,袁琦,郑玉叶.基于深度学习的癫痫脑电不平衡分类方法[J].仪器仪表学报,2021,42(3):231-240. 被引量：9
6王萌铎,续欣莹,阎高伟,史丽娟,郭磊.基于AdaBoost集成加权宽度学习系统的不平衡数据分类[J].计算机工程,2022,48(4):99-105. 被引量：5
7孟东霞,李玉鑑.基于特征边界欠采样的不平衡数据处理方法[J].统计与决策,2021(11):30-33. 被引量：6
8杨琳,徐慧英,马文龙.基于边界条件GAN的不平衡大数据模糊分类[J].西南师范大学学报（自然科学版）,2021,46(7):97-102. 被引量：4
9Zhengbo Luo,Hamïd Parvïn,Harish Garg,Sultan Noman Qasem,Kim-Hung Pho,Zulkefli Mansor.Dealing with Imbalanced Dataset Leveraging Boundary Samples Discovered by Support Vector Data Description[J].Computers, Materials & Continua,2021(3):2691-2708. 被引量：1
10Putta Hemalatha,Geetha Mary Amalanathan.FG-SMOTE:Fuzzy-based Gaussian synthetic minority oversampling with deep belief networks classifier for skewed class distribution[J].International Journal of Intelligent Computing and Cybernetics,2021,14(2):269-286. 被引量：1

二级参考文献79

1VAPNIK V. The nature of statistical learning theory [ M ]. Springer-Verlag, NY, 2000 : 138-167.
2IMAM T, TING K M, KANMRUZZAMAN J. z-SVM: An SVM for improved classification of imbalanced data [A]. Australian Joint Conference on AI[C]. Hobart, Australia: Springer, 2006:264-273.
3WU G, CHANG E. Class-boundary alignment for imbalanced dataset learning [ A ]. Workshop on learning from imbalanced data sets Ⅱ, ICML [ C ]. Washington, DC: AAAI Press, 2003:49-56.
4CHAWLA N, BOWYER K, Hall L, et al. SMOTE: Synthetic minority over-sampling technique [ J ]. Journal of Artificial Intelligence Research, 2002,16( 1 ) :321-357.
5KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one-sided selection [ A ]. Proc. of the 14th International Conference on Machine Learning [ C ]. San Francisco, CA: Morgan Kaufmann 1997: 217-225.
6CRISTIANINI N, KANDOLA J, ELISSEEFF A, et alJ. On kernel target alignment[ A]. Proceedings of the Neural Information Processing Systems [ C ]. Shanghai, China: The MIT Press, 2001:367-373.
7VEROPOULOS K, CAMPBELL C, CRISTIANINI N. Controlling the sensitivity of support vector machines [ A ]. Proceedings of the International Joint Conference on AI [ C]. San Francisco, CA: Morgan Kaufmann, 1999:55-60.
8ASUNCION A, NEWMAN D J. UCI repository of machine learning databases[ EB/OL]. Department of Information and Computer Sciences, University of California, Irvine. http ://www. ics. uci. edu/mlearn/MLRepository. html.
9HanJiawei,KamberM,PeiJian.数据挖掘概念与技术[M].第3版.北京:机械工业出版社,2012.
10Breiman L. Random forests [ J ]. Machine Learning, 2001,45 ( 1 ) :5-32.

共引文献88

1陈可.基于B-SMOTE1-XGBoost预测电信客户流失[J].郑州师范教育,2022,11(4):21-26.
2谢平,胡锦城,江国乾,王鹏宇,门延帝.基于多任务学习的快速序列视觉呈现脑电图分类[J].仪器仪表学报,2023,44(11):215-223. 被引量：1
3谢国民,王嘉良.基于混合采样与IHBA-SVM的变压器故障辨识方法[J].电子测量与仪器学报,2022,36(12):77-85. 被引量：6
4高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64.
5张红梅.基于随机子空间PCA-SVM集成的实时入侵检测系统[J].仪器仪表学报,2009,30(12):2680-2684. 被引量：8
6刘大同,彭宇,彭喜元,于江,陈强.一种分段在线支持向量回归算法[J].仪器仪表学报,2010,31(8):1732-1737. 被引量：16
7王庆荣,郑丽英.基于混合比例方法抽样用于入侵检测[J].兰州交通大学学报,2011,30(1):10-12. 被引量：1
8祝晓燕,常宏飞,张金会.基于遗传算法的不均衡样本在支持向量机中的研究[J].机械工程师,2012(5):11-13.
9赵相彬,梁永全,陈雪.基于支持向量机的不平衡数据分类研究[J].计算机与数字工程,2013,41(2):241-243. 被引量：2
10刘成忠,韩俊英.基于邻域粗糙集的支持向量机在污水处理故障诊断中的应用[J].甘肃农业大学学报,2013,48(3):176-180. 被引量：3

同被引文献263

1武瑞娟,李佩毓,李研.线上消费者负面评论中贴图数量对评论有用性影响效应研究——一项基于负面评论的研究[J].管理评论,2022,34(12):157-172. 被引量：2
2康守强,刘哲,王玉静,王庆岩,兰朝凤.基于改进DQN网络的滚动轴承故障诊断方法[J].仪器仪表学报,2021,42(3):201-212. 被引量：22
3宋志坤,徐立成,胡晓依,任海星,李强.基于改进型shapelets算法的动车组轴箱轴承故障诊断方法研究[J].仪器仪表学报,2021,42(2):66-74. 被引量：8
4董勋,郭亮,高宏力,刘宸宇,李磊.代价敏感卷积神经网络:一种机械故障数据不平衡分类方法[J].仪器仪表学报,2019,40(12):205-213. 被引量：21
5罗敏,赵天齐,郭王玥蕊.“见微知著”:现代管理中的小数据[J].现代管理科学,2021,9(4):37-44. 被引量：1
6蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：56
7郭颖,王明星,段炜钰.专利的技术新兴度与其技术影响力间关系研究[J].科学学研究,2022,40(6):1034-1043. 被引量：7
8孟宗,关阳,潘作舟,孙登云,樊凤杰,曹利宵.基于二次数据增强和深度卷积的滚动轴承故障诊断研究[J].机械工程学报,2021,57(23):106-115. 被引量：21
9贾凯,江明,袁啸林,左桂忠,陈跃.基于代价敏感型LightGBM的分子泵故障检测[J].电子测量与仪器学报,2022,36(10):55-64. 被引量：5
10孟宪俭,李洪建,张伟,王伟,王学新,于铭杰,高仲,韩传基,安航航,柯磊.铸坯质量判定与产品质量诊断系统功能及应用[J].连铸,2011,36(S1):457-462. 被引量：5

引证文献19

1李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197. 被引量：2
2马贺,宋媚,祝义.改进边界分类的Borderline-SMOTE过采样方法[J].南京大学学报（自然科学版）,2023,59(6):1003-1012. 被引量：1
3顾天下,刘勤明.面向高维和不平衡数据的供应链金融信用评价[J].计算机应用研究,2022,39(11):3396-3401. 被引量：2
4刘建华,吕建峰,蔡金丹.基于卷积神经网络和长短时记忆网络的心肌梗死检测[J].中国医学物理学杂志,2022,39(11):1448-1452. 被引量：1
5侯自兵,彭治强,郭坤辉,柳前,曾子航,郭东伟.基于连铸生产大数据的热轧卷质量预测模型[J].连铸,2022(6):29-37. 被引量：3
6方一格,王钢,董悦丽,刘节威,颜培志,荆浩.一种结合差分隐私的仿真数据生成方案[J].网络安全技术与应用,2023(3):35-40.
7张乐,王如意,杨慧,朱素玲.重采样技术在中老年居民糖尿病不平衡数据分类中的应用[J].现代预防医学,2023,50(7):1339-1344. 被引量：1
8唐星龙,徐扬.决策支持系统计算偏差的修正策略研究——以招聘支持系统为例[J].情报杂志,2023,42(6):87-95. 被引量：1
9刘影,徐辉.基于模糊关联的不平衡数据分类算法研究[J].齐齐哈尔大学学报（自然科学版）,2023,39(4):21-27.
10邹琼,王冲.不平衡数据分类及在疾病诊断中的应用研究进展[J].职业与健康,2023,39(12):1719-1725.

二级引证文献14

1谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
2秦颖,白杨曦,马世昌.基于供需均衡理论的供应链金融生态系统稳定性仿真分析[J].金融理论与实践,2023(3):1-10. 被引量：2
3么洪勇,张瑞忠,李杰,高宇,曹金帅.连铸过程控制系统的发展及展望[J].连铸,2023(4):1-9. 被引量：2
4刘静乐,罗翔,宫成荣,张国鹏.基于RF-RFECV和LightGBM算法的糖尿病预测[J].计算机与现代化,2023(11):36-43.
5邱永娟,詹水孙,陈林,晏杰.电力企业管理决策中心理效应的应对策略研究[J].中小企业管理与科技,2023(20):121-123.
6王汉生,姚建斌.基于ResNet和ViT双流网络的小麦病虫害识别[J].农业技术与装备,2024(2):18-21.
7李刚,高广帅,张珍珍,巴任伟,李春雷,刘洲峰.基于连续小波变换和高阶统计量的心律失常识别算法[J].中国医学物理学杂志,2024,41(3):365-374.
8杨森,罗立帆,刘桓竭,曾求初.不平衡数据集梯度提升算法研究[J].微型计算机,2024(3):67-69.
9柳晓辉,王欣,艾志明,李超,张垚,孙志强.直接轧制中连铸坯输送节奏衔接的优化[J].河北冶金,2024(3):35-39.
10吕游,封烁,郑茜,邓丹,刘吉臻.基于LeNet5like的迁移学习风电机组叶片覆冰故障诊断研究[J].仪器仪表学报,2024,45(3):128-143.

1孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：10

计算机应用研究

2022年第6期

浏览历史

内容加载中请稍等...

不平衡数据集分类方法研究综述被引量：19

参考文献14

二级参考文献79

共引文献88

同被引文献263

引证文献19

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

不平衡数据集分类方法研究综述 被引量：19

参考文献14

二级参考文献79

共引文献88

同被引文献263

引证文献19

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

不平衡数据集分类方法研究综述被引量：19