基于概率采样和集成学习的不平衡数据分类算法被引量：13

Imbalanced Data Classification Algorithm Based on Probability Sampling and Ensemble Learning

下载PDF

导出

摘要集成学习由于泛化能力强,被广泛应用于信息检索、图像处理、生物学等类别不平衡的场景。为了提高算法在不平衡数据上的分类效果,文中提出一种基于采样平衡和特征选择的集成学习算法OBPD-EFSBoost。该算法主要包括3个步骤:首先,依据少数类高斯混合分布得到的概率模型,进行过采样构造平衡数集,扩大少数类的潜在决策域;其次,每轮训练个体分类器时,根据上一轮的错分样本综合考虑样本和特征的加权,过滤冗余噪声特征;最后,通过个体分类器的加权投票得到最终的集成分类器。8组UCI数据分类结果表明,该算法不仅有效提高了少数类的分类精度,同时还弥补了Boosting类算法对噪声特征敏感的缺陷,具有较强的鲁棒性。 Ensemble learning has attracted wide attention in imbalanced category circumstances such as information retrieval,image processing,and biology due to its generalization ability.To improve the performance of classification algorithm on imbalanced data,this paper proposed an ensemble learning algorithm,namely Oversampling Based on Probabi-lity Distribution-Embedding Feature Selection in Boosting(OBPD-EFSBoost).This algorithm mainly includes three steps.Firstly,the original data are oversampled based on probability distribution estimation to construct a balanced dataset.Secondly,when training base classifiers in each round,OBPD-EFSBoost increases the weight of misclassified samples,and considers the effect of noise feature on classification results,thus filtering the redundant noise feature.Finally,the eventual ensemble classifier is obtained through weighted voting on different base classifiers.Experimental results show that the algorithm not only improves the classification accuracy for minority class,but also eliminates the sensitivity of Boosting to noise features,and it has strong robustness.

作者曹雅茜黄海燕 CAO Ya-xi;HUANG Hai-yan(Key Laboratory of Advanced Process Control and Optimization for Chemical Processes (East China University of Science and Technology),Ministry of Education,Shanghai 200237,China)

机构地区华东理工大学化工过程先进控制和优化技术教育部重点实验室

出处《计算机科学》 CSCD 北大核心 2019年第5期203-208,共6页 Computer Science

关键词不平衡数据分类集成学习特征选择概率分布 Imbalanced data classification Ensemble learning Feature selection Probability distribution

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1曹鹏,李博,栗伟,赵大哲.基于概率分布估计的混合采样算法[J].控制与决策,2014,29(5):815-820. 被引量：6

二级参考文献18

1He H, Garcia E A. Learning from imbalanced data[J]. IEEE Trans on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
2Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. J of Artificial Intelligence Research, 2002, 6(1): 321-357.
3Cao P, Zhao D, Zaiane O. An optimized cost-sensitive SVM for imbalanced data learning[C]. Proc of the 17th Pacific-Asia Conf on Knowledge Discovery and Data Mining. Gold Coast, 2013: 280-292.
4Weiss G. The impact of small disjuncts on classifier learning[J]. Annals of Information Systems, 2010, 8(1): 193-226.
5Jo T, Japkowicz N. Class imbalances versus small disjuncts[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 40-49.
6Japkowicz N. Concept-learning in the presence of between- class and within-class imbalances[C]. Proc of Advances in Artificial Intelligence. Adelaide, 2001: 67-77.
7Titterington D M, Smith A F M, Makov U E. Statistical analysis of finite mixture distributions[M]. New York: John Wiley Sons, 2001.
8Laurikkala J. Improving identification of difficult small classes by balancing class distribution[C]. Proc of AI in Medicine in Europe: Artificial Intelligence Medicine. Cascais, 2001: 63-66.
9Barua S, Md I, Kazuyuki M. A novel synthetic minority oversampling technique for imbalanced data set learning[C]. Proc of the 18th Int Conf on Neural Information Processing. Shanghai, 2011: 735-744.
10Figueiredo M A T, Jain A K. Unsupervised learning of finite mixture models[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(3): 381-396.

共引文献5

1杜红乐,张燕.不均衡数据混合取样分类算法[J].燕山大学学报,2015,39(2):158-164. 被引量：6
2杜红乐,张燕.密度不均衡数据分类算法[J].西华大学学报（自然科学版）,2015,34(5):16-23. 被引量：8
3林志毅,谢国波,王丽娟.基于混合采样机制的互信息分布估计算法[J].控制与决策,2017,32(5):829-835.
4高锋,黄海燕.基于邻域混合抽样和动态集成的不平衡数据分类方法[J].计算机科学,2017,44(8):225-229. 被引量：9
5盛凯,刘忠,周德超,冯成旭.面向不平衡分类的IDP-SMOTE重采样算法[J].计算机应用研究,2019,36(1):115-118. 被引量：10

同被引文献165

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：82
2罗俊海,杨阳.基于数据融合的目标检测方法综述[J].控制与决策,2020,35(1):1-15. 被引量：27
3Zhenghui Luo,Rui Sun,Cheng Zhong,Tao Liu,Guangye Zhang,Yang Zou,Xuechen Jiao,Jie Min,Chuluo Yang.Altering alkyl-chains branching positions for boosting the performance of small-molecule acceptors for highly efficient nonfullerene organic solar cells[J].Science China Chemistry,2020,63(3):361-369. 被引量：7
4刘志颖,缪希仁,陈静,江灏.电力架空线路巡检可见光图像智能处理研究综述[J].电网技术,2020,44(3):1057-1069. 被引量：101
5马鹏,樊艳芳.基于深度迁移学习的小样本智能变电站电力设备部件检测[J].电网技术,2020,44(3):1148-1159. 被引量：86
6梁英宏,王知衍,曹晓叶,许晓伟.视频图像理解的一般性框架研究[J].计算机应用研究,2008,25(7):2203-2207. 被引量：4
7庞素琳,巩吉璋.C5.0分类算法及在银行个人信用评级中的应用[J].系统工程理论与实践,2009,29(12):94-104. 被引量：55
8陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
9沈仁芳,陈美军,孔祥斌,李永涛,同延安,汪景宽,李涛,鲁明星.耕地质量的概念和评价与管理对策[J].土壤学报,2012,49(6):1210-1217. 被引量：206
10陈汗青,万艳玲,王国刚.数字图像处理技术研究进展[J].工业控制计算机,2013,26(1):72-74. 被引量：57

引证文献13

1史明华,吴广潮.基于聚类混合采样的不平衡数据分类[J].计算机与现代化,2020,0(5):34-38. 被引量：3
2宋玲玲,王时绘,杨超,盛潇.改进的XGBoost在不平衡数据处理中的应用研究[J].计算机科学,2020,47(6):98-103. 被引量：20
3宋耀莲,徐文林,邹团标.基于混合采样AdaBoost的地中海贫血数据诊断研究[J].数据通信,2020(5):36-39.
4周俊煌,黄廷城,谢小瑜,范纹郡,易婷婷,张勇军.视频图像智能识别技术在输变电系统中的应用研究综述[J].中国电力,2021,54(1):124-134. 被引量：28
5张璨辉,赵丹,贺星,樊芮,徐慧婷.电能表故障预测的代价敏感模型研究[J].电测与仪表,2021,58(3):180-184. 被引量：4
6李红兰,巫蓉.基于决策分类算法的本科毕业生就业形势分析系统设计[J].现代电子技术,2021,44(10):73-76.
7陈丽芳,代琪,赵佳亮.不平衡数据多粒度集成分类算法研究[J].计算机工程与科学,2021,43(5):917-925. 被引量：8
8瞿珊珊,康顺.一种基于多分类器集成的地表覆盖信息提取方法[J].湖北理工学院学报,2021,37(4):25-28. 被引量：1
9李偲希,白全生,舒畅,肖祥武.基于spark平台的供电煤耗并行回归预测[J].电力大数据,2021,24(11):85-92. 被引量：1
10于勤丽,于海征.基于改进SMOTE自适应集成的信用风险评估模型[J].重庆理工大学学报（自然科学）,2022,36(7):293-302. 被引量：1

二级引证文献72

1杨晓娇,于忠,冮军.智慧工地中的图像传感技术的应用进展[J].四川建筑,2021,41(S01):41-44.
2岑健铭,封全喜,张丽丽,佟锐超.基于DE-lightGBM模型的上市公司高送转预测实证研究[J].计算机科学,2022,49(S02):137-143. 被引量：2
3高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64.
4肖衡.基于IRNet单阶段弱监督学习的语义分割方法[J].国外电子测量技术,2021,40(12):30-36. 被引量：3
5刘孝德,裴红军,张振香.萨能奶山羊改良本地山羊效果[J].中国草食动物,2000,2(1):20-22. 被引量：1
6马静怡,崔昊杨,张明达,孙益辉,许永鹏.基于改进Faster RCNN的小尺度入侵目标识别及定位[J].中国电力,2021,54(3):38-44. 被引量：15
7郑列,穆新宇.改进的XGBoost模型在短租房价格预测中的应用[J].湖北工业大学学报,2021,36(2):104-109. 被引量：2
8杨思狄,王亚玲.面向不均衡数据集的过抽样数学模型构建[J].计算机仿真,2021,38(5):472-476. 被引量：2
9杨鲜,赵计生,强保华,米路中,彭博,唐成华,李宝莲.基于改进的BSMOTE和时序特征的风机故障采样算法[J].计算机应用,2021,41(6):1673-1678. 被引量：5
10邓明阳,郭应时,刘通.基于分层重组的不平衡数据采样方法研究[J].重庆理工大学学报（自然科学）,2021,35(8):122-128. 被引量：3

1李艳霞,柴毅,胡友强,尹宏鹏.不平衡数据分类方法综述[J].控制与决策,2019,34(4):673-688. 被引量：172
2张军超,蒋强荣.一种GMMHMM隐状态与高斯混合成份初始化算法[J].软件导刊,2019,18(1):81-85. 被引量：1
3李涛,郑尚,邹海涛,于化龙.基于概率密度估计的SMOTE改进算法研究[J].南京师大学报（自然科学版）,2019,42(1):65-72.
4展宗翠.怎样运用数学思想解答复数问题[J].语数外学习（高中版）（上）,2019(2):44-44.
5李静.股票指数收益率分布研究[J].科技与创新,2018(24):59-61.
6唐家琪,吴璟莉,廖元秀,王金艳.基于双加权投票的蛋白质功能预测[J].计算机科学,2019,46(4):222-227.
7张佩佩.集成算法概述[J].信息与电脑,2019,31(3):50-51. 被引量：2
8张宝菊,陈一迪,薛磊.基于概念漂移检测的数据流集成分类[J].天津师范大学学报（自然科学版）,2019,39(1):76-80. 被引量：3
9叶学民,张然,韩章敬,李春曦.覆冰翼型气动性能和噪声特征的数值研究[J].动力工程学报,2019,39(3):248-256. 被引量：2
10夏小虎,王俊,刘明,蒙争争.机动目标纯方位角跟踪交互式滤波器的比较[J].控制工程,2019,26(1):68-72.

计算机科学

2019年第5期

浏览历史

内容加载中请稍等...

基于概率采样和集成学习的不平衡数据分类算法被引量：13

参考文献1

二级参考文献18

共引文献5

同被引文献165

引证文献13

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于概率采样和集成学习的不平衡数据分类算法 被引量：13

参考文献1

二级参考文献18

共引文献5

同被引文献165

引证文献13

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于概率采样和集成学习的不平衡数据分类算法被引量：13