高度不平衡数据的代价敏感随机森林分类算法被引量：24

Cost Sensitive Random Forest Classification Algorithm for Highly Unbalanced Data

下载PDF

导出

摘要在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优. For highly unbalanced data,insufficient learning of minority class samples is caused by self-sampling method of the traditional cost sensitive random forest algorithm,and the cost sensitive mechanism of the algorithm is easily weakened by the large proportion of majority class samples.Therefore,a weak balance cost sensitive random forest algorithm based on clustering is proposed.After clustering the majority class samples,the weak balance criterion is used to reduce the samples of each cluster repeatedly.The selected majority class samples and the minority class samples of the original training set are fused to generate a number of new unbalanced datasets for the training of cost sensitive decision tree.The proposed algorithm not only enables the minority class samples to be fully learned,but also ensures that the cost sensitive mechanism is less affected by reducing the majority class samples.Experiment indicates the better performance of the proposed algorithm in processing highly unbalanced datasets.

作者平瑞周水生李冬 PING Rui;ZHOU Shuisheng;LI Dong(School of Mathematics and Statistics,Xidian University,Xi'an 710126)

机构地区西安电子科技大学数学与统计学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2020年第3期249-257,共9页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.61772020)资助。

关键词不平衡数据聚类采样代价敏感学习随机森林 Imbalanced Data Cluster Sampling Cost Sensitive Learning Random Forest

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1郭婷,王杰,刘全明,梁吉业.基于识别关键样本点的非平衡数据核SVM算法[J].模式识别与人工智能,2019,32(6):569-576. 被引量：3
2石洪波,刘焱昕,冀素琴.基于安全样本筛选的不平衡数据抽样方法[J].模式识别与人工智能,2019,32(6):545-556. 被引量：6
3袁兴梅,杨明,杨杨.一种面向不平衡数据的结构化SVM集成分类器[J].模式识别与人工智能,2013,26(3):315-320. 被引量：22
4陶新民,李晨曦,沈微,常瑞,王若彤,刘艳超.基于密度敏感最大软间隔SVDD不均衡数据分类算法[J].电子学报,2018,46(11):2725-2732. 被引量：6

二级参考文献12

1孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
2马月德,杜喆,刘三阳.用于不平衡数据的去噪模糊支持向量机[J].西安工业大学学报,2008,28(3):297-300. 被引量：3
3文传军,詹永照,陈长军.最大间隔最小体积球形支持向量机[J].控制与决策,2010,25(1):79-83. 被引量：19
4袁兴梅,杨明.一种面向不平衡数据的结构化SVM集成算法[J].南京师大学报（自然科学版）,2010,33(4):123-127. 被引量：4
5张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2272
6陶新民,张冬雪,郝思媛,付丹丹.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策,2012,27(12):1761-1768. 被引量：28
7廖士中,王梅,赵志辉.正定矩阵支持向量机正则化路径算法[J].计算机研究与发展,2013,50(11):2253-2261. 被引量：7
8毕冉,李建中,高宏.无线传感器网络中基于双阈值的分布式监测算法[J].电子学报,2014,42(8):1594-1600. 被引量：2
9程昊翔,王坚.基于快速聚类分析的支持向量数据描述算法[J].控制与决策,2016,31(3):551-554. 被引量：7
10陶新民,李震,刘福荣,张越.基于精简集支持向量机的变压器故障检测方法[J].高电压技术,2016,42(10):3199-3206. 被引量：21

共引文献32

1秦胜君,卢志平.基于降噪自动编码器的不平衡情感分类研究[J].科学技术与工程,2014,22(12):232-235. 被引量：12
2吉利鹏,张洪伟.Memetic算法及其在分类中的应用研究[J].四川理工学院学报（自然科学版）,2014,27(5):43-46.
3孟银凤,梁吉业.基于最小二乘支持向量机的函数型数据回归分析[J].模式识别与人工智能,2014,27(12):1124-1130. 被引量：8
4廖雨婷,王慧琴,柴茜,卢英,马宗方.Adaboost算法在图像型火灾探测中的应用研究[J].计算机应用与软件,2015,32(4):153-155. 被引量：3
5王平,吴剑.基于模糊加权近似支持向量机的Web文本分类[J].计算机应用与软件,2015,32(5):54-58. 被引量：2
6席旭刚,左静,罗志增.肌电模糊熵特征的加权核FDA跌倒识别[J].电子学报,2016,44(6):1376-1382. 被引量：4
7杨云,卢美静,穆天红.基于AdaBoost-SVM的葡萄酒品质分类模型优化设计[J].陕西科技大学学报（自然科学版）,2017,35(1):178-182. 被引量：3
8唐胡鑫.关于电商用户忠诚度评估方法的研究[J].计算机仿真,2017,34(1):348-351. 被引量：2
9杨帆,杨大利,朱熹.基于支持向量机集成方法的膀胱癌预后研究[J].北京信息科技大学学报（自然科学版）,2017,32(1):24-31.
10杨云,卢美静.基于集成支持向量机的葡萄酒品质分类方法[J].计算机工程与设计,2017,38(9):2541-2545. 被引量：6

同被引文献217

1周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：6
2白铂,刘玉婷,马驰骋,王光辉,闫桂英,闫凯,张明,周志恒.图神经网络[J].中国科学：数学,2020,50(3):367-384. 被引量：26
3葛谢添.高校奖学金制度研究述评[J].江苏师范大学学报（哲学社会科学版）,2013,39(S2):34-37. 被引量：6
4张华伟,王明文,甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报（理学版）,2006,41(3):5-9. 被引量：59
5周首华,杨济华,王平.论财务危机的预警分析——F分数模式[J].会计研究,1996(8):8-11. 被引量：461
6夏国恩,金炜东.基于支持向量机的客户流失预测模型[J].系统工程理论与实践,2008,28(1):71-77. 被引量：71
7杨明,尹军梅,吉根林.不平衡数据分类方法综述[J].南京师范大学学报（工程技术版）,2008,8(4):7-12. 被引量：28
8王洋,齐晓宁,邵金锋,刘兆永,李泽兴.光照强度对不同玉米品种生长发育和产量构成的影响[J].吉林农业大学学报,2008,30(6):769-773. 被引量：44
9李贤鹏,何松华,赵孝敏,尹波.改进的ID3算法在客户流失预测中的应用[J].计算机工程与应用,2009,45(10):242-244. 被引量：16
10叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：72

引证文献24

1仲蓓鑫,孔苏鹏,程实,张恒.大数据分析下的助学金发放判断辅助模型[J].软件导刊,2021,20(1):185-190. 被引量：1
2张珏,田建学,董婷.一种基于代价敏感集成决策树的不平衡数据分类方法研究[J].榆林学院学报,2021,31(2):53-55. 被引量：2
3Mingqiu Zhang,Wei Zhang,Xiaoyu Chen,Fei Wang,Hui Wang,Jisheng Zhang,Linhui Liu.Modeling and simulation of temperature control system in plant factory using energy balance[J].International Journal of Agricultural and Biological Engineering,2021,14(3):66-75. 被引量：1
4康倩,周水生.光滑有下界的奖惩结合损失函数的最大间隔双球模型[J].模式识别与人工智能,2021,34(10):885-897. 被引量：1
5任婷婷,鲁统宇,崔俊.基于改进AdaBoost算法的动态不平衡财务预警模型[J].数量经济技术经济研究,2021,38(11):182-196. 被引量：15
6王乐,韩萌,李小娟,张妮,程浩东.不平衡数据集分类方法综述[J].计算机工程与应用,2021,57(22):42-52. 被引量：36
7武玉坤,李伟,倪敏雅,许志骋.单类支持向量机融合深度自编码器的异常检测模型[J].计算机科学,2022,49(3):144-151. 被引量：12
8李京泰,王晓丹.基于代价敏感激活函数XGBoost的不平衡数据分类方法[J].计算机科学,2022,49(5):135-143. 被引量：7
9李斌,龚晓峰.基于某组合模型的不平衡数据分类算法研究[J].计算机仿真,2022,39(5):292-298. 被引量：4
10卢小宾,张杨燚,杨冠灿,行佳鑫.新兴技术识别中的不均衡分类研究--基于代价敏感的随机森林算法[J].情报学报,2022,41(10):1059-1070. 被引量：9

二级引证文献96

1陈可.基于B-SMOTE1-XGBoost预测电信客户流失[J].郑州师范教育,2022,11(4):21-26.
2张西晨,徐璐.基于边缘智能的风电机组设备监测系统[J].电子测量技术,2023,46(2):52-58. 被引量：2
3Haofang Yan,Samuel Joe Acquah,Jianyun Zhang,Guoqing Wang,Chuan Zhang,Ransford Opoku Darko.Overview of modelling techniques for greenhouse microclimate environment and evapotranspiration[J].International Journal of Agricultural and Biological Engineering,2021,14(6):1-8.
4李耀华,赵承辉,周逸凡,秦玉贵.基于数据驱动的永磁同步电机深度神经网络控制[J].电机与控制学报,2022,26(1):115-125. 被引量：18
5花洁,李伟.基于人工神经网络的电网负荷数据分类方法[J].能源与环保,2022,44(2):264-269. 被引量：2
6李保安,张雨祺,李培峦.基于贝叶斯优化的SVM-Xgboost移动支付风险预警模型[J].河南科技大学学报（自然科学版）,2022,43(5):50-56. 被引量：3
7黄好,赖建文,梁丽边,苏玉淋.融合面部表情与驾驶行为的路怒症识别方法研究[J].装备制造技术,2022(3):26-28. 被引量：1
8吴学亮,娄莉.样本均衡与特征选择在员工离职倾向预测上的应用[J].智能计算机与应用,2022,12(7):181-184. 被引量：1
9高鹏.基于深度自动编码器模型的电梯系统故障检测方法研究[J].信息与电脑,2022,34(8):105-107. 被引量：3
10李耀华,刘东梅,赵承辉,刘子焜,王孝宇,陈桂鑫.基于CNN的MPTC与DTC自适应切换的表贴式永磁同步电机控制策略[J].电机与控制应用,2022,49(5):8-13. 被引量：2

1任利强,张立民,王海鹏,郭强.关于电力系统供电短期负荷预测仿真研究[J].计算机仿真,2019,36(10):103-108. 被引量：8
2万建武,杨明.代价敏感学习方法综述[J].软件学报,2020,31(1):113-136. 被引量：30
3刘一敏,蒋建国,齐美彬,刘皓,周华捷.融合生成对抗网络和姿态估计的视频行人再识别方法[J].自动化学报,2020,46(3):576-584. 被引量：11
4张强.大采高煤层开采煤壁片帮内在影响因素分析[J].煤矿安全,2019,50(12):207-211. 被引量：4
5陈钟鸣,任桂芳,尹文强,李玲玉,黄冬梅,郭洪伟,孙葵,朱丽丽,徐雪艳.基于集对分析法的山东省乡村医生脆弱性现状研究[J].中华医院管理杂志,2020,36(1):27-31. 被引量：6
6乔茂林.马克思主义超越无政府主义的理论基础[J].观察与思考,2020(2):33-41.
7曹正,刘京瑞,谢鑫,刘一林,董莹,唐国栋,翟燕红.羊水样本卵磷脂和鞘磷脂检测超高效液相色谱串联质谱方法的建立及应用[J].检验医学,2020,35(3):233-237. 被引量：2
8史肖燕,周英操,赵莉萍,蒋宏伟.基于随机森林的溢漏实时判断方法研究[J].钻采工艺,2020,43(1):9-12. 被引量：11
9姚建华,吴加敏,杨勇,施祖贤.全卷积神经网络下的多光谱遥感影像分割[J].中国图象图形学报,2020,0(1):180-192. 被引量：16
10曹聪聪.复杂电磁环境下雷达脉冲描述字的仿真技术研究[J].信息通信,2020,0(1):47-48. 被引量：1

模式识别与人工智能

2020年第3期

浏览历史

内容加载中请稍等...

高度不平衡数据的代价敏感随机森林分类算法被引量：24

参考文献4

二级参考文献12

共引文献32

同被引文献217

引证文献24

二级引证文献96

相关作者

相关机构

相关主题

浏览历史

高度不平衡数据的代价敏感随机森林分类算法 被引量：24

参考文献4

二级参考文献12

共引文献32

同被引文献217

引证文献24

二级引证文献96

相关作者

相关机构

相关主题

浏览历史

高度不平衡数据的代价敏感随机森林分类算法被引量：24