多类类别不平衡学习算法:EasyEnsemble.M 被引量：16

EasyEnsemble. M for Multiclass Imbalance Problem

下载PDF

导出

摘要随机欠采样方法忽略潜在有用的大类样本信息,在面对多类分类问题时更为突出.文中提出多类类别不平衡学习算法:EasyEnsemble.M.该算法通过多次针对大类样本随机采样,充分利用被随机欠采样方法忽略的潜在有用的大类样本,学习多个子分类器,利用混合的集成技术最终得到性能较优的强分类器.实验结果表明,与常用的多类类别不平衡学习算法相比,EasyEnsemble.M可有效提高分类器的G-mean值. The potential useful information in the majority class is ignored by stochastic under-sampling. When under-sampling is applied to multi-class imbalance problem, this situation becomes even worse. In this paper, EasyEnsemble. M for multi-class imbalance problem is proposed. The potential useful information contained in the majority classes which is ignored is explored by stochastic sampling the majority classes for multiple times. Then, sub-classifiers are learned and a strong classifier is obtained by using hybrid ensemble techniques. Experimental results show that EasyEnsemble. M is superior to other frequently used multi-class imbalance learning methods when G-mean is used as performance measure.

作者李倩倩刘胥影

机构地区东南大学计算机科学与工程学院计算机网络和信息集成教育部重点实验室南京大学计算机软件新技术国家重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2014年第2期187-192,共6页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金青年基金项目(No.61105046) 教育部高等学校博士学科点专项科研基金项目(No.20110092120029) 南京大学软件新技术国家重点实验室开放课题项目(No.KFKT2011B01)资助

关键词机器学习类别不平衡学习欠采样集成 Machine Learning Class-Imbalance Learning Under-Sampling Ensemble

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：71
2Andrew P. Bradley.The use of the area under the ROC curve in the evaluation of machine learning algorithms[J].Pattern Recognition.1997(7)
3Yoav Freund,Robert E Schapire.A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J].Journal of Computer and System Sciences.1997(1)

二级参考文献2

1Foster Provost,Tom Fawcett. Robust Classification for Imprecise Environments[J] 2001,Machine Learning(3):203～231
2Miroslav Kubat,Robert C. Holte,Stan Matwin. Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J] 1998,Machine Learning(2-3):195～215

共引文献70

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64.
3文益民,李健,杜飞明,陈方.集成学习算法在不平衡分类中的应用研究[J].计算技术与自动化,2009,28(2):103-106.
4王成,刘亚峰,王新成,闫桂荣.分类器的分类性能评价指标[J].电子设计工程,2011,19(8):13-15. 被引量：28
5王瑞伟,李志华.离群数据规则挖掘的决策树构造方法[J].计算机工程与设计,2011,32(5):1781-1784.
6方磊,马溪骏.基于信息熵的改进型支持向量机客户流失预测模型应用研究[J].情报学报,2011,30(6):643-648. 被引量：5
7秦姣龙,王蔚.Bagging组合的不平衡数据分类方法[J].计算机工程,2011,37(14):178-179. 被引量：12
8付忠良.多分类问题代价敏感AdaBoost算法[J].自动化学报,2011,37(8):973-983. 被引量：31
9李艳玲,郭文普,徐东辉.一种不平衡数据的分类方法[J].中国电子科学研究院学报,2012,7(3):246-251. 被引量：5
10张伶卫,万文强.基于云计算平台的代价敏感集成学习算法研究[J].山东大学学报（工学版）,2012,42(4):19-23. 被引量：3

同被引文献127

1杨章静,刘传才,顾兴健,朱俊.依概率分类的保持投影及其在人脸识别中的应用[J].南京理工大学学报,2013,37(1):7-11. 被引量：6
2朱永利,吴立增,李雪玉.贝叶斯分类器与粗糙集相结合的变压器综合故障诊断[J].中国电机工程学报,2005,25(10):159-165. 被引量：82
3董明,屈彦明,周孟戈,严璋.基于组合决策树的油浸式电力变压器故障诊断[J].中国电机工程学报,2005,25(16):35-41. 被引量：40
4闫明松,周志华.代价敏感分类算法的实验比较[J].模式识别与人工智能,2005,18(5):628-635. 被引量：14
5刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
6王永强,律方成,李和明.基于粗糙集理论和贝叶斯网络的电力变压器故障诊断方法[J].中国电机工程学报,2006,26(8):137-141. 被引量：97
7韩慧,王文渊,毛炳寰.不均衡数据集中基于Adaboost的过抽样算法[J].计算机工程,2007,33(10):207-209. 被引量：13
8凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
9Liu B, Hsu W, Ma Y M. Integrating Classification and Association Rule Mining// Proc of the 4th International Conference on Know- ledge Discovery and Data Mining. New York, USA, 1998:80-86.
10Quinlan J R. C4.5 : Programs for Machine Learning. San Francis- co, USA: Morgan Kaufmann, 1992.

引证文献16

1郭文婷,张军,魏洪伟,刘莹.基于欠采样和对抗自编码器的入侵检测算法[J].信息通信,2019,0(12):58-60.
2崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：28
3闵建.基于加权支持向量机的热轧带钢弯曲质量预测[J].热加工工艺,2018,47(23):165-167. 被引量：1
4谭本东,杨军,赖秋频,谢培元,李军,徐箭.基于改进CGAN的电力系统暂态稳定评估样本增强方法[J].电力系统自动化,2019,43(1):149-157. 被引量：45
5魏志森,杨静宇,於东军.基于加权PSSM直方图和随机森林集成的蛋白质交互作用位点预测[J].南京理工大学学报,2015,39(4):379-385. 被引量：7
6黄再祥,周忠眉,何田中,郑艺峰.改进的多类不平衡数据关联分类算法[J].模式识别与人工智能,2015,28(10):922-929. 被引量：11
7胡小生,温菊屏,钟勇.动态平衡采样的不平衡数据集成分类方法[J].智能系统学报,2016,11(2):257-263. 被引量：13
8黄再祥,周忠眉,何田中.基于类间相关率的不平衡数据的关联分类算法[J].济南大学学报（自然科学版）,2017,31(2):97-102.
9王思晨,丁家满.一种不平衡数据集成分类方法[J].软件导刊,2018,17(8):76-80. 被引量：2
10周鹏,何飞,梁冰,徐科.基于Adaboost加权支持向量机的热轧板带弯曲性能质量预警[J].中南大学学报（自然科学版）,2017,48(10):2623-2628.

二级引证文献126

1张翠云.单片机技术在智能蓄电池故障检测系统的应用分析[J].舰船科学技术,2019,0(24):82-84. 被引量：1
2石梦鑫,智佳,高翔,杨甲森.基于集成学习的遥测数据互相关结构知识发现[J].北京航空航天大学学报,2020,46(1):181-188. 被引量：3
3曹曼曼,汪勉.关于分布式数据库准确分类仿真研究[J].计算机仿真,2019,36(1):354-357. 被引量：2
4刘光徽,胡俊,於东军.基于多视角特征组合与随机森林的G蛋白偶联受体与药物相互作用预测[J].南京理工大学学报,2016,40(1):1-9. 被引量：5
5杨晓光,朱保平.基于复杂网络的社区发现算法[J].南京理工大学学报,2016,40(3):267-271. 被引量：6
6郜法启,於东军,沈红斌.基于分类器集成的跨膜蛋白两亲螺旋区域位置预测[J].南京理工大学学报,2016,40(4):431-437. 被引量：4
7杜利敏,徐扬.基于Biased-SVM的非平衡半监督分类算法[J].河南大学学报（自然科学版）,2017,47(4):481-489. 被引量：3
8杨建林,刘扬.基于关联分类算法的PU学习研究[J].数据分析与知识发现,2017,1(11):12-18. 被引量：1
9吴萌,侯凌燕,杨大利.基于多类不平衡分类的改进AdaBoost算法研究[J].北京信息科技大学学报（自然科学版）,2018,33(1):76-81.
10祁斌,詹国华,李志华.关于自然语言交互中语音信号优化识别仿真[J].计算机仿真,2018,35(4):137-140. 被引量：5

1郭乔进,李立斌,李宁.一种用于不平衡数据分类的改进AdaBoost算法[J].计算机工程与应用,2008,44(21):217-221. 被引量：15
2缪志敏,赵陆文,田世伟,姜劲松.类别不平衡学习识别UWB定位非视距信号[J].信号处理,2016,32(1):8-13. 被引量：6
3刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
4林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
5钱祺,姜远.一种基于HDDT集成的多类不平衡学习方法[J].微电子学与计算机,2011,28(10):201-203.
6魏秀参,慕鑫,杨杨.二次集成学习在医疗数据挖掘中的应用[J].计算机科学与探索,2014,8(9):1113-1119. 被引量：1
7胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6
8黄莉,梁云,黄凤,姚继明.基于级联模型的输变电设备状态图像分类方法[J].信息技术,2015,39(6):28-31. 被引量：1
9缪志敏,胡谷雨,丁力,赵陆文,潘志松.SVDD在类别不平衡学习中的应用[J].应用科学学报,2008,26(1):79-84. 被引量：5
10韩志艳,王健.基于加权合成少数类过采样技术的故障诊断[J].计算机技术与发展,2016,26(9):43-46. 被引量：1

模式识别与人工智能

2014年第2期

浏览历史

内容加载中请稍等...