新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost 被引量：11

NIBoost: new imbalanced dataset classification method based on cost sensitive ensemble learning

下载PDF

导出

摘要现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost (New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。 The problem of misclassification of minority class samples appears frequently when classifying massive amount of imbalanced data in real life with traditional classification algorithms,because most of these algorithms only suit balanced class distribution or samples with same misclassification cost.To overcome this problem,a classification algorithm for imbalanced dataset based on cost sensitive ensemble learning and oversampling—New Imbalanced Boost(NIBoost)was proposed.Firstly,the oversampling algorithm was used to add a certain number of minority samples to balance the dataset in each iteration,and the classifier was trained on the new dataset.Secondly,the classifier was used to classify the dataset to obtain the predicted class label of each sample and the classification error rate of the classifier.Finally,the weight coefficient of the classifier and new weight of each sample were calculated according to the classification error rate and the predicted class labeles.Experimental results on UCI datasets with decision tree and Naive Bayesian used as weak classifier algorithm show that when decision tree was used as the base classifier of NIBoost,compared with RareBoost algorithm,the F-value is increased up to 5.91 percentage points,the G-mean is increased up to 7.44 percentage points,and the AUC is increased up to 4.38 percentage points.The experimental results show that the proposed algorithm has advantages on imbalanced data classification problem.

作者王莉陈红梅王生武 WANG Li;CHEN Hongmei;WANG Shengwu(School of Information Science and Technology,Southwest Jiaotong University,Chengdu Sichuan 611756,China)

机构地区西南交通大学信息科学与技术学院

出处《计算机应用》 CSCD 北大核心 2019年第3期629-633,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(61572406)~~

关键词非平衡数据集分类代价敏感过采样 ADABOOST算法 imbalanced dataset classification cost sensitive over-sampling Adaboost algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1江颉,王卓芳,GONG Rong-sheng,陈铁明.不平衡数据分类方法及其在入侵检测中的应用研究[J].计算机科学,2013,40(4):131-135. 被引量：8
2李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
3付忠良.多标签代价敏感分类集成学习算法[J].自动化学报,2014,40(6):1075-1085. 被引量：23

二级参考文献41

1凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
2Bartlett P L, Traskin M. AdaBoost is consistent. Journal of Machine Learning Research, 2007, 8:2347-2368.
3Schapire R E. The convergence rate of AdaBoost [open prob lem]//Proceedings of the 23rd Conference on Learning Theo ry. Haifa, Israel, 2010.
4Japkowicz N. Learning from imbalanced data sets: A com parison of various strategies/ /Proceedings of the AAAI 2000 Workshop, 2000:10-15.
5Chawla N V, Japkowicz N, Kotcz A. Workshop on learning from imbalanced data sets//Proceedings of the ICML' 2003. Washington, DC, USA, 2003.
6Chawla N V, Japkowicz N, Kolez A. Editorial: Special issue on learning from imbalanced data sets. ACM SIGKDD Ex- plorations Newsletter, 2004, 6 (1) : 1-6.
7He Hai-Bo, Garcia E A. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
8Liu X Y, Zhou Z H. The influence of class imbalance on cost-sensitive learning: An empirical study//Proeeedings of the 6th International Conference on Data Mining(ICDM'06). Hong Kong, China, 2006 : 970-974.
9Wang B X, Japkowicz N. Boosting support vector machines for imbalanced data sets. Lecture Notes in Artificial Intelli- gence, 2008, 4994: 38-47.
10Ertekin S, Huang J, Bottou L, Giles L. Learning on the border: active learning in imbalanced data classification// Proceedings of the ACM Conference on Information and Knowledge Management. Lisbon, Portugal, 2007: 127-136.

共引文献88

1王若明.浅谈代价敏感学习[J].网络安全技术与应用,2020(3):52-54.
2杨明生,张春光,杨晓东.醒脑通腑液治疗急性期脑出血30例观察[J].实用中医药杂志,2000,16(2):6-6.
3胡小生,钟勇.基于加权聚类质心的SVM不平衡分类方法[J].智能系统学报,2013,8(3):261-265. 被引量：4
4蒋盛益,苗邦,王连喜.面向不平衡数据的特征加权聚类算法[J].小型微型计算机系统,2013,34(8):1809-1812. 被引量：4
5胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6
6刘余霞,刘三民,刘涛,王忠群.一种新的过采样算法DB_SMOTE[J].计算机工程与应用,2014,50(6):92-95. 被引量：12
7胡小生,张润晶,钟勇.一种基于聚类提升的不平衡数据分类算法[J].集成技术,2014,3(2):35-41. 被引量：6
8李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：74
9郑燕,王杨,郝青峰,甘振韬.用于不平衡数据分类的代价敏感超网络算法[J].计算机应用,2014,34(5):1336-1340. 被引量：7
10胡小生.改进随机子空间与决策树相结合的不平衡数据分类方法[J].佛山科学技术学院学报（自然科学版）,2013,31(5):22-26.

同被引文献98

1陈振宇,刘金波,李晨,季晓慧,李大鹏,黄运豪,狄方春,高兴宇,徐立中.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(2):614-620. 被引量：223
2陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
3王桂芝,李井竹,狄志超.支持k-离群度的边界点检测方法[J].计算机工程与应用,2011,47(33):140-142. 被引量：7
4李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
5李天昀,许漫坤,葛临东.取邻抽取任意倍数采样率变换算法[J].数据采集与处理,2012,27(2):254-258. 被引量：12
6祝团飞,孙婧,李益洲,李梦龙.BOS:一种用于不平衡数据学习的边界过采样方法[J].四川大学学报（自然科学版）,2012,49(3):553-559. 被引量：3
7王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
8楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
9杨柳,刘建国.基于改进粒子群细菌觅食算法的矿井控制研究[J].计算机测量与控制,2014,22(1):113-115. 被引量：4
10付忠良.多标签代价敏感分类集成学习算法[J].自动化学报,2014,40(6):1075-1085. 被引量：23

引证文献11

1杨明生,张春光,杨晓东.醒脑通腑液治疗急性期脑出血30例观察[J].实用中医药杂志,2000,16(2):6-6.
2黄建琼,郭文龙.混合粒子群和改进细菌觅食的不平衡数据分类[J].计算机工程与应用,2020,56(10):171-178. 被引量：6
3刘洋,高丽霞,刘璐.考虑样本不平衡的并行化用户负荷类型辨识方法[J].电网技术,2020,44(11):4310-4317. 被引量：17
4于艳丽,江开忠,盛静文.不平衡数据中基于异类k距离的边界混合采样[J].计算机应用与软件,2021,38(2):299-304. 被引量：2
5曹婷婷,张忠林.代价敏感的KPCA-Stacking不均衡数据分类算法[J].计算机工程与科学,2021,43(3):525-533. 被引量：4
6董燕辉,肖军弼,张红霞,杨勇进,计志滨.面向不平衡数据集的应用系统识别方法[J].计算机与现代化,2021(5):93-97. 被引量：2
7唐思均.基于优化SMOTE算法的非平衡大数据集分类研究[J].沈阳工程学院学报（自然科学版）,2021,17(3):71-76. 被引量：6
8陈力,赵礼峰.基于集成方法的不平衡数据分类研究[J].计算机与数字工程,2021,49(11):2271-2275. 被引量：2
9周传华,朱俊杰,徐文倩,邓佳佳.基于聚类欠采样的集成分类算法[J].计算机与现代化,2021(11):72-76. 被引量：6
10方悦,赵红,陈继林.基于集成学习的财务信息一体化系统设计[J].九江学院学报（自然科学版）,2022,37(1):54-58. 被引量：1

二级引证文献45

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
2高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64.
3陆晓,徐春雷,冷钊莹,吴海伟,陈中.基于数据驱动方法的疫情阶段电力用户负荷特性画像模型[J].电力建设,2021,42(2):93-106. 被引量：22
4廉小亲,刘钰,陈彦铭,黄静,龚永罡,霍亮生.基于自适应粒子群算法的多峰谱线分离方法研究[J].光谱学与光谱分析,2021,41(5):1452-1457. 被引量：7
5卢锦玲,张梦雪,郭鲁豫.基于GAN的不平衡负荷数据类型辨识方法[J].电力科学与工程,2021,37(6):26-34. 被引量：4
6胡章芳,冯淳一,罗元.改进粒子群优化算法的移动机器人路径规划[J].计算机应用研究,2021,38(10):3089-3092. 被引量：35
7易灵芝,黄其森,刘文翰,赵健,陈章,罗显光.基于分治策略的NP-MLSTM非侵入式负荷辨识方法[J].电力系统及其自动化学报,2021,33(10):112-118. 被引量：5
8李常生,任彦辉,李吉侗,许星煜,邢波.基于电力用户用电行为画像的个性化营销策略[J].中国科技投资,2021(28):80-83. 被引量：1
9曹兰.一种增强少数类边界的多类不平衡过抽样算法[J].四川轻化工大学学报（自然科学版）,2021,34(6):85-91.
10陆汝梅.基于知识库的多媒体视频信息云存储方法[J].沈阳工程学院学报（自然科学版）,2022,18(1):66-69. 被引量：2

1陈婉清,秦亮曦.基于代价敏感和近似分类质量的决策粗糙集属性约简研究[J].计算机应用研究,2019,36(4):1022-1025. 被引量：2
2谢欣,夏哲雷.深度卷积神经网络的宫颈癌细胞图像识别[J].中国计量大学学报,2018,29(2):200-203. 被引量：6
3杨正森.基于FTRL和XGBoost算法的产品故障预测模型[J].计算机系统应用,2019,28(3):179-184. 被引量：8
4陆桂明,张源,周志敏.基于机器学习的贫困生分类预测研究[J].计算机应用与软件,2019,36(1):316-319. 被引量：12
5娄棕棋.机器学习的理论发展及应用现状[J].中国新通信,2019,21(1):60-62. 被引量：3
6张永东.基于非均衡样本的信用债违约风险预警研究[J].南方金融,2019(1):5-14. 被引量：9
7张剑平.一道绝对值型函数的最值问题探究[J].中学数学研究,2019(3):40-41.
8王佳林,童恩栋,牛温佳,刘吉强,赵迪.基于CNN-NSVM的入侵检测模型[J].信息通信技术,2018,12(6):48-55. 被引量：2
9彭如香,杨涛,孔华锋,姜国庆,凡友荣.基于CPD-SMOTE的类不平衡数据分类算法研究[J].计算机应用与软件,2018,35(12):259-262. 被引量：7
10邓立国,何明训.基于朴素贝叶斯降噪的协同过滤算法[J].沈阳师范大学学报（自然科学版）,2019,37(1):43-48.

计算机应用

2019年第3期

浏览历史

内容加载中请稍等...