基于样本权重的不平衡数据欠抽样方法被引量：43

Under-Sampling Method Based on Sample Weight for Imbalanced Data

下载PDF

导出

摘要现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型.对19组UCI数据集和某电信运营商客户换机数据进行了测试实验,实验结果表明:KAcBag方法使抽样所得的样本具有较强的代表性,能有效提高少数类的分类性能并缩小问题规模. Imbalanced data exists widely in the real world,and its classification is a hot topic in data mining and machine learning.Under-sampling is a widely used method in dealing imbalanced data set and its main idea is choosing a subset of majority class to make the data set balanced.However,some useful majority class information may be lost.In order to solve the problem,an under-sampling method based on sample weight for imbalance problem is proposed,named as KAcBag（K-means AdaCost bagging）.In this method,sample weight is introduced to reveal the area where the sample is located.Firstly,according to the sample scale,a weight is made for each sample and is modified after clustering the data set.The samples which have less weight in the center of majority class.Then some samples are drawn from majority class in accordance with the sample weight.In the procedure,the samples in the center of majority class can be selected easily.The sampled majority class samples and all the minority class samples are combined as the training data set for a component classifier.After that,we can get several decision tree sub-classifiers.Finally,the prediction model is constructed based on the accuracy of each sub-classifiers.Experimental tests on nineteen UCI data sets and telecom user data show that KAcBag can make the selected samples have more representativeness.Based on that,this method can improve the the classification performance of minority class and reduce the scale of the problem.

作者熊冰妍王国胤邓维斌

机构地区重庆邮电大学计算智能重庆市重点实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2613-2622,共10页 Journal of Computer Research and Development

基金国家自然科学基金项目(61272060) 教育部人文社科规划基金项目(15XJA630003) 重庆市教委科学技术研究项目(KJ1500416) 重庆市自然科学基金项目(CSTC2013jjB40003)~~

关键词不平衡数据欠抽样样本权重聚类集成学习 imbalanced data under-sampling sample weight clustering ensemble learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28

二级参考文献27

1Kotsiantis S,Kanellopoulos D,Pintelas P.Handling Imbalanced Datasets:A Review.GESTS International Trans on Computer Science and Engineering,2006,30(1):25-36.
2Burez J,van den Poel D.Handling Class Imbalance in Customer Churn Prediction.Expert Systems with Applications,2009,36(3):4626-4636.
3Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Synthetic Minority Over-Sampling Technique.Journal of Artificial Intelligence Research,2002,16(1):321-357.
4Han Hui,Wang Wenyuan,Mao Binghuan.Borderline-SMOTE:A New Over-Sampling Method in Imbalanced Data Sets Learning // Proc of the International Conference on Intelligent Computing.Hefei,China,2005:878-887.
5Guo Hongyu,Viktor H L.Learning from Imbalanced Data Sets with Boosting and Data Generation:the DataBoost-IM Approach.ACM SIGKDD Explorations Newsletter,2004,6(1):30-39.
6Chawla N V,Lazarevic A,Hall L O,et al.SMOTEBoost:Improving Prediction of the Minority Class in Boosting // Proc of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases.Dubrovnik,Croatia,2003:107-119.
7Garcìa S,Herrera F.Evolutionary Undersampling for Classification with Imbalanced Datasets:Proposals and Taxonomy.Evolutionary Computation,2009,17(3):275-306.
8Joshi M V,Kumar V,Agarwal R.Evaluating Boosting Algorithms to Classify Rare Classes:Comparison and Improvements // Proc of the 1st IEEE International Conference on Data Mining.San Jose,USA,2001:257-264.
9Cieslak D A,Chawla N V.Learning Decision Trees for Unbalanced Data // Proc of the European Conference on Machine Learning and Knowledge Discovery in Databases.Antwerp,Belgium,2008:241-256.
10Fernández A,del Jesus M J,Herrera F.Hierarchical Fuzzy Rule Based Classification Systems with Genetic Rule Selection for Imbalanced Data-Sets.International Journal of Approximate Reasoning,2009,50(3):561-577.

共引文献27

1王晓娟.一种改进的SMOTE过采样方法[J].福建电脑,2011,27(6):145-146.
2王晓娟,郭躬德.不平衡数据采样方法的对比学习[J].微计算机信息,2011,27(12):155-157. 被引量：4
3黄丽萍,余翀翀.基于分集群的欠采样数据分类方法[J].科技信息,2012(7):201-201.
4王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
5楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
6骆自超,金隼,邱雪峰.考虑类内不平衡的谱聚类过抽样方法[J].计算机工程与应用,2014,50(11):120-125. 被引量：3
7黄剑文,严宇平.基于聚类集成的用户负荷模式识别[J].计算机应用与软件,2014,31(12):237-241. 被引量：4
8霍玉丹,谷琼,蔡之华,袁磊.基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J].计算机应用,2015,35(1):121-124. 被引量：19
9王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：25
10赵鑫.网络与密码安全在计算机数据挖掘类软件中的要求分析[J].数字技术与应用,2015,33(3):188-188. 被引量：1

同被引文献339

1白铂,刘玉婷,马驰骋,王光辉,闫桂英,闫凯,张明,周志恒.图神经网络[J].中国科学：数学,2020,50(3):367-384. 被引量：26
2蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
3郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
4杨锋涛,吕晓旭,王殿元,江长双.基于二阶差分的加权最小费用流相位展开算法[J].激光技术,2006,30(6):667-669. 被引量：5
5王正群,张天平,乐晓蓉.基于聚类选择的分类器集成[J].计算机应用研究,2007,24(12):85-87. 被引量：2
6冯力力,李跃波,苏宇,王丽珍.对不平衡类分类的一种组合方法[J].广西师范大学学报（自然科学版）,2007,25(4):277-280. 被引量：3
7付忠良.关于AdaBoost有效性的分析[J].计算机研究与发展,2008,45(10):1747-1755. 被引量：47
8薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
9姚良,肖晴,陈文.IPTV机顶盒内置质量监测工具的开发与应用[J].电信科学,2008,24(11):80-83. 被引量：3
10王加宽,俞立平,乔闯.颈腰疾病专家诊断系统的研制[J].徐州医学院学报,1998,18(1):51-53. 被引量：2

引证文献43

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：3
2陈艳,陈光,易叶青,刘强.基于均匀抽样的二阶差分聚类数确定方法[J].计算机与现代化,2017(10):49-52. 被引量：1
3祁斌,詹国华,李志华.关于自然语言交互中语音信号优化识别仿真[J].计算机仿真,2018,35(4):137-140. 被引量：5
4赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(B06):22-27. 被引量：47
5谭浩,田爱奎,吴志勇.一种针对类别不平衡的代价敏感集成算法[J].山东理工大学学报（自然科学版）,2018,32(6):63-66. 被引量：2
6倪晓梅,王华伟,洪骥宇,严晓婧.考虑不平衡数据的民航不安全事件分析[J].航空计算技术,2017,47(5):37-40. 被引量：4
7阴爱英,吴运兵,杨晓花.面向制造业不平衡数据的混合采样算法[J].计算机工程与设计,2018,39(4):1053-1058. 被引量：2
8闫建红.不平衡数据度量指标优化的提升分类方法[J].计算机工程与应用,2018,54(21):128-132. 被引量：2
9刘颖.供应链金融大数据分布特征的分析与洞见[J].计算机科学,2019,46(2):1-10. 被引量：7
10王泽原,赵丽,胡俊.大数据环境下利用随机森林算法和决策树的贫困生认定方法[J].湘潭大学学报（自然科学版）,2018,40(6):115-120. 被引量：5

二级引证文献350

1李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197. 被引量：2
2姜新盈,王舒梵,严涛.基于层次密度聚类的去噪自适应混合采样[J].计算机系统应用,2022,31(10):206-210.
3李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
4程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61.
5程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
6车敏诗,聂春燕,范如俊,杨承金,阮新磊.一种基于混沌特征及优化CHAID决策树的情绪识别方法[J].计算机应用研究,2020,37(S02):105-107. 被引量：3
7陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
8岑健铭,封全喜,张丽丽,佟锐超.基于DE-lightGBM模型的上市公司高送转预测实证研究[J].计算机科学,2022,49(S02):137-143. 被引量：1
9张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
10王通,陈延彬.基于改进生成对抗网络的动液面建模数据扩充[J].电子测量与仪器学报,2023,37(2):99-109.

1吴敏,张化朋,李雷.欠抽样和DEC相结合的不平衡数据分类算法[J].计算机技术与发展,2014,24(4):110-113. 被引量：3
2陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
3夏竹青,叶震,王旭.一个新的入侵检测分类算法[J].微计算机信息,2010,26(24):53-55.
4孙晓燕,张化祥,计华.基于AdaBoost的欠抽样集成学习算法[J].山东大学学报（工学版）,2011,41(4):91-94. 被引量：2
5韩慧,王路,温明,王文渊.不均衡数据集学习中基于初分类的过抽样算法[J].计算机应用,2006,26(8):1894-1897. 被引量：11
6尹军梅,杨明,万建武.一种面向不平衡数据集的核Fisher线性判别分析方法[J].模式识别与人工智能,2010,23(3):414-420. 被引量：5
7陈睿,张亮,杨静,胡荣贵.基于BSMOTE和逆转欠抽样的不均衡数据分类算法[J].计算机应用研究,2014,31(11):3299-3303. 被引量：4
8杨明,尹军梅,吉根林.不平衡数据分类方法综述[J].南京师范大学学报（工程技术版）,2008,8(4):7-12. 被引量：28
9朱亚奇,邓维斌.一种基于不平衡数据的聚类抽样方法[J].南京大学学报（自然科学版）,2015,51(2):421-429. 被引量：5
10史颖,亓慧.一种去冗余抽样的非平衡数据分类方法[J].山西大学学报（自然科学版）,2017,40(2):255-261. 被引量：4

计算机研究与发展

2016年第11期

浏览历史

内容加载中请稍等...

基于样本权重的不平衡数据欠抽样方法被引量：43

参考文献1

二级参考文献27

共引文献27

同被引文献339

引证文献43

二级引证文献350

相关作者

相关机构

相关主题

浏览历史

基于样本权重的不平衡数据欠抽样方法 被引量：43

参考文献1

二级参考文献27

共引文献27

同被引文献339

引证文献43

二级引证文献350

相关作者

相关机构

相关主题

浏览历史

基于样本权重的不平衡数据欠抽样方法被引量：43