一种基于欠采样的不平衡数据分类算法被引量：20

Imbalanced Data Classification Algorithm Based on Undersampling

下载PDF

导出

摘要针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。 Imbalanced Data Learning（IDL） problem is one of the research issues in machine learning.This paper presents a classification algorithm based on undersampling,which algorithm undersamples the majority examples,and retains the majority examples near the classify border.With the AUC as the optimization objectives.It chooses the most appropriate domain radius to balance the data set,and trains the Bayesian classifier by the use of the examples after undersampling.Using AUC as a measure of classifier performance evaluation,the experiments on simulation data and UCI data sets show that undersampling is effective

作者程险峰李军李雄飞

机构地区长春市公安局交通警察支队长春理工大学数学系吉林大学符号计算与知识工程教育部重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2011年第13期147-149,共3页 Computer Engineering

基金国家科技支撑计划基金资助项目(2006BAK01A33) 公安部重点科研基金资助项目(B类)(20032252001) 吉林省科技发展计划基金资助项目(20070321 20090704)

关键词机器学习分类算法不平衡数据欠采样邻域 machine learning classification algorithm imbalanced data undersampling neighborhood

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1He Haibo, Edwardo A. Learning from Imbalanced Data[J]. IEEE Trans. on Knowledge and Data Engineering, 2009, 21(9): 1263- 1284.
2Chawla N V, Japkowicz N, Kolcz A. Editorial: Special Issue on Learning from Imbalanced Data Sets[J]. SIGKDD Explorations,2004, 6(1): 1-6.
3Batista G E A, Prati R C, Monard M C. A Study of the Behavior of Several Methods for Balancing Machine Learning TrainingData[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29.
4郭虎升,亓慧,王文剑.处理非平衡数据的粒度SVM学习算法[J].计算机工程,2010,36(2):181-183. 被引量：15
5Fawcett T. An Introduction to ROC Analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861-874.
6Tan P N, Steinbach M, Kumar V. Introduction to Data Mining[M]. Boston, Massachusetts, USA: Addison Wesley, 2005.

二级参考文献5

1Vapnik V. Statictical Learning Theory[M]. New York, USA: Wiley, 1998.
2Tang Yuchun. Granular Support Vector Machines Based on Granular Computing, Soft Computing and Statistical Learning[D]. Atlanta, USA: Georgia Stage University, 2006.
3Yao Y Y. On Modeling Data Mining with Granular Computing[C]// Proc. of the 25th Annual International Conference on Computer Software and Applications. Chicago, USA: [s. n.], 2001.
4Kubat M, Matwin S. Addressing the Curse of Imbalanced Training Sets: One-sided Selection[C]//Proc. of the 14th International Conference on Machine Learning. Nashville, Tennessee, USA: [s. n.], 1997.
5蒋莎,张晓龙.一种用于非平衡数据的SVM学习算法[J].计算机工程,2008,34(20):198-199. 被引量：7

共引文献14

1程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61.
2赵秀宽,阳建宏,黎敏,徐金梧.一种改进的不平衡数据集分类方法[J].计算机工程,2011,37(15):122-124. 被引量：1
3张健,方宏彬,孙启林,刘明术.基于商空间理论的非平衡数据集分类算法[J].计算机应用,2012,32(1):210-212. 被引量：2
4张健,方宏彬.剪枝与欠采样相结合的不平衡数据分类方法[J].计算机应用研究,2012,29(3):847-848. 被引量：4
5吴琼,李运田,郑献卫.面向非平衡训练集分类的随机森林算法优化[J].工业控制计算机,2013,26(7):89-90. 被引量：13
6郭虎升,王文剑.基于粒度偏移因子的支持向量机学习方法[J].计算机研究与发展,2013,50(11):2315-2324. 被引量：4
7吴琼,周维民,李运田.基于Adaboost分类算法的优化研究与应用[J].工业控制计算机,2013,26(12):90-92.
8吴琼,周维民,李运田.数据挖掘分类算法优化非平衡采样样本的研究与应用[J].工业控制计算机,2014,27(2):63-64. 被引量：3
9李湘东,何海红,曹环,黄莉.针对训练集分布偏斜问题的数字资源文本分类方法[J].现代图书情报技术,2014(7):24-33. 被引量：2
10古平,欧阳源遊.基于混合采样的非平衡数据集分类研究[J].计算机应用研究,2015,32(2):379-381. 被引量：14

同被引文献139

1苏益莉,李光举.互联网金融背景下河南省小额贷款风险管理研究[J].时代金融,2020(8):7-9. 被引量：3
2蒋国瑞,司学峰.基于代价敏感SVM的电信客户流失预测研究[J].计算机应用研究,2009,26(2):521-523. 被引量：21
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4方匡南,吴见彬,朱建平,谢邦昌.信贷信息不对称下的信用卡信用风险研究[J].经济研究,2010,45(S1):97-107. 被引量：62
5林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
6麦美琦,郭澄泓.质子泵抑制剂Lansoprazole和Pantoprazole的药理与临床[J].国外医药（合成药．生化药．制剂分册）,1993,14(5):279-281. 被引量：4
7田永军,陈松灿.面向矩阵模式的正则化Ho-Kashyap算法[J].计算机研究与发展,2005,42(9):1628-1632. 被引量：3
8闫明松,周志华.代价敏感分类算法的实验比较[J].模式识别与人工智能,2005,18(5):628-635. 被引量：14
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
10程学云,吉根林,凌霄汉.基于SVM的多类代价敏感学习及其应用[J].南京师范大学学报（工程技术版）,2006,6(4):79-82. 被引量：3

引证文献20

1刘海青,李智桥,李元诚.基于C-lightGBM的用户窃电检测[J].计算机应用研究,2020,37(S01):298-300. 被引量：8
2刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
3谢娜娜,房斌,吴磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2013,49(20):118-121. 被引量：11
4刘余霞,刘三民,刘涛,王忠群.一种新的过采样算法DB_SMOTE[J].计算机工程与应用,2014,50(6):92-95. 被引量：12
5韩芳,孙立民.不平衡样本集的欠采样算法研究[J].福建电脑,2014,30(12):16-18.
6张枭山,罗强.一种基于聚类融合欠抽样的不平衡数据分类方法[J].计算机科学,2015,42(B11):63-66. 被引量：7
7孟芸,王喆.矩阵型多类代价敏感分类器模型[J].华东理工大学学报（自然科学版）,2016,42(1):119-124. 被引量：5
8刘春艳,崔艳群,张晶,白烨,卢浩,高明合.基于欠采样的单频率估计的设计与实现[J].电子技术应用,2016,42(4):70-72. 被引量：3
9张成刚,宋佳智,姜静清,裴志利.一种改进的降噪自编码神经网络不平衡数据分类算法[J].计算机应用研究,2017,34(5):1329-1332. 被引量：15
10冯宏伟,姚博,高原,王惠亚,冯筠.基于边界混合采样的非均衡数据处理算法[J].控制与决策,2017,32(10):1831-1836. 被引量：19

二级引证文献121

1舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3石梦鑫,智佳,高翔,杨甲森.基于集成学习的遥测数据互相关结构知识发现[J].北京航空航天大学学报,2020,46(1):181-188. 被引量：3
4许钢,刘海燕,张超英,梁振燕.基于元胞自动机的建构主义理论应用模拟[J].广西师范大学学报（自然科学版）,2013,31(4):7-12.
5张伟,简刚.基于不均衡文本数据的集成分类方法设计[J].电信技术研究,2018,0(4):55-64.
6姚丽华,于广州.关系型数据库信息资源检索结果分类方法仿真[J].计算机仿真,2019,36(1):445-448. 被引量：4
7李湘东,曹环,黄莉.基于分布偏斜训练集的特征选择方法研究[J].情报理论与实践,2015,38(4):139-144. 被引量：2
8陈宇,许莉薇.基于优化LM模糊神经网络的不均衡林业信息文本分类算法[J].中南林业科技大学学报,2015,35(4):27-32. 被引量：4
9王金婉,毛文涛,何玲,王礼云.基于不均衡样本重构的加权在线贯序极限学习机[J].计算机应用,2015,35(6):1605-1610. 被引量：2
10张枭山,罗强.一种基于聚类融合欠抽样的不平衡数据分类方法[J].计算机科学,2015,42(B11):63-66. 被引量：7

1王志昊,王中卿,李寿山,李培峰.不平衡情感分类中的特征选择方法研究[J].中文信息学报,2013,27(4):113-118. 被引量：6
2陈武锦.半监督学习研究综述[J].电脑知识与技术,2011,7(6):3887-3889. 被引量：4
3王和勇,樊泓坤,姚正安,李成安.不平衡数据集的分类方法研究[J].计算机应用研究,2008,25(5):1301-1303. 被引量：23
4卢志浩,钟智,王楠,温海标.RBQENN算法在不平衡数据分类问题中的应用[J].广西师范学院学报（自然科学版）,2015,32(1):57-62.
5王卫玲,赵秀丽,张燕红,王凤芹.文本过滤中的特征选择[J].微计算机信息,2010,26(21):164-165.
6王丹.基于.NET的网络课程答疑系统的实现[J].廊坊师范学院学报（自然科学版）,2010,10(5):33-35.
7陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
8兰美辉.扩展AUC模型下最优k-部排序函数的计算[J].苏州科技学院学报（自然科学版）,2013,30(4):60-63. 被引量：1
9杨扬,李善平.基于实例重要性的SVM解不平衡数据分类[J].模式识别与人工智能,2009,22(6):913-918. 被引量：14
10许国珍,焦鹏,査亚兵.基于元数据的仿真数据质量研究[J].系统仿真技术,2012,8(2):133-137. 被引量：3

计算机工程

2011年第13期

浏览历史

内容加载中请稍等...

一种基于欠采样的不平衡数据分类算法被引量：20

参考文献6

二级参考文献5

共引文献14

同被引文献139

引证文献20

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

一种基于欠采样的不平衡数据分类算法 被引量：20

参考文献6

二级参考文献5

共引文献14

同被引文献139

引证文献20

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

一种基于欠采样的不平衡数据分类算法被引量：20