一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用被引量：12

A New Kind of Improving SOMTE Algorithm Based on K-means in Imbalanced Datasets

导出

摘要在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性. In practice,we always meet the number of some datasets significantly less than the others,in two-class datasets,we named the more as positive class,the less as negative class.In the case of unbalanced datasets,classification isn＇t ideal,in order to improve the algorithm under the unbalanced datasets.Firstly we put forward by K-means to find the center of the negative class,coupled with SMOTE,get a new dataset.By comparing the new dataset and unbalanced datasets,the results show that classification is improved.

作者钟龙申高学军王振友

机构地区广东工业大学应用数学学院

出处《数学的实践与认识》北大核心 2015年第19期198-206,共9页 Mathematics in Practice and Theory

基金国家自然科学基金(11401115) 广东省科技创新项目(13KJ0396) 广东省科技计划项(2013B051000075)

关键词不平衡数据 SMOTE K-MEANS 负类中心配对T检验 unbalanced data SMOTE K-means negative center paired T test

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献14

1Paolo S. A multi-objective optimization approach for class imbalance learning[J]. Pattern Recogni- tion, 2011, 44(8): 801-1810.
2郝秀兰,陶晓鹏,徐和祥,胡运发.kNN文本分类器类偏斜问题的一种处理对策[J].计算机研究与发展,2009,46(1):52-61. 被引量：33
3Japkowicz N, Stephen S. The class imbalance problem: asystematic study[J]. Intelligent Data Anal- ysis Journal, 2002, 6(5): 429-450.
4Weiss G M. Ming with Rarity: A Unifying Framework[J]. SIGKDD Explorations, 2004, 6(1): 7-19.
5Gustavo E, Batista P, Ronaldo C. A study of the behavior of several methods for balancing machine learning training data[J]. Sigkdd Explorations, 2004, 6(1): 20-29.
6. Chawla N V, Bowyer K W, Hall L O. SMOTE: synthetie minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 6(16): 321-357.
7Methan M, Agrawal R, Rissanen J. SLI.Q: A fast scalable classifier for data mining[J]. Lecture Notes in Computer Sci.Proc.of the 5th Int. conf.on Extending Database Tech, 1996: 18-33.
8Han H, Wang W Y, Mao B H. Borderline-SMOTE:Anew over-sampling method in imbalanced data sets learning[C]//Proc of International Conference on Intelligent Computing(ICIC'05), 2005: 878-887.
9薛薇.非平衡数据集的改进SMOTE再抽样算法[J].统计研究,2012,29(6):95-98. 被引量：21
10王和勇,姚正安.SMOTE和Biased-SVM相结合的不平衡数据分类方法[D].计算机科学,2011:174-175.

二级参考文献69

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
2Japkowicz N. Learning from imbalanced data sets: A comparison of various strategies, WS-00-05 [R]. Menlo Park, CA: AAAI Press, 2000
3Chawla N V, Japkowicz N, Kotcz A. Editorial: Special issue on learning from imbalaneed data sets [J]. Sigkdd Explorations Newsletters, 2004, 6( 1 ) : 1-6
4Weiss Gary M. Mining with rarity: A unifying frameworks [J]. SIGKDD Explorations Newsletters, 2004, 6(1): 7-19
5Maloof M A. Learning when data sets are imbalanced and when costs are unequal and unknown [OL]. [2008-01-06]. http://www. site. uottawa. ca/-nat/workshop2003/workshop 2003. html
6Chawla N V, Hall L O, Bowyer K W, et al. SMOTE: Synthetic minority oversampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16 : 321-357
7Jo Taeho, Japkowicz Nathalie. Class imbalances versus small disjunets [J]. SIGKDD Explorations Newsletters, 2004, 6 (1): 40-49
8Batista E A P A, Prati R C, Monard M C. A study of the behavior of several methods for halaneing machine learning training data [J]. SIGKDD Explorations Newsletters, 2004, 6(1): 20-29
9Guo Hongyu, Viktor Herna L. Learning from imbalanced data sets with boosting and data generation: The DataBoostIM approach [J]. SIGKDD Explorations Newsletters, 2004, 6(1): 30-39
10Chawla N V, Lazarevic A, Hall L O, et al. Smoteboost: Improving prediction of the minority class in boosting [C] // Proc of the Seventh European Conf on Principles and Practice of Knowledge Discovery in Databases. Berlin: Springer, 2003:107-119

共引文献80

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：2
2隋国华,李春雷.基于组合分类器的地层含油情况智能决策系统[J].计算机研究与发展,2011,48(S3):476-479.
3罗俊.一种基于图的层次多标记文本分类方法[J].计算机应用研究,2010,27(3):909-912. 被引量：1
4赵会,黄景涛,谈书才.最小二乘支持向量机的一种非均衡数据分类算法[J].微电子学与计算机,2010,27(4):33-37. 被引量：3
5袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11
6张慧敏,柴毅.不等距超球体支持向量机[J].计算机工程与应用,2011,47(11):19-22. 被引量：6
7王晓娟.一种改进的SMOTE过采样方法[J].福建电脑,2011,27(6):145-146.
8庞观松,蒋盛益.文本自动分类技术研究综述[J].情报理论与实践,2012,35(2):123-128. 被引量：33
9刘赫,张相洪,刘大有,李燕军,尹立军.一种基于最大边缘相关的特征选择方法[J].计算机研究与发展,2012,49(2):354-360. 被引量：9
10王晓娟,郭躬德.不平衡数据采样方法的对比学习[J].微计算机信息,2011,27(12):155-157. 被引量：4

同被引文献95

1彭岩,赵梓如,吴婷娴,王洁.PM2.5浓度预测与影响因素分析[J].北京邮电大学学报,2019,42(6):162-169. 被引量：7
2刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
3刘艳霞,职为梅,杨亮.稀有类分类问题研究[J].微型机与应用,2005,24(6):54-56. 被引量：6
4杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
5徐宇明,陈诚,熊赟,朱扬勇.APT-KNN:一种面向分类问题的高效缺失值填充算法[J].计算机应用与软件,2011,28(4):135-139. 被引量：10
6肖玉飞,刘祖润,李目.基于小波包能量熵与SVM的模拟电路故障诊断[J].电子测量技术,2011,34(6):110-113. 被引量：16
7余鹰,苗夺谦,刘财辉,王磊.基于变精度粗糙集的KNN分类改进算法[J].模式识别与人工智能,2012,25(4):617-623. 被引量：32
8武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
9陶新民,张冬雪,郝思媛,付丹丹.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策,2012,27(12):1761-1768. 被引量：28
10王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19

引证文献12

1秦孟梅,邱建林,陆鹏程,陈璐璐,赵伟康.基于AdaBoost的类不平衡学习算法[J].计算机应用研究,2017,34(11):3229-3232. 被引量：11
2童威,黄启萍.优化BP神经网络在非均衡数据分类中的应用[J].长春工业大学学报,2019,40(3):263-269. 被引量：2
3王菲,冯早,李洋.基于非均衡数据的管道堵塞状态识别方法[J].化工自动化及仪表,2019,46(12):993-1000.
4林泳昌,朱晓姝.一种基于SMOTE的不均衡样本KNN分类方法[J].广西科学,2020,27(3):276-283. 被引量：4
5郑列,鲍佳.混合采样与PSO优化的随机森林组合模型及应用[J].湖北工业大学学报,2022,37(2):110-115. 被引量：1
6陶叶辉,赵寿为.面向不平衡数据基于高斯混合聚类的SMOTE改进算法[J].软件导刊,2022,21(5):110-114.
7肖枝洪,李季,王一超.生物医学中高维非均衡数据整合算法[J].重庆理工大学学报（自然科学）,2022,36(7):281-292. 被引量：1
8董贯雷,姜晓东,孙鹏,杨光,耿俊琪,王家文,渠帅,黄胜,王晨,尚盈.基于分布式光纤传感系统的有载变压器故障检测技术研究[J].山东科学,2023,36(5):52-59. 被引量：1
9冯婷婷,彭岩,王洁.ISGS:一种面向滞后效应的组合模型研究[J].电子学报,2023,51(9):2504-2509.
10姜晓东,王磊磊,孙鹏,杨光,耿俊琪,王家文,黄胜,渠帅,王晨,尚盈.基于生成对抗网络的有载调压开关故障检测研究[J].山东科学,2023,36(6):68-73.

二级引证文献27

1李蓉,黄鑫.一种黑子特征自动提取的太阳耀斑模型[J].中国科学：物理学、力学、天文学,2018,48(11):80-85. 被引量：4
2李强,翟亮.基于Stacking算法的员工离职预测分析与研究[J].重庆工商大学学报（自然科学版）,2019,36(1):117-123. 被引量：9
3陆桂明,张源,周志敏.基于机器学习的贫困生分类预测研究[J].计算机应用与软件,2019,36(1):316-319. 被引量：12
4张扬帆,张海鹏,孙俊.基于Lévy分布的不平衡数据过采样方法[J].计算机工程与应用,2019,55(16):150-156. 被引量：1
5秦览,陈继军,于国伟.基于集成回声状态网络模型在兰州市艾滋病发病例数预测中的应用[J].中国研究型医院,2019,6(6):53-57.
6段化娟,尉永清,刘培玉,周鹏.一种面向不平衡分类的改进多决策树算法[J].广西师范大学学报（自然科学版）,2020,38(2):72-80. 被引量：6
7刘建明,张捷,雷婕,廖周宇.基于Adaboost的孪生支持向量机人脸识别方法[J].传感器与微系统,2020,39(7):51-53. 被引量：8
8史金余,杨泽宇,谢兄.基于模糊决策的随机森林算法[J].计算机工程与设计,2020,41(8):2207-2212. 被引量：13
9宋耀莲,徐文林,邹团标.基于混合采样AdaBoost的地中海贫血数据诊断研究[J].数据通信,2020(5):36-39.
10李帅华,孙庆贺,赵明宇.基于机器学习的越权漏洞检测方法[J].中国安全防范技术与应用,2021(2):67-72.

1杨勇,任淑霞,冉娟,李春青.基于粒子群优化的k-means改进算法实现Web日志挖掘[J].计算机应用,2016,36(A01):29-32. 被引量：7
2王祥斌.数据挖掘技术在入侵检测系统中的应用研究[J].计算机测量与控制,2012,20(2):321-323. 被引量：11
3朱明,陶新民.基于随机下采样和SMOTE的不均衡SVM分类算法[J].信息技术,2012,36(1):39-43. 被引量：12
4张煜东,曲维光,季菊辉,王水花.多媒体技术提高Java课程教学质量[J].电子技术与软件工程,2015(12):106-106. 被引量：1
5陈斌,苏一丹,黄山.基于KM-SMOTE和随机森林的不平衡数据分类[J].计算机技术与发展,2015,25(9):17-21. 被引量：21
6付优.非平衡数据集的分类[J].电力学报,2010,25(4):349-352.
7路同强,石冰,闫中敏,周珮.一种用于微博谣言检测的半监督学习算法[J].计算机应用研究,2016,33(3):744-748. 被引量：3
8汤志亚,赵亮,杨玲,甄小琼,杨志鹏.一种基于改进BTS的多类非平衡分类的集成学习方法[J].商丘师范学院学报,2015,31(6):30-34.
9李建.基于IUS和SMOTE结合的不平衡数据随机森林分类算法研究[J].金华职业技术学院学报,2017,17(3):89-92. 被引量：1
10陶新民,刘福荣,童智靖,杨立标.不均衡数据下基于SVM的故障检测新算法[J].振动与冲击,2010,29(12):8-12. 被引量：20

数学的实践与认识

2015年第19期

浏览历史

内容加载中请稍等...

一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用被引量：12

参考文献14

二级参考文献69

共引文献80

同被引文献95

引证文献12

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用 被引量：12

参考文献14

二级参考文献69

共引文献80

同被引文献95

引证文献12

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用被引量：12