基于支持向量机混合采样的不平衡数据分类方法被引量：12

Classification of Unbalanced Data Based on SVM Mixed Sampling

导出

摘要利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MNSV)以及少数类非支持向量区(FNSV)三个区域,并对MNSV区和FNSV区的样本做去噪处理;然后对SV区分类错误和部分分类正确且靠近决策边界的少数类样本重复进行过采样处理,直到找到测试结果最优的训练数据集;最后有选择的随机删除MNSV区的部分样本.实验结果表明:方法优于其他采样方法. When the traditional support vector machine(SVM)is used to classify unbalanced data,the actual minority support vector samples are too small and difficult to be identified,resulting in less than ideal classification results.To solve this problem,an unbalanced data classification method(BSMS)based on mixed sampling of support vector machines is proposed.This method first divides the original unbalanced data classified by SVM into three regions:the support vector region(SV),the majority non-support vector region(MNSV)and the minority non-support vector region(FNSV)according to their location.Then,the SV region classification error and the partial classification correct and the few class samples near the decision boundary are repeatedly oversampled until the best training data set is found.Finally,there is a selection of random deletion of some samples of the MNSV area.The experimental results show that this method is superior to other sampling methods.

作者姜飞杨明刘雨欣 JIANG Fei;YANG Ming;LIU Yu-xin(School of Science,North University of China,Taiyuan 030051,China)

机构地区中北大学理学院

出处《数学的实践与认识》 2021年第1期88-96,共9页 Mathematics in Practice and Theory

基金国家自然科学基金(61971381) 山西省自然科学基金(201801D121158)。

关键词不平衡数据支持向量机过采样欠采样 unbalanced data SVM oversampling undersampling

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP274.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1李春雪,谢林森,卢诚波.面向不平衡数据集的一种基于聚类的欠采样方法[J].数学的实践与认识,2019,49(1):203-209. 被引量：11
2刘万里,刘三阳,薛贞霞.不平衡支持向量机的平衡方法[J].模式识别与人工智能,2008,21(2):136-141. 被引量：15

二级参考文献12

1郑恩辉,李平,宋执环.不平衡数据知识挖掘:类分布对支持向量机分类的影响[J].信息与控制,2005,34(6):703-708. 被引量：17
2Vapnik V N. The Nature of Statistical Learning Theory. New York, USA: Springer-Verlag, 1995
3Japkowicz N, Stephen S. The Class Imbalanced Problem: A Systematic Study. Intelligent Data Analysis, 2002, 6(5): 429- 449
4Chawla N V, Bowyer K W, Hall L O, etal. Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research, 2002, 16(3):321-357
5Kubat M, Matwin S. Addressing the Curse of Imbalaneed Datasets: One-Sided Sampling//Proe of the 14th International Conference on Machine Learning. Nashville, USA, 1997, 178-186
6Rehan A, Stephen K, Nathalie J. Applying Support Vector Machines to Imbalaneed Datasets // Proe of the 15th European Conference on Machines Learning. Pisa, Italy, 2004:39-50
7Barandela R, Valdovinos R M, Sanchez J S, et al. The Imbalanced Training Sample Problem: Under or over Sampling? //Proc of the Joint IAPR International Workshops on Structural, Syntactic, and Statistical Pattern Recognition. Lisbon, Portugal, 2004: 806-814.
8I.in Y, Lee Y, Wahba G. Support Vector Machines for Classification in Nonstandard Situations. Machine Learning, 2002, 46 (1/2/3) : 191-202
9Barandela R, Sanchez J S, Garcia V, et al. Strategies for Learning in Class Imbalance Problems. Pattern Recognition, 2003, 36(3):849-851
10Tao Qing, Wu Gaowei, Wang Feiyue, et al. Posterior Probability Support Vector Machines for Unbalanced Data. IEEE Transon Neural Networks, 2005, 16(6):1561-1573

共引文献24

1徐海涛.不平衡文本的PSVM-2分类法[J].情报杂志,2010,29(9):167-169.
2方景龙,王万良,何伟成.用于不平衡数据分类的FE-SVDD算法[J].计算机工程,2011,37(6):157-158. 被引量：2
3彭晏飞,尚永刚.基于样本不平衡与视觉多样性的超平面偏移法[J].计算机工程,2013,39(12):223-227.
4王武功,马荣国.交通事件检测的加权支持向量机算法[J].长安大学学报（自然科学版）,2013,33(6):84-87. 被引量：8
5赵小强,杨佳敏.一种适应于不平衡数据集的改进TANC算法[J].兰州理工大学学报,2014,40(5):86-89. 被引量：1
6顾晓清,王洪元,倪彤光,丁辉.基于贝叶斯和支持向量机的钓鱼网站检测方法[J].计算机工程与应用,2015,51(4):87-90. 被引量：13
7韩芳,孙立民.不平衡样本集分类算法研究[J].计算机应用研究,2015,32(8):2323-2325. 被引量：3
8王超学,张涛,马春森.基于聚类权重分阶段的SVM解不平衡数据集分类[J].计算机工程与应用,2015,51(21):133-137. 被引量：9
9刘悦婷,金兆强,刘凯,孙志权.一种新的基于局部密度改进SVM分类算法[J].青海大学学报（自然科学版）,2018,36(2):26-32.
10刘悦婷.基于近邻密度改进的SVM不平衡数据集分类算法[J].延边大学学报（自然科学版）,2018,44(1):43-48.

同被引文献133

1陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：11
2朱帮助,林健.基于支持向量数据描述的无标签数据多类分类[J].智能系统学报,2009,4(2):131-136. 被引量：3
3肖绪桐,虞天遥.简述信号特征提取使用小波变换的优点[J].今日科苑,2009(12):163-164. 被引量：1
4田秀伟,郑喜凤,丁铁夫.基于小波-Contourlet变换的图像压缩算法[J].数据采集与处理,2010,25(4):437-441. 被引量：1
5陶新民,刘福荣,童智靖,杨立标.不均衡数据下基于SVM的故障检测新算法[J].振动与冲击,2010,29(12):8-12. 被引量：20
6曹玲玲,潘建寿.基于Fisher判别分析的贝叶斯分类器[J].计算机工程,2011,37(10):162-164. 被引量：14
7周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
8陈丛,卢启鹏,彭忠琦.基于NLMS自适应滤波的近红外光谱去噪处理方法研究[J].光学学报,2012,32(5):286-291. 被引量：26
9邱宁佳,高鹏,王鹏,陶跃.基于改进信息增益的ACO-WNB分类算法研究[J].计算机仿真,2019,36(1):295-299. 被引量：6
10郭莲仙,梁福睿,赵祖国,王江海.基于稳定碳同位素技术的痕量动物油和植物油的区分检验研究[J].化学研究与应用,2014,26(8):1232-1236. 被引量：9

引证文献12

1邓明阳,郭应时,刘通.基于分层重组的不平衡数据采样方法研究[J].重庆理工大学学报（自然科学）,2021,35(8):122-128. 被引量：3
2陈扬,刘勤明,梁耀旭.陌生小样本不平衡数据下基于机器学习联合算法的设备寿命预测研究[J].计算机应用研究,2021,38(11):3366-3370. 被引量：5
3张君.基于SVM融合学习的电子档案资源自动化分类方法[J].自动化技术与应用,2022,41(10):105-109.
4江雪姣.基于大数据技术的网络信息资源分类检索方法[J].信息与电脑,2022,34(13):10-12. 被引量：2
5张衡,王大勇,宋朋.改进FP-Growth算法下云服务器故障诊断研究[J].计算机仿真,2022,39(12):373-377. 被引量：1
6刘洪旭,韩红桂,杨洪燕.知识和数据驱动的多时间尺度采样系统建模方法[J].北京工业大学学报,2023,49(4):395-402.
7邱薇纶,丁圣.基于滤波器的动植物油光谱信号预处理方法比较及识别分类[J].食品与发酵工业,2023,49(8):281-288.
8邹琼,王冲.不平衡数据分类及在疾病诊断中的应用研究进展[J].职业与健康,2023,39(12):1719-1725.
9杨知玲.基于随机平衡采样的不确定大数据流在线分类算法[J].现代电子技术,2023,46(19):125-128.
10梁硕,韩翔宇,李慧,王书强.分布式网络异常节点挖掘检测方法仿真[J].计算机仿真,2023,40(7):409-413. 被引量：1

二级引证文献12

1李京泰,王晓丹.基于代价敏感激活函数XGBoost的不平衡数据分类方法[J].计算机科学,2022,49(5):135-143. 被引量：3
2于勤丽,于海征.基于改进SMOTE自适应集成的信用风险评估模型[J].重庆理工大学学报（自然科学）,2022,36(7):293-302.
3苗水清,闫文耀,吴梦蝶.基于并行权重自适应k-邻域算法的图像分类方法[J].贵州师范大学学报（自然科学版）,2023,41(2):113-120.
4刘洪旭,韩红桂,杨洪燕.知识和数据驱动的多时间尺度采样系统建模方法[J].北京工业大学学报,2023,49(4):395-402.
5董华忠,蒋达飞,尹维波.电动汽车接入配电网不平衡负荷数据渐进学习方法[J].电子设计工程,2023,31(19):20-24.
6陈凌,火明刚,陶雪娇,朱长娥.基于改进贝叶斯的知识图谱关联查询算法仿真[J].计算机仿真,2023,40(7):453-456.
7孙雪峰.大数据平台聚类分析系统的设计与实现[J].数字通信世界,2024(2):93-95.
8刘云香,同军红,李穂丰,吴晓玲.小样本机器学习下数据多尺度挖掘算法设计[J].计算机仿真,2024,41(4):431-435.
9张晴,谭旭,吕欣.频繁项集挖掘研究前沿及展望[J].深圳信息职业技术学院学报,2024,22(1):1-14.
10徐姝琪.基于隐马尔科夫的受攻击光纤网络活跃节点检测方法[J].长江信息通信,2024,37(3):174-176.

1王星瀚,王琮泽,李彪,高龙毅,赵慎书,苏哲.基于PLC 的智能垃圾箱系统的设计[J].经济技术协作信息,2021(2):99-99.
2侯紫薇.协同学对学生运动技能学习的思考[J].女人坊,2021(1):00270-00270.
3于艳丽,江开忠,盛静文.不平衡数据中基于异类k距离的边界混合采样[J].计算机应用与软件,2021,38(2):299-304. 被引量：2
4杜永萍,刘杨,贺萌.基于对抗式分布对齐的跨域方面级情感分析[J].模式识别与人工智能,2021,34(1):87-94. 被引量：1
5马晓莉,尤秀芝.编码员素质对ICD编码准确性的影响与提升策略[J].中国继续医学教育,2021,13(1):91-93. 被引量：11
6高玲,刘运锋,李聪,熊佳,陈丽华,申新刚,朱卫丰,刘红宁,董欢欢.瓜拉纳⁃巴西人参复合饮料处方优化[J].中成药,2021,43(2):308-314. 被引量：3
7朱颖雯.交互基函数在数据流聚类中的应用[J].现代计算机,2020,26(34):19-21.
8赵杰,李英,吴晓云.基于自适应PSO和SVR的矿坝位移预测[J].电子测量技术,2020,43(19):27-31. 被引量：2
9张丽红.实验室质控方法的区别与应用[J].科技风,2021(3):171-172. 被引量：2
10刘娟,朱吉高,王立兴,沈力,傅剑雄.增强磁共振成像纹理参数对胶质母细胞瘤、原发性中枢神经系统淋巴瘤和单发转移瘤的鉴别诊断价值[J].中华消化病与影像杂志（电子版）,2021,11(2):61-66. 被引量：3

数学的实践与认识

2021年第1期

浏览历史

内容加载中请稍等...

基于支持向量机混合采样的不平衡数据分类方法被引量：12

参考文献2

二级参考文献12

共引文献24

同被引文献133

引证文献12

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于支持向量机混合采样的不平衡数据分类方法 被引量：12

参考文献2

二级参考文献12

共引文献24

同被引文献133

引证文献12

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于支持向量机混合采样的不平衡数据分类方法被引量：12