基于不平衡数据样本特性的新型过采样SVM分类算法被引量：25

New over-sampling SVM classification algorithm based on unbalanced data sample characteristics

导出

摘要针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性. Aiming at the problem that the accuracy and robustness of the traditional sampling methods are not obvious,under-sampling is easy to lose important sample information, and oversampling is easy to introduce redundant information,the Pima-Indians dataset in the UCI common unbalanced datasets is taken as an example to consider the relationship between the distance within classes, the distance within classes and the imbalance, therefore, a new type oversampling method based on sample characteristics is presented. Firstly, the algorithm divides the original data set into some distance belts. Then an improved adaptive neighborhood neighborhood（Smote） algorithm based on sample characteristics is proposed to synthesize new samples in each class with several samples, and is extended to other five unbalanced data sets of UCI dataset. Finally, experiments are conducted using the traditional SVM classifier, and the results show that, in the six categories of unbalanced data sets, compared with the existing sampling method, the proposed algorithm improves the classification accuracy of the minority or majority class samples, and has stronger robustness.

作者黄海松魏建安康佩栋 HUANG Hai-song;WEI Jian-an;KANG Pei-dong(Key Laboratory of Advanced Manufacturing Technology of Ministry of Education,Guizhou University,Guiyang 550025,China)

机构地区贵州大学现代制造技术教育部重点实验室

出处《控制与决策》 EI CSCD 北大核心 2018年第9期1549-1558,共10页 Control and Decision

基金贵州工业攻关重点项目(黔科合GZ字[2015]3009) 贵州省自然科学基金项目(黔科合J字[2015]2043) 贵州省重大专项项目(黔科合JZ字[2014]2001) 贵州省教育厅项目(黔教合协同创新字[2015]02) 贵州大学研究生创新基金项目(研理工2017037)

关键词数据集不平衡样本距离 ANBSC-Smote过采样数据集重构支持向量机 unbalanced datasets sample distance ANBSC-Smoteoversampling datasetsreconstuction SVM

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1张晶,冯林.针对动态非平衡数据集鲁棒的在线极端学习机[J].计算机研究与发展,2015,52(7):1487-1498. 被引量：5
2李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：72
3段礼祥,郭晗,王金江.数据集不均衡下的设备故障程度识别方法研究[J].振动与冲击,2016,35(20):178-182. 被引量：13
4陶新民,刘福荣,童智靖,杨立标.不均衡数据下基于SVM的故障检测新算法[J].振动与冲击,2010,29(12):8-12. 被引量：20
5付忠良.通用集成学习算法的构造[J].计算机研究与发展,2013,50(4):861-872. 被引量：12
6杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：30
7楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
8陶新民,郝思媛,张冬雪,李震.基于样本特性欠取样的不均衡支持向量机[J].控制与决策,2013,28(7):978-984. 被引量：25
9曹愈远,张建,李艳军,张丽娜.基于模糊粗糙集和SVM的航空发动机故障诊断[J].振动．测试与诊断,2017,37(1):169-173. 被引量：22
10鞠哲,曹隽喆,顾宏.用于不平衡数据分类的模糊支持向量机算法[J].大连理工大学学报,2016,56(5):525-531. 被引量：15

二级参考文献189

1张建明,曾建武,谢磊,王树青.基于粗糙集的支持向量机故障诊断[J].清华大学学报（自然科学版）,2007,47(z2):1774-1777. 被引量：23
2徐启华,师军.基于支持向量机的航空发动机故障诊断[J].航空动力学报,2005,20(2):298-302. 被引量：53
3王广,李军.基于粗糙集理论的航空发动机故障诊断[J].航空发动机,2005,31(4):51-53. 被引量：10
4张翔,肖小玲,徐光祐.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006,17(5):951-958. 被引量：84
5王红军,张建民,徐小力.基于支持向量机的机械系统状态组合预测模型研究[J].振动工程学报,2006,19(2):242-245. 被引量：17
6周瑞,杨建国.基于粗糙集与支持向量机的发动机故障诊断研究[J].内燃机学报,2006,24(4):379-383. 被引量：13
7胡桥,何正嘉,张周锁,訾艳阳,雷亚国.基于提升小波包变换和集成支持矢量机的早期故障智能诊断[J].机械工程学报,2006,42(8):16-22. 被引量：44
8凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
9Jack L B,Nandi A K.Fault detection using support vector machines and artificial neural networks augmented by genetic algorithms[J].Mechanical Systems and Signal Processing,2002,16(3):373-390.
10Widodo A,Yang B S.Application of nonlinear feature extraction and support vector machines for fault diagnosis of induction motors[J].Export Systems and Applications,2007,33(1):241-250.

共引文献222

1李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
2张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
3郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
4王慧燕,徐珊.基于贝叶斯分类器的脉象自动识别方法[J].中国生物医学工程学报,2009,28(5):735-742. 被引量：3
5谷琼,蔡之华,朱莉,王贤明.新型混合重取样算法在岩爆预测中的应用[J].地球科学（中国地质大学学报）,2010,35(2):311-316.
6谷琼,王贤明,李文新.基于非均衡数据集的新型混合重取样算法[J].武汉理工大学学报,2010,32(20):55-60. 被引量：1
7陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
8杰弗里.W.雅各布斯,朱晓红.密西西比河与湄公河流域开发经验的比较[J].水利水电快报,2000,21(8):8-12. 被引量：1
9陶新民,曹盼东,宋少宇,付丹丹.基于两阶段学习的半监督SVM故障检测方法[J].振动与冲击,2012,31(23):39-43. 被引量：4
10王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19

同被引文献203

1肖智,王明恺,谢林林.基于支持向量机的大学生助学贷款个人信用评价[J].清华大学学报（自然科学版）,2006,46(z1):1120-1124. 被引量：20
2李德毅,刘常昱.论正态云模型的普适性[J].中国工程科学,2004,6(8):28-34. 被引量：880
3石晓军,肖远文,任若恩.Logistic违约率模型的最优样本配比与分界点研究[J].财经研究,2005,31(9):38-48. 被引量：49
4吴诗启.信用环境对虚拟经营的支持性研究[J].财经论丛,2007(3):15-21. 被引量：2
5林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2008,25(2):332-336. 被引量：44
6杨明,尹军梅,吉根林.不平衡数据分类方法综述[J].南京师范大学学报（工程技术版）,2008,8(4):7-12. 被引量：28
7王果,樊洪海,刘刚,公培斌,李勇,石春林.控制压力钻井技术应用研究[J].石油钻探技术,2009,37(1):34-38. 被引量：60
8叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：71
9徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：169
10王玉乔,程光旭,汤杰国.基于KPCA的连续重整催化剂结焦碳含量软测量模型[J].高校化学工程学报,2009,23(5):852-857. 被引量：3

引证文献25

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2赵静,李俊,龙春,杜冠瑶,万巍,魏金侠.基于集成SVM和Bagging的未知恶意流量检测[J].计算机系统应用,2022,31(10):51-59. 被引量：1
3朱安安.基于过采样SVM的不平衡数据信用评价模型[J].软件导刊,2018,17(10):64-67. 被引量：7
4段刚龙,张兴冉,马鑫,王建仁.小米智能手机定价现状及问题分析——基于随机森林模型[J].当代经济,2019,36(5):95-98.
5邵良杉,周玉.一种改进过采样算法在类别不平衡信用评分中的应用[J].计算机应用研究,2019,36(6):1683-1687. 被引量：8
6王菲,冯早,李洋.基于非均衡数据的管道堵塞状态识别方法[J].化工自动化及仪表,2019,46(12):993-1000.
7黄海松,魏建安,任竹鹏,吴江进.基于失衡样本特性过采样算法与SVM的滚动轴承故障诊断[J].振动与冲击,2020,39(10):65-74. 被引量：17
8邱宁佳,沈卓睿,王辉,王鹏.通信垃圾文本识别的半监督学习优化算法[J].计算机工程与应用,2020,56(17):121-128.
9董明刚,刘明,敬超.利用采样安全系数的多类不平衡过采样算法[J].计算机科学与探索,2020,14(10):1776-1786. 被引量：3
10朱玺,温志强.一种基于双隶属度FSVM的网络入侵检测方法[J].电子设计工程,2020,28(22):52-55. 被引量：3

二级引证文献231

1陈可.基于B-SMOTE1-XGBoost预测电信客户流失[J].郑州师范教育,2022,11(4):21-26.
2周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：4
3冯琳,赵涛岩,曹江涛,李平,商瑀.基于正则化AdaBound的区间二型模糊神经网络软测量建模[J].仪器仪表学报,2022,43(8):215-224. 被引量：1
4康守强,刘哲,王玉静,王庆岩,兰朝凤.基于改进DQN网络的滚动轴承故障诊断方法[J].仪器仪表学报,2021,42(3):201-212. 被引量：21
5唐圣学,刁旭东,陈丽,张继欣,姚芳.光伏发电系统直流串联微弱故障电弧检测方法研究[J].仪器仪表学报,2021,42(3):150-160. 被引量：20
6杨志凯,扶兰兰,唐灿,王发明,倪昕东,陈度.基于MobileViT模型的小麦收获机喂入密度分类方法[J].农业机械学报,2023,54(S01):172-180.
7谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
8穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53.
9郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
10冯瑶,梁春玲.图书馆推行目标责任制的几个问题[J].图书馆建设,2000(3):92-92.

1陈坚,唐炜,蔡晓禹,段力伟.城市轨道交通乘客满意度多群组结构方程模型[J].交通运输系统工程与信息,2018,18(1):173-178. 被引量：19
2赵清华,张艺豪,马建芬,段倩倩.改进SMOTE的非平衡数据集分类算法研究[J].计算机工程与应用,2018,54(18):168-173. 被引量：27
3张雪,石志国,刘璇.面向不平衡数据的多层神经网络模型[J].物联网学报,2018,2(2):65-72.
4李冉,周丽娟,王华.面向类不平衡数据集的软件缺陷预测模型[J].计算机应用研究,2018,35(9):2806-2810. 被引量：11
5Luo Jianbo.India's Major Concerns about China and the Future of China-India Relations[J].Contemporary International Relations,2017,27(4):89-101.
6Rong Ying.The ＂Modi Doctrine＂ and the Future of China-India Relations[J].China International Studies,2018,63(1):26-43.
7刘文宝,刘文刚,王鑫阳,张尧.烷基羟丙基胺作用下石英和赤铁矿的浮选行为[J].东北大学学报（自然科学版）,2017,38(12):1775-1779. 被引量：2
8覃朗,朱建军,衣柏衡,周新民.非均衡数据下基于信息增益的SMOTE改进SVM模型研究[J].中国管理科学,2016,24(S1):128-136. 被引量：4
9吴欢,薛万国,应俊,冷文修,刘继轩,刘燕玉,杨跃进.基于机器学习方法的PCI术预后主要不良心血管事件预测模型研究[J].中国数字医学,2018,13(8):2-5. 被引量：9
10Rupak Sapkota.Nepal in the Belt and Road： New Vista on Building a China-India-Nepal Economic Corridor[J].China International Studies,2017,62(6):105-121.

控制与决策

2018年第9期

浏览历史

内容加载中请稍等...

基于不平衡数据样本特性的新型过采样SVM分类算法被引量：25

参考文献10

二级参考文献189

共引文献222

同被引文献203

引证文献25

二级引证文献231

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据样本特性的新型过采样SVM分类算法 被引量：25

参考文献10

二级参考文献189

共引文献222

同被引文献203

引证文献25

二级引证文献231

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据样本特性的新型过采样SVM分类算法被引量：25