处理不平衡样本集的欠采样算法被引量：7

Under-sampling algorithm on imbalanced dataset

下载PDF

导出

摘要支持向量机(SVM)在处理不平衡样本集时,对少类样本的分类效果很不理想。为提高支持向量机在处理不平衡问题上的分类效果,提出了一种核函数选取与欠采样相结合的算法,在提高少类样本准确率的前提下,将多类样本的分类准确率的损失降到最低。该方法首先基于特征空间的可分性选择最佳核函数,然后根据特征距离进行欠采样。基于UCI标准样本集的仿真实验结果表明了该算法是合理有效的。 Support vector machine （SVM） is unsatisfactory in the classification performance of minority class when dealing with imbalanced dataset. To improve the classification performance of support vector machine in the issue of unbalanced sample, an algorithm combining selection of kernel function and under-sampling is presented, in the premise of increasing the accuracy of minority class, this algorithm minimizes the loss of the accuracy of majority class. The best kernel function based on separability in the feature space is selected, then the part of the majority class is deleted according to the feature distance. Simulation experiment results on UCI stander data shows that the algorithm is reasonable and effective.

作者丁福利孙立民

机构地区烟台大学计算机学院

出处《计算机工程与设计》 CSCD 北大核心 2013年第12期4345-4350,共6页 Computer Engineering and Design

基金山东省自然科学基金项目(2009ZRB019CE)

关键词分类支持向量机不平衡样本集欠采样算法核函数 classification support vector machine imbalanced dataset under-sampling algorithm kernel function

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1龚尚福,赵春兰,厍向阳.基于R-SVM的网络入侵检测系统[J].计算机工程与设计,2012,33(10):3777-3782. 被引量：6
2刘苏苏,孙立民.支持向量机与RBF神经网络回归性能比较研究[J].计算机工程与设计,2011,32(12):4202-4205. 被引量：42
3杨智明,彭宇,彭喜元.基于支持向量机的不平衡数据集分类方法研究[J].仪器仪表学报,2009,30(5):1094-1099. 被引量：16
4张瑞,高红,张立伟.一类新的支持向量机核函数——埃尔米特核函数[J].山西大学学报（自然科学版）,2012,35(1):38-42. 被引量：8
5肖建,于龙,白裔峰.支持向量回归中核函数和超参数选择方法综述[J].西南交通大学学报,2008,43(3):297-303. 被引量：36
6单玉刚,王宏,董爽.改进的一对一支持向量机多分类算法[J].计算机工程与设计,2012,33(5):1837-1841. 被引量：16
7赵自翔,王广亮,李晓东.基于支持向量机的不平衡数据分类的改进欠采样方法[J].中山大学学报（自然科学版）,2012,51(6):10-16. 被引量：16
8蔡哲元,余建国,李先鹏,金震东.基于核空间距离测度的特征选择[J].模式识别与人工智能,2010,23(2):235-240. 被引量：16
9刘苏苏,丁福利,孙立民.优化支持向量机核参数的核矩阵方法研究[J].烟台大学学报（自然科学与工程版）,2013,26(2):131-135. 被引量：3
10UC irvine machine learing repository[OL].http://archive.ics.uci.edu/ml/.2013.

二级参考文献121

1阎威武,常俊林,邵惠鹤.一种贝叶斯证据框架下支持向量机建模方法的研究[J].控制与决策,2004,19(5):525-528. 被引量：21
2陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
3苏薇薇,吴忠.中药指纹图谱及计算机信息处理[J].世界科学技术-中药现代化,2001,3(2):30-33. 被引量：24
4李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
5刘向东,骆斌,陈兆乾.支持向量机最优模型选择的研究[J].计算机研究与发展,2005,42(4):576-581. 被引量：49
6朱燕飞,伍建平,李琦,毛宗源.MISO系统的混合核函数LS-SVM建模[J].控制与决策,2005,20(4):417-420. 被引量：15
7胡丹,肖建,车畅.尺度核支持向量机及在动态系统辨识中的应用[J].西南交通大学学报,2006,41(4):460-465. 被引量：4
8苟博,黄贤武.支持向量机多类分类方法[J].数据采集与处理,2006,21(3):334-339. 被引量：63
9叶健,葛临东,吴月娴.一种优化的RBF神经网络在调制识别中的应用[J].自动化学报,2007,33(6):652-654. 被引量：32
10陈友,程学旗,李洋,戴磊.基于特征选择的轻量级入侵检测系统[J].软件学报,2007,18(7):1639-1651. 被引量：78

共引文献151

1郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：14
2Wei Xu,Yan Liu,Zheng Lu,Zhen-Dong Jin,Yu-Hong Hu,Jian-Guo Yu,Zhao-Shen Li.A new endoscopic ultrasonography image processing method to evaluate the prognosis for pancreatic cancer treated with interstitial brachytherapy[J].World Journal of Gastroenterology,2013,19(38):6479-6484. 被引量：5
3陆维嘉.基于贝叶斯网的抗肺结核诊疗数据分析[J].计算机与数字工程,2010,38(12):47-49.
4徐永群,彭翠红,徐坦,黄冬兰,陈小康.三维荧光等高线特征谱及其应用研究[J].分析测试学报,2008,27(11):1151-1156. 被引量：14
5刘陆洲,肖建,王嵩.基于在线LS-SVM的α阶逆控制[J].西南交通大学学报,2009,44(3):375-379. 被引量：2
6廖士中,丁立中,贾磊.支持向量回归多参数的同时调节[J].南京大学学报（自然科学版）,2009,45(5):585-592. 被引量：7
7陈雷,曾宇清,于卫东.基于地面监测的车辆动力学性能贝叶斯评估技术[J].西南交通大学学报,2009,44(6):893-899.
8张红梅.基于随机子空间PCA-SVM集成的实时入侵检测系统[J].仪器仪表学报,2009,30(12):2680-2684. 被引量：8
9刘大同,彭宇,彭喜元,于江,陈强.一种分段在线支持向量回归算法[J].仪器仪表学报,2010,31(8):1732-1737. 被引量：16
10陈丰连,黄锦茶,徐鸿华.广金钱草红外指纹图谱共有峰率和变异峰率双指标序列分析方法[J].今日药学,2010,20(12):18-22. 被引量：3

同被引文献54

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：17
3杨智明.面向不平衡数据的支持向量机分类方法研究[D].哈尔滨:哈尔滨工业大学,2009.
4Chang Ruey-Feng; Wu Wen-Jie; Woo Kyung Moon, et al. Support vector machines for diagnosis of breast tumors on US im- ages [J]. Academic radiology, 2003, 10(2): 189-197.
5Veropoulos K, Campbell C, Cristianini N. Controlling the sen- sitivity of support vector machines [C]. Proceedings of the interna- tional joint conference on artificial intelligence. 1999, 1999: 55-60.
6Li D C, Liu C W, Hu Susan. A learning method for the class imbalance problem with medical data sets[J] . Computers in Biology and Medicine, 2010, 40(5):509-518.
7Chang R F, Wu Wenjie, Woo K M, et al. Support vector machines for diagnosis of breast tumors on US images[J] . Academic Radiology, 2003, 10(2):189-197.
8Veropoulos K, Campbell C, Cristianini N. Controlling the sensitivity of support vector machines[C] //Proc of International Joint Conference on Artificial Intelligence. 1999:55-60.
9UC Irvine machine learning repository[EB/OL] . (2013). http://archive. ics. uci. edu/ml/.
10刘万里,刘三阳,薛贞霞.不平衡支持向量机的平衡方法[J].模式识别与人工智能,2008,21(2):136-141. 被引量：15

引证文献7

1韩芳,孙立民.不平衡样本集的欠采样算法研究[J].福建电脑,2014,30(12):16-18.
2韩芳,孙立民.不平衡样本集分类算法研究[J].计算机应用研究,2015,32(8):2323-2325. 被引量：3
3尚旭.不平衡数据集的混合采样方法[J].数字技术与应用,2016,34(12):68-71. 被引量：4
4尚旭,谢林森.一种距离边界合成少数类过采样技术[J].丽水学院学报,2017,39(2):1-7.
5张雪英,张波,陈桂军.改进的FSVM算法用于非平衡情感数据分类[J].计算机工程与设计,2018,39(11):3544-3548.
6侯贝贝,刘三阳,普事业.基于边界混合重采样的非平衡数据分类方法[J].计算机工程与应用,2020,56(1):46-52. 被引量：20
7张笑璐,邹益胜,张波,刘永志,蒋雨良.基于Bagging-MCNN模型的不均衡样本轴承故障诊断方法[J].现代制造工程,2022(1):104-112. 被引量：2

二级引证文献29

1李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197. 被引量：2
2贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
3李村合,唐磊.基于欠采样支持向量机不平衡的网页分类系统[J].计算机系统应用,2017,26(4):230-235. 被引量：3
4吴萌,侯凌燕,杨大利.基于多类不平衡分类的改进AdaBoost算法研究[J].北京信息科技大学学报（自然科学版）,2018,33(1):76-81.
5章轶立,魏戌,聂佩芸,申浩,虞鲲,康树,谢雁鸣.基于Group Lasso的Logistic回归模型构建绝经后骨质疏松性骨折初发风险评估工具[J].中国骨质疏松杂志,2018,24(8):994-999. 被引量：13
6杨潇.基于改进Logit模型的电力公司财务危机预警研究[J].会计之友,2017(2):95-98. 被引量：5
7张忠林,冯宜邦,赵中恺.一种基于SVM的非均衡数据集过采样方法[J].计算机工程与应用,2020,56(23):220-228. 被引量：15
8于艳丽,江开忠,盛静文.不平衡数据中基于异类k距离的边界混合采样[J].计算机应用与软件,2021,38(2):299-304. 被引量：2
9吴琼,李荣琳,洪海生,罗锋,黄锦增,陆颢文.基于混合重抽样和LightGBM算法的配变低压跳闸预测[J].电力系统保护与控制,2021,49(12):71-78. 被引量：10
10姜新盈,江开忠,严涛,王舒梵.不平衡数据中基于权重的边界混合采样[J].计算机工程与设计,2022,43(5):1265-1272. 被引量：3

1韩芳,孙立民.不平衡样本集分类算法研究[J].计算机应用研究,2015,32(8):2323-2325. 被引量：3
2韩芳,孙立民.不平衡样本集的欠采样算法研究[J].福建电脑,2014,30(12):16-18.
3姚程宽.SVM在不平衡样本集中的应用研究[J].计算机与数字工程,2007,35(10):21-23. 被引量：2
4魏亚利,刘丽,项雪琰,齐绪停.基于支持向量机的不平衡样本集分类算法[J].山东师范大学学报（自然科学版）,2016,31(2):18-21.
5于重重,商利利,谭励,涂序彦,杨扬.半监督学习在不平衡样本集分类中的应用研究[J].计算机应用研究,2013,30(4):1085-1089. 被引量：8
6丁福利,孙立民.基于支持向量机的不平衡样本分类研究[J].科学技术与工程,2014,22(3):81-85. 被引量：7
7秦胜君,卢志平.基于降噪自动编码器的不平衡情感分类研究[J].科学技术与工程,2014,22(12):232-235. 被引量：12
8李建.基于IUS和SMOTE结合的不平衡数据随机森林分类算法研究[J].金华职业技术学院学报,2017,17(3):89-92. 被引量：1
9唐明珠,阳春华,桂卫华.基于CS-SVM的氧化铝蒸发过程故障检测[J].控制工程,2011,18(4):645-649. 被引量：2
10彭永供,邱桃荣,林于渊,黄海泉.基于哈夫曼树的雷电数据采样算法[J].计算机工程,2013,39(5):174-177. 被引量：5

计算机工程与设计

2013年第12期

浏览历史

内容加载中请稍等...

处理不平衡样本集的欠采样算法被引量：7

参考文献12

二级参考文献121

共引文献151

同被引文献54

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

处理不平衡样本集的欠采样算法 被引量：7

参考文献12

二级参考文献121

共引文献151

同被引文献54

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

处理不平衡样本集的欠采样算法被引量：7