基于Biased-SVM的非平衡半监督分类算法被引量：3

A Semi-Supervised Classification Method for Imbalanced Data Based on Biased-SVM

导出

摘要针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性. In view of the semi-supervised classification problem for imbalaneed data, a new semi-supervised learning algorithm based on Biased-SVM was proposed. The steps of the proposed algorithm were as follows.. Firstly, the Biased-SVM model that could dispose the unbalanced samples data was trained by the initial labeled sample set. Secondly, the trained Biased-SVM model was used to add labels to the unlabeled samples. Thirdly, the new labeled samples were added to the initial labeled sample set, and the Biased-SVM model was retrained. Finally, the classifier performance was tested. The proposed method was tested in several benchmark data sets. First, according to some binary unbalanced data sets, the experimental results showed that the proposed method not only improved the G- mean value and the F-value of the minor class effectively, but also had higher stability when the labeled sample rate was 20%--80%.Second, some multi-class unbalanced data sets were selected, and the experimental results showed that the presented method not only increased the EG-mean value and the precision of the minor class effectively, but also had higher stability when the labeled sample rate was 20%--80%.

作者杜利敏徐扬 DU Limin XU Yang(Intelligent Control Development Center, Southwest Jiaotong University, Chengdu 610031, China Pharmacy College of Henan University, Henan Kaifeng 475004, China)

机构地区西南交通大学智能控制开发中心河南大学药学院

出处《河南大学学报（自然科学版）》 CAS 2017年第4期481-489,共9页 Journal of Henan University:Natural Science

基金国家自然科学基金项目(61175055 61305074)

关键词半监督学习非平衡数据分类算法 Biased-SVM semi-supervised learning imbalanced data classification algorithm~ Biased-SVM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1黄再祥,周忠眉,何田中,郑艺峰.改进的多类不平衡数据关联分类算法[J].模式识别与人工智能,2015,28(10):922-929. 被引量：11
2李珍香,王文剑,郭虎升.处理多类不平衡数据的SVM分类算法[J].计算机工程与设计,2014,35(7):2499-2503. 被引量：7
3霍纬纲,高小霞.一种适用于多类不平衡数据集的模糊关联分类方法[J].控制与决策,2012,27(12):1833-1838. 被引量：7

二级参考文献54

1方敏,王宝树.基于AdaBoost的改进模糊分类规则集成学习[J].电子与信息学报,2005,27(5):835-837. 被引量：2
2Bing Liu, Yiming Ma, Ching Kian Wong. Improving an association rule based classifier[C]. Proc of the4th European Conf on Principles of Data Mining and Knowledge Discovery. Lyon, 2000: 504-509.
3Alberto Fem~indez, Salvador Garcfa, Marfa Jos6 del Jesusb, et al. A study of the behaviour of linguistic fuzzy rule based classification systems in the framework of imbalanced data-sets[J]. Fuzzy Sets and Systems, 2008, 159(18): 2378- 2398.
4Alberto Fernandez, Maria Jos6 del Jesus, Francisco Herrera. On the influence of an adaptive inference system in fuzzy rule based classification systems for imbalanced data-sets[J]. Expert Systems with Applications, 2009, 36(6): 9805-9812.
5Batista G, Prati R C, Monard M C. A study of the behavior of several methods for balancing machine learning training data[J]. SIGKDD Explorations, 2004, 6(1): 20-29.
6Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. J of Computer and System Sciences, 1997, 55(1): 119-139.
7Haibo He, Edwardo. A garcia learning from imbalancedData[J]. IEEE Trans on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
8Xu-Ying Liu, Jianxin Wu, Zhi-Hua Zhou. Exploratory underSampling for class-imbalance learning[J]. IEEE Trans on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539-549.
9Chawla N V, Lazarevic A, Hall L O, et al. SMOTEBoost: Improving prediction of the minority class in boosting[C]. Proc of the 7th European Conf on Principles and Practice of Knowledge Discovery in Databases. Dubrovnik, 2003: 107-119.
10Guo H, Viktor H L. Learning from imbalanced data sets with boosting and data generation: The databoost-IM approach[J]. SIGKDD Explorations, 2004, 6(1): 30-39.

共引文献22

1殷士勇.基于模糊c-均值与核Fisher判别分析的不平衡数据分类方法[J].武汉大学学报（工学版）,2014,47(6):849-853. 被引量：3
2汤志亚,赵亮,杨玲,甄小琼,杨志鹏.一种基于改进BTS的多类非平衡分类的集成学习方法[J].商丘师范学院学报,2015,31(6):30-34.
3高小霞,霍纬纲,冯兴杰.基于模糊关联分类器的民机超限事件诊断方法[J].北京航空航天大学学报,2014,40(10):1366-1371. 被引量：10
4伍永豪,柯赟,杨华勇.基于多类别相关度的潜在语义挖掘算法[J].计算机工程与设计,2016,37(7):1817-1821.
5李喆,吕卫,闵行,褚晶辉.机器学习在乳腺肿瘤分类检测中的应用研究[J].计算机工程与科学,2016,38(11):2303-2309. 被引量：7
6黄勤涛,舒坚,牛文生,刘琳岚,蔡少军.基于支持向量机的测试用例自动生成方法[J].计算机工程与设计,2017,38(5):1242-1246. 被引量：2
7霍纬纲,屈峰,程震.基于演进向量量化聚类的增量模糊关联分类方法[J].计算机应用,2017,37(11):3075-3079. 被引量：2
8杨建林,刘扬.基于关联分类算法的PU学习研究[J].数据分析与知识发现,2017,1(11):12-18. 被引量：1
9张灵婕,尤添革.基于R语言对不平衡数据分类的研究[J].福建电脑,2018,34(1):10-11. 被引量：1
10吴萌,侯凌燕,杨大利.基于多类不平衡分类的改进AdaBoost算法研究[J].北京信息科技大学学报（自然科学版）,2018,33(1):76-81.

同被引文献28

1何永明.基于KNN-SVM的网络安全态势评估模型[J].计算机工程与应用,2013,49(9):81-84. 被引量：16
2张震,汪斌强,李向涛,黄万伟.基于近邻传播学习的半监督流量分类方法[J].自动化学报,2013,39(7):1100-1109. 被引量：14
3彭兵,程建,李友平,付海涛,司汉松.长江电力水力发电设备远程状态监测与故障诊断系统设计与应用[J].水电厂自动化,2013,34(1):33-36. 被引量：4
4李素科,蒋严冰.基于情感特征聚类的半监督情感分类[J].计算机研究与发展,2013,50(12):2570-2577. 被引量：23
5何斌,文长辉,沈润杰,任涛,王青华.新能源发电设备转子安全运行监测系统设计[J].系统仿真技术,2014,10(1):36-41. 被引量：1
6赵建华.基于SOM神经网络的半监督分类算法[J].西华大学学报（自然科学版）,2015,34(1):36-40. 被引量：7
7林梅金,罗飞,苏彩红,许玉格.一种新的混合智能极限学习机[J].控制与决策,2015,30(6):1078-1084. 被引量：12
8赵建华,刘宁.结合主动学习策略的半监督分类算法[J].计算机应用研究,2015,32(8):2295-2298. 被引量：7
9翟少磊,曹敏,沈鑫,王飞,王恩.变电站在线监测多维信息聚合技术[J].高电压技术,2015,41(12):3973-3979. 被引量：13
10吴浩.基于物联网和模糊聚类的风力发电设备故障诊断系统及方法[J].电子测量技术,2016,39(3):162-165. 被引量：10

引证文献3

1徐思,孙仁诚.结合聚类的半监督分类方法[J].青岛大学学报（自然科学版）,2018,31(4):49-53. 被引量：2
2贾伟,华庆一,张敏军,陈锐,姬翔,王博.改进极限学习机的移动界面模式半监督分类[J].计算机工程与应用,2018,54(2):11-19. 被引量：7
3韩彦敏,张秋霞,宋子涛,莫文涛,牟世忠.基于大数据的发电设备监测信息聚合分析[J].自动化与仪器仪表,2020(6):164-167.

二级引证文献9

1钟超文,花君,严珂,陆慧娟,叶敏超.半监督支持向量机的空气处理机组夏季故障诊断[J].中国计量大学学报,2018,29(3):311-316. 被引量：1
2何金,曹梦,王伟,朱旭亮,邢向上,陈荣.基于稀疏自编码和极限学习机的局部放电模式识别[J].高压电器,2018,54(11):295-300. 被引量：5
3朱旭亮,刘创华,何金,宋晓博,陈荣,邢向上.基于图像处理及降噪的局部放电图谱智能识别方法[J].电力大数据,2018,21(11):50-56. 被引量：5
4徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
5贾伟,赵雪芬.改进量子粒子群BP神经网络参数优化及应用[J].软件导刊,2019,18(10):30-35. 被引量：5
6邵良杉,李臣浩.基于改进花粉算法的极限学习机分类模型[J].计算机工程与应用,2020,56(1):172-179. 被引量：6
7陶嘉栋,尹钟.基于Bagging与超限学习机的脑力负荷识别模型[J].软件导刊,2020,19(3):27-30.
8尚小敏,李强,齐永孟,陶顺安.SLIC算法的线程级并行优化研究与实现[J].青岛大学学报（自然科学版）,2022,35(4):20-25. 被引量：1
9刘志勇.基于改进极限学习机的增量配电网线损率预测模型[J].自动化技术与应用,2023,42(2):155-157. 被引量：7

1汪永元.基于BP神经网络算法的超高电梯投资分析[J].铁道勘测与设计,2017,0(2):66-69.
2程瑞辉,庞宇松,乔铁柱,阎高伟.基于OBE-PLS软测量的过程自适应建模[J].太原理工大学学报,2017,48(4):628-633. 被引量：1

河南大学学报（自然科学版）

2017年第4期

浏览历史

内容加载中请稍等...

基于Biased-SVM的非平衡半监督分类算法被引量：3

参考文献3

二级参考文献54

共引文献22

同被引文献28

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Biased-SVM的非平衡半监督分类算法 被引量：3

参考文献3

二级参考文献54

共引文献22

同被引文献28

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Biased-SVM的非平衡半监督分类算法被引量：3