基于重采样与特征选择的不均衡数据分类算法被引量：16

Unbalanced Data Classification Algorithm Based on Resampling and Feature Selection

下载PDF

导出

摘要 SMOTE算法被广泛应用在不均衡数据研究中,但原始数据集中的噪声数据可能会使数据边界模糊造成数据分布改变.本文基于采样平衡与特征选择提出了BSL-FSRF算法.首先提出BSL采样,将少数类样本分为安全样本、噪声样本、边界样本,只对边界样本进行SMOTE插值,再利用Tomek link进行数据清洗,使数据集基本达到均衡的同时减少噪声样本的数量;其次引入"假设间隔"思想对各个特征维度进行度量,设定合适的阈值,将与类别相关性不高的特征移除,对数据降维;最后以随机森林作为分类器,用改进的网格搜索(Gridsearch)算法进行参数寻优.在公共数据集上对BSL-FSRF算法进行实验验证,结果表明该算法在少数类样本的分类准确率和分类器的整体性能上有明显改善,并且节省了运行时间. The SMOTE algorithm is widely used in the study of unbalanced data,but the noise data in the original data set may cause the data boundary blurring and change the data distribution.This paper proposes the BSL-FSRF algorithm based on sampling balance and feature selection.Firstly,the BSL sampling is proposed.The minority samples are divided into safety samples,noise samples and boundary samples.Only the boundary samples are SMOTE interpolated,and then the Tomek link is used for data cleaning,so that the data set is basically balanced and the number of noise samples is reduced.Secondly,the idea of"hypothesis interval"is introduced to measure each feature dimension,and appropriate thresholds are set.The feature with low correlation is removed to reduce the dimension of the data.Finally,the random forest is used as a classifier and the improved grid search algorithm is used to optimize the parameters.The BSL-FSRF algorithm is experimentally verified on the public dataset.The results show that the algorithm has improved the classification accuracy of the minority samples and the overall performance of the classifier,and saves the running time.

作者张忠林曹婷婷 ZHANG Zhong-lin;CAO Ting-ting(College of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)

机构地区兰州交通大学电子与信息工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2020年第6期1327-1333,共7页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61662043)资助.

关键词不均衡数据 ReliefF特征选择重采样随机森林分类 imbalanced data ReliefF feature selection resampling random forest classification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1胡峰,王蕾,周耀.基于三支决策的不平衡数据过采样方法[J].电子学报,2018,46(1):135-144. 被引量：30
2沈学利,覃淑娟.基于SMOTE和深度信念网络的异常检测[J].计算机应用,2018,38(7):1941-1945. 被引量：20
3程险峰,李军,李雄飞.一种基于欠采样的不平衡数据分类算法[J].计算机工程,2011,37(13):147-149. 被引量：21
4魏力,张育平.一种改进型的不平衡数据欠采样算法[J].小型微型计算机系统,2019,40(5):1094-1098. 被引量：21
5王大飞,解武杰,董文瀚.基于CSD-ELM的不平衡数据分类算法[J].计算机工程,2019,45(11):54-61. 被引量：6
6李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63

二级参考文献44

1凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
2He Haibo, Edwardo A. Learning from Imbalanced Data[J]. IEEE Trans. on Knowledge and Data Engineering, 2009, 21(9): 1263- 1284.
3Chawla N V, Japkowicz N, Kolcz A. Editorial: Special Issue on Learning from Imbalanced Data Sets[J]. SIGKDD Explorations,2004, 6(1): 1-6.
4Batista G E A, Prati R C, Monard M C. A Study of the Behavior of Several Methods for Balancing Machine Learning TrainingData[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29.
5Fawcett T. An Introduction to ROC Analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861-874.
6Tan P N, Steinbach M, Kumar V. Introduction to Data Mining[M]. Boston, Massachusetts, USA: Addison Wesley, 2005.
7Bartlett P L, Traskin M. AdaBoost is consistent. Journal of Machine Learning Research, 2007, 8:2347-2368.
8Schapire R E. The convergence rate of AdaBoost [open prob lem]//Proceedings of the 23rd Conference on Learning Theo ry. Haifa, Israel, 2010.
9Japkowicz N. Learning from imbalanced data sets: A com parison of various strategies/ /Proceedings of the AAAI 2000 Workshop, 2000:10-15.
10Chawla N V, Japkowicz N, Kotcz A. Workshop on learning from imbalanced data sets//Proceedings of the ICML' 2003. Washington, DC, USA, 2003.

共引文献148

1李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
2刘海青,李智桥,李元诚.基于C-lightGBM的用户窃电检测[J].计算机应用研究,2020,37(S01):298-300. 被引量：11
3穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：1
4刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
5杨明生,张春光,杨晓东.醒脑通腑液治疗急性期脑出血30例观察[J].实用中医药杂志,2000,16(2):6-6.
6胡小生,钟勇.基于加权聚类质心的SVM不平衡分类方法[J].智能系统学报,2013,8(3):261-265. 被引量：4
7蒋盛益,苗邦,王连喜.面向不平衡数据的特征加权聚类算法[J].小型微型计算机系统,2013,34(8):1809-1812. 被引量：4
8谢娜娜,房斌,吴磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2013,49(20):118-121. 被引量：11
9胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6
10刘余霞,刘三民,刘涛,王忠群.一种新的过采样算法DB_SMOTE[J].计算机工程与应用,2014,50(6):92-95. 被引量：12

同被引文献137

1许承权,范千.基于ICEEMD-ICA与MDP准则的变形监测数据去噪方法[J].武汉大学学报（信息科学版）,2021,46(11):1658-1665. 被引量：8
2董秀军,许强,佘金星,李为乐,刘飞,周兴霞.九寨沟核心景区多源遥感数据地质灾害解译初探[J].武汉大学学报（信息科学版）,2020,45(3):432-441. 被引量：56
3程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
4钟叶,武岳山,沈玉龙.面向RFID供应链应用系统的标签处理过程建模方法[J].计算机应用研究,2020,37(S01):197-198. 被引量：4
5张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
6张莉,郭军.基于边界样本的训练样本选择方法[J].北京邮电大学学报,2006,29(4):77-80. 被引量：15
7林智勇,郝志峰,杨晓伟.若干评价准则对不平衡数据学习的影响[J].华南理工大学学报（自然科学版）,2010,38(4):147-155. 被引量：23
8汪然,平西建.基于图像纹理复杂度和奇异值分解的重采样检测[J].计算机辅助设计与图形学学报,2010,22(9):1606-1612. 被引量：7
9李广明,诸唯君,周欢.P2P网络融资中贷款者欠款特征提取实证研究[J].商业时代,2011(1):41-42. 被引量：28
10黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221

引证文献16

1陈欢,王忠震.基于TF-IDF特征词提取的不平衡文本分类[J].智能计算机与应用,2020,10(9):73-76. 被引量：1
2陈思羽,张雁,王志强.电网通信管理系统中电源数据信息处理方法研究[J].电气自动化,2021,43(4):98-100. 被引量：3
3苗立志,白瑞思蒙,刘成良,翟月昊.面向非平衡数据的癌症患者生存预测分析[J].计算机工程,2021,47(12):316-320. 被引量：4
4孙永明,杨进.自适应插值与特征压缩的小样本数据分类研究[J].计算机工程与应用,2022,58(1):106-112. 被引量：3
5杨阳,刘恩博,顾春华,裴颂文.稀疏数据下结合词向量的短文本分类模型研究[J].计算机应用研究,2022,39(3):711-715. 被引量：8
6姜姗,高远,许玉龙.基于果蝇算法的空间数据库位置冗余数据查询[J].计算机仿真,2022,39(8):437-440. 被引量：3
7徐成桂,徐广顺.基于模糊数学理论的高维小样本数据特征分类系统[J].现代电子技术,2022,45(23):166-170. 被引量：1
8陈钟毓,尹居良.不平衡数据分类问题的FL逻辑回归算法[J].统计与决策,2023(5):33-37. 被引量：2
9郭静,张玉金,张立军,孙冉.基于SGF-IABC的JPEG图像下采样因子检测算法[J].智能计算机与应用,2023,13(5):190-196.
10胡宏章,邱云飞,郭蕾.融合条件熵和TF-IDF的过采样方法[J].计算机时代,2023(6):48-53. 被引量：1

二级引证文献27

1邓钰芳.不平衡的乳腺癌数据生存预测模型研究[J].科学大众（科技创新）,2021(10):302-303.
2杨欣怡,侯凌燕,杨大利,崔丽艳.基于SMOTE和RNN的肾移植排斥反应预测[J].计算机与现代化,2021(11):7-11. 被引量：1
3徐洪霞.通信网络中数字电子技术的运用研究[J].科技资讯,2022,20(2):25-27. 被引量：4
4段在鹏,李帆,邱少辉,俞思雅,张一洋.地铁沿线老旧房屋结构安全预警模型[J].中国安全生产科学技术,2022,18(3):162-167. 被引量：6
5苏利萍.智能化通信电源监控数据采集方法研究[J].通信电源技术,2022,39(8):10-12. 被引量：3
6李思源,刘继辉,刘应波,林鸿佳,王玉真,杨晶津.消费者卷烟抽吸感知综合评价分析[J].中国市场,2022(26):127-133.
7钟磊,冷根.基于神经网络的文本聚类研究[J].信息与电脑,2022,34(11):154-156.
8徐绪堪,印家伟,王晓娇.基于BERT模型的“互联网+政务”群众留言文本热点追踪研究[J].情报杂志,2022,41(9):136-142. 被引量：8
9徐成桂,徐广顺.基于模糊数学理论的高维小样本数据特征分类系统[J].现代电子技术,2022,45(23):166-170. 被引量：1
10李永昌.云计算环境下数据库冗余信息消解方法设计[J].信息技术与信息化,2023(2):81-84. 被引量：3

1郑文靖.基于优化GridSearch-SVM算法的服装版型分类预测研究[J].纺织科技进展,2020(4):48-51. 被引量：2
2王健,罗隆福,邹津海,朱胜蓝,叶威.基于图像识别的高铁接触网紧固件开口销故障分类方法[J].电气化铁道,2020,31(2):45-49. 被引量：2
3薛冰,温克欢,李伟华,张之涵,唐义锋.基于ReliefF与互信息结合的特征评价、筛选的家庭负荷类型辨识方法研究[J].电测与仪表,2020,57(12):38-45. 被引量：1
4黄湘鹏,黄晓刚.一种基于深度学习的无人机识别方法[J].雷达与对抗,2020,40(2):20-25. 被引量：3
5薛瑞,赵荣珍.ReliefF与QPSO结合的故障特征选择算法[J].振动与冲击,2020,39(11):171-176. 被引量：12
6崔腾飞,姬现磊,丁鹏文.基于小波分析与奇异谱分析的RBF神经网络模型预测[J].测绘与空间地理信息,2020,43(6):44-47. 被引量：2
7黄俊,刘小生.基于GS-PSO-SVM模型的边坡稳定性预测模型[J].中国矿业,2020,29(6):87-91. 被引量：12
8左一鹏,陈辉.基于Scikit Learn的SVM分类器算法优化[J].上海电力大学学报,2020,36(3):259-264. 被引量：1
9崔鑫,徐华,宿晨.面向不均衡数据集的过抽样算法[J].计算机应用,2020,40(6):1662-1667. 被引量：9
10宋小锋.基于决策树的空气质量建模[J].电子测试,2020,31(11):67-68. 被引量：1

小型微型计算机系统

2020年第6期

浏览历史

内容加载中请稍等...

基于重采样与特征选择的不均衡数据分类算法被引量：16

参考文献6

二级参考文献44

共引文献148

同被引文献137

引证文献16

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于重采样与特征选择的不均衡数据分类算法 被引量：16

参考文献6

二级参考文献44

共引文献148

同被引文献137

引证文献16

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于重采样与特征选择的不均衡数据分类算法被引量：16