面向不平衡问题的集成特征选择被引量：5

Ensemble learning based feature selection for imbalanced problems

导出

摘要传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。 The traditional feature selection methods are basically aimed for getting the optimal accuracy without full consideration of the data distribution,which can not achieve promising results on imbalanced datasets.A new feature selection method was proposed based on the data distribution modification for imbalanced data sets.This approach could modify data distribution many times by sampling with replacement.The instances of large classes were equal to the minor class samples in each new dataset.Finally,the final selected features were generated by voting mechanism for ensemble learning,which could combine the selected features by receiving more votes than half from all the new training datasets.Experimental results on several UCI datasets showed that the proposed method was an effective feature selection approach for imbalance problems.

作者李霞王连喜蒋盛益

机构地区广东外语外贸大学信息学院广东科贸职业学院商贸系

出处《山东大学学报（工学版）》 CAS 北大核心 2011年第3期7-11,22,共6页 Journal of Shandong University（Engineering Science）

基金国家自然科学基金资助项目(61070061) 广东省自然科学基金资助项目(9151026005000002) 广东省高层次人才资助项目

关键词不平衡数据集特征选择集成学习抽样 imbalanced data feature selection ensemble learning sampling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1YOON K, KWEK S. A data reduction approach for resolving the imbalanced data issue in functional genomics [ J ]. Neural Comput & Applic, 2007 (16) :295-306.
2刘天羽,李国正,尤鸣宇.不均衡故障诊断数据上的特征选择[J].小型微型计算机系统,2009,30(5):924-927. 被引量：6
3ZHENG Zhaohui, WU Xiaoyun, ROHINI Srihari. Feature selection for text categorization on imbalanced data [J]. SIGKDD Explorations, 2004, 6( 1 ) :80-89.
4靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
5徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
6王法波,许信顺.文本分类中一种新的特征选择方法[J].山东大学学报（工学版）,2010,40(4):8-11. 被引量：3
7林智勇,郝志峰,杨晓伟.若干评价准则对不平衡数据学习的影响[J].华南理工大学学报（自然科学版）,2010,38(4):147-155. 被引量：23
8JIANG Shengyi, WANG Lianxi. Unsupervised feature selection based on clustering [ C ]//Proceedings of IEEE Fifth International Conference on Bio-Inspired Computing: Theories and Applications (BIC-TA). Changsha: IEEE, 2010: 263-270.
9王连喜,蒋盛益.面向分类特征的无监督特征选择方法研究[J].小型微型计算机系统,2011,32(1):47-50. 被引量：5
10尤鸣宇,陈燕,李国正.不均衡问题中的特征选择新算法:Im-IG[J].山东大学学报（工学版）,2010,40(5):123-128. 被引量：9

二级参考文献83

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
3刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
4赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
5李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
7刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
8李荣陆.中文文本分类语料[EB/OL].[2008-01-20].http://www.nip.org.cn/docs/doclist.php.
9Ezawa K J,Sngh M,Norton S W.Learning goal oriented bayesian networks for telecommunications management[C].In Proceedings of the 13th International Conference on Machine Learning.San Fransisco:Morgan Kaufmann,1996,139-147.
10Chawlanv,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Joumal of Artificial Intelligence Research,2002,16:321-357.

共引文献143

1高峰,张永奎.基于最大熵模型的不良文本识别[J].电脑开发与应用,2009,22(1):6-8.
2靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
3汪成亮,张硕果.通过确定邻近区域改进KNN文本分类[J].计算机系统应用,2009,18(11):56-59. 被引量：1
4黄秀丽,王蔚.一种改进的文本分类特征选择方法[J].计算机工程与应用,2009,45(36):129-130. 被引量：10
5张永奎,高峰.一种不良文本识别特征选择方法[J].计算机工程与应用,2010,46(2):129-131.
6易军凯,孟庆庆.基于意群的计算机证据倾向性研究[J].北京化工大学学报（自然科学版）,2010,37(1):126-129. 被引量：4
7白凤凤.基于不平衡数据集的文本分类技术研究[J].电脑编程技巧与维护,2010(6):21-22. 被引量：1
8刘同来,蒋华,张万桢.一种基于数据库去除网页噪音的有效方法[J].桂林电子科技大学学报,2010,30(1):54-58.
9蒋华,刘同来,张万桢.基于差异频度的类别空间模型的二值分类[J].计算机系统应用,2010,19(4):81-84.
10郑敏姜.基于数据立方体的特征提取方法[J].福建电脑,2010,26(3):18-20.

同被引文献48

1李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
2李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
3王晓丹,孙东延,郑春颖,张宏达,赵学军.一种基于AdaBoost的SVM分类器[J].空军工程大学学报（自然科学版）,2006,7(6):54-57. 被引量：22
4Opitz D.Feature selection for Ensembles[C]// Proceedings of American Association for Artificial Intelligence.1999:379-384.
5Ho TK.The random subspace method for constructing derision forests[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.
6Brylla R,Osunab R G,Queka F.Attribute Bagging:Improving accuracy of classifier ensembles by using random feature subsets[J].Pattern Recognition,2003,36 (6):1291-1302.
7Oliveira L S,Morita M,Sabourin R.Multi-Objective Genetic Al-gorithm Create Ensemble of Classifiers[C]// Pros OFEMO 2005.Guanajuato,Mexico,2005:592-606.
8Dietterich T G.Ensemble methods in machine learning[C]//Proc.The 1st Int ' 1 Workshop on Multiple Classifier Systems (MCS 2000).Italy,LNCS,Springer,2000:1-15.
9Kuncheva L I,Skurichina M,Duin R P W.An experimental study on diversity for bagging and boosting with linear classifiers[J].Information Fusion,2002,3:245-258.
10Dietterich T G.An experimental comparison of three methods for constructing ensembles of decision trees:bagging,boosting,and randomization[J].Machine Learning,2000,40:139-158.

引证文献5

1姚旭,王晓丹,张玉玺,薛爱军.基于正则化互信息和差异度的集成特征选择[J].计算机科学,2013,40(6):225-228. 被引量：3
2尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报（自然科学版）,2014,53(5):59-65. 被引量：33
3魏波,张文生,李元香,夏学文,吕敬钦.一种选择特征的稀疏在线学习算法[J].山东大学学报（工学版）,2017,47(1):22-27.
4余自林,张晓龙.基于有效特征选择的高价值移动通信用户预测方法[J].武汉科技大学学报,2017,40(2):149-154. 被引量：5
5谢娟英,王明钊,周颖,高红超,许升全.非平衡基因数据的差异表达基因选择算法研究[J].计算机学报,2019,42(6):1232-1251. 被引量：11

二级引证文献52

1田之魁,王东军,李生启,关媛媛,孙璇,朱青青,王泓午.一种糖尿病足Wagner分级的舌图像识别方法[J].世界科学技术-中医药现代化,2023,25(4):1442-1446. 被引量：2
2孟军,尉双云.基于近邻传播聚类的集成特征选择方法[J].计算机科学,2015,42(3):241-244. 被引量：6
3王成,郭飞,郑黎晓,赖雄鸣.改进D-S证据理论的多分类器决策层融合系统[J].小型微型计算机系统,2015,36(5):1138-1141. 被引量：1
4左军,周灵,孙亚民.分级在线自组织学习的GD-FNN算法研究[J].中山大学学报（自然科学版）,2015,54(3):26-29.
5罗超.面向高维数据的随机森林算法优化探讨[J].商,2016,0(4):207-207. 被引量：1
6阚红星,张璐瑶,董昌武.一种2型糖尿病中医证型的舌图像识别方法[J].中国生物医学工程学报,2016,35(6):658-664. 被引量：31
7余自林,张晓龙.基于有效特征选择的高价值移动通信用户预测方法[J].武汉科技大学学报,2017,40(2):149-154. 被引量：5
8李巧,周双娥,杨晶.模型融合在用户续购行为分析中的应用[J].小型微型计算机系统,2017,38(10):2231-2235. 被引量：2
9杨杰明,高聪,曲朝阳,阚中锋,高冶,常成.基于代价敏感的随机森林不平衡数据分类算法[J].科学技术与工程,2018,18(6):285-290. 被引量：9
10赵小强,张露.基于SVM的高维不平衡数据集分类算法[J].南京大学学报（自然科学版）,2018,54(2):452-461. 被引量：3

1季薇,李云.基于局部能量的集成特征选择[J].南京大学学报（自然科学版）,2012,48(4):499-503. 被引量：2
2鲍捷,杨明,刘会东.高维数据的1-范数支持向量机集成特征选择[J].计算机科学与探索,2012,6(10):948-953. 被引量：4
3姚旭,王晓丹,张玉玺,薛爱军.基于正则化互信息和差异度的集成特征选择[J].计算机科学,2013,40(6):225-228. 被引量：3
4马超,陈西宏,徐宇亮,王光明.广义邻域粗集下的集成特征选择及其选择性集成算法[J].西安交通大学学报,2011,45(6):34-39. 被引量：6
5孙亮,韩崇昭,沈建京,戴宁.集成特征选择的广义粗集方法与多分类器融合[J].自动化学报,2008,34(3):298-304. 被引量：10
6季金胜,郭艺友,霍宏,方涛.考虑稳定性要求的特征选择方法[J].高技术通讯,2014,24(11):1203-1209.
7孙建文,刘三(女牙),杨宗凯,王佩.采用集成特征选择的网络书写纹识别研究[J].小型微型计算机系统,2012,33(5):1108-1112.
8孟军,尉双云.基于近邻传播聚类的集成特征选择方法[J].计算机科学,2015,42(3):241-244. 被引量：6
9周丰,王未央.基于最小最大模块化集成特征选择的改进[J].计算机技术与发展,2016,26(9):149-153. 被引量：2
10周国静,李云.基于最小最大策略的集成特征选择[J].南京大学学报（自然科学版）,2014,50(4):457-465. 被引量：7

山东大学学报（工学版）

2011年第3期

浏览历史

内容加载中请稍等...

面向不平衡问题的集成特征选择被引量：5

参考文献18

二级参考文献83

共引文献143

同被引文献48

引证文献5

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

面向不平衡问题的集成特征选择 被引量：5

参考文献18

二级参考文献83

共引文献143

同被引文献48

引证文献5

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

面向不平衡问题的集成特征选择被引量：5