直接验证的封装式特征选择方法被引量：7

An Improved Wrapper Method for Feature Selection

下载PDF

导出

摘要封装式特征选择算法可以准确地选择出有价值的特征,但是其评价过程伴随着极大的时间复杂度。为此,该文针对封装式特征选择算法中时间复杂度最高的交叉验证评价环节,提出了可以替代交叉验证的特征集直接评价方法——LW测量。进一步,将该方法与封装式特征选择算法中常用的序列搜索策略相结合,提出了改进的序列前(后)向搜索特征选择算法SFS-LW(SBS-LW)。通过在2个UCI数据集上与传统的基于交叉验证的封装式特征选择算法进行3组对比实验,结果表明该改进特征选择方法具有与传统方法近似的分类精度,但在时间复杂度上则有数倍的改善。 The wrapper feature selection methods can achieve high classification accuracy, however, its cross-validation scheme in evaluation phase is very expensive in terms of computing resource consumption. In this paper, we propose a new statistical LW-measure which can replace the cross-validation scheme to evaluate feature sets. Furthermore, two improved wrapper algorithms, i.e. sequential forward selection-LW （SFS-LW） and sequential backward selection-LW （SBS-LW）, are presented for feature selection, on the basis of combination of LW-measure and sequence search algorithms. Three groups of experiments conducted on two University of California, Irvine （UCI） datasets show that the proposed algorithms can not only obtain the similar classification accuracy to that of the traditional wrapper methods, but also are nearly ten times faster than the traditional ones.

作者汪文勇刘川赵强沈晓明丘晓彤

机构地区电子科技大学计算机科学与工程学院国网浙江省电力公司电力科学研究院电子科技大学格拉斯哥学院

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第4期607-615,共9页 Journal of University of Electronic Science and Technology of China

基金教育部-中国移动科研基金(MCM20130661) 计算机网络及应用四川省工程实验室基金(20160001)

关键词特征选择序列搜索算法分类时间复杂度封装式方法 feature selection sequence search algorithm text classification time complexity wrapper methods

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献39

1GUYON I, ELISSEEFF A. An introduction to variable and feature selection[J]. J Mach Learn Res, 2003, 3: 1157-1182.
2ABDI H, WILLIAMS. "Principal component analysis" Wiley interdisciplinary reviews[J]. Computational Statistics, 2010, 2: 433-459.
3KOHAVI R, JOHN G H. Wrappers for feature subset selection[J]. Artiflntell, 1997, 97: 273-324.
4JUHA R. Overfitting in making comparisons between variable selection method[J]. Journal of Machine Learning Research, 2003, 3: 1371-1382.
5LIU Yi, ZHENG Yuan. FS_SFS: a novel feature selection method for support vector machines[J]. Pattern Recognit, 2006, 39: 1333-1345.
6LIU Huan, SETIONO R. A probabilistic approach to feature selection: a filter solution[C]//Proceedings of the Thirteenth International Conference on Machine Learning. Bari: [s.n.], 1996, 319-327.
7CHEN W, CHANG X, WANG H, et al. Automatic word clustering for text categorization using global information [C]//Asia Information Retrieval Syrup. Beijing: Springer- Verlag, 2004, 1-11.
8XIONG M, FANG Z, ZHAO J. Biomarker identification by feature wrappers[J]. Genome Res, 2001, lh 1878-1187.
9CHEN Gang, CHEN Jin. A novel wrapper method for feature selection and its applications[J]. Neurocomputing, 2015, 159: 219-226.
10PUDIL P, NOVOVICOVA N, KITTLER J. Floating search methods[J]. Pattern Recognition Letters, 1994, 15: 1119-1125.

同被引文献52

1张丽新,王家钦,赵雁南,杨泽红.机器学习中的特征选择[J].计算机科学,2004,31(11):180-184. 被引量：18
2杨智君,田地,马骏骁,隋欣,周斌.入侵检测技术研究综述[J].计算机工程与设计,2006,27(12):2119-2123. 被引量：45
3朱文锋,晏峻峰,黄碧群.贝叶斯网络在中医证素辨证体系中的应用[J].中西医结合学报,2006,4(6):567-571. 被引量：46
4Jinkun LIU,Fuchun SUN.A novel dynamic terminal sliding mode control of uncertain nonlinear systems[J].控制理论与应用（英文版）,2007,5(2):189-193. 被引量：17
5张丽伟,段禅伦,熊志伟,吴昊.朴素贝叶斯方法在中医证候分类识别中的应用研究[J].内蒙古大学学报（自然科学版）,2007,38(5):568-571. 被引量：13
6张宇龙,刘强,高颖,季梁.贡献度与证候特征选择[J].辽宁中医杂志,2008,35(3):354-355. 被引量：4
7钟颖,胡雪蕾,陆建峰.基于关联规则和决策树的中医胃炎诊断分析[J].中国中医药信息杂志,2008,15(8):97-99. 被引量：25
8Subramanian Appavu Alias Balamurugan,Ramasamy Rajaram.Effective and Efficient Feature Selection for Large-scale Data Using Bayes' Theorem[J].International Journal of Automation and computing,2009,6(1):62-71. 被引量：7
9孙继佳,苏式兵,陆奕宇,刘平.基于粗糙集与支持向量机的中医辨证数据挖掘方法研究[J].数理医药学杂志,2010,23(3):261-265. 被引量：15
10林闯,李寅,万剑雄.计算机网络服务质量优化方法研究综述[J].计算机学报,2011,34(1):1-14. 被引量：102

引证文献7

1雷海锐,高秀峰,刘辉.基于机器学习的混合式特征选择算法[J].电子测量技术,2018,41(16):42-46. 被引量：7
2佟彤,罗森林,潘丽敏,张铁梅.基于深度森林的量表数据挖掘方法[J].电子设计工程,2020,28(13):88-91. 被引量：4
3沈微微,李颖,杨志豪,王祥力,叶轩.防止过拟合的属性约简[J].计算机应用研究,2020,37(9):2665-2668. 被引量：5
4何红艳,黄国言,张炳,陈瑜.基于多种特征选择策略的入侵检测模型研究[J].信息安全研究,2021,7(3):225-232. 被引量：9
5陈瑞,刘璐,张春柯,王忆勤,燕海霞,郭睿.问诊症状特征选择方法[J].中华中医药杂志,2021,36(4):2161-2164. 被引量：5
6潘丽敏,佟彤,罗森林,秦枭喃.融合子集特征级联预学习的封装方法研究[J].北京理工大学学报,2021,41(11):1201-1206.
7李志峰,高玉琢.基于机器学习的混合级联网络入侵检测方法[J].无线互联科技,2022,19(13):18-20. 被引量：2

二级引证文献32

1杨启城,温川飙,周一博,杨涛,朱峻莹,罗基,陈菊.用于辅助中医诊断的居家健康监测设备多节点数据融合方式[J].世界科学技术-中医药现代化,2024,26(5):1344-1353.
2常梦容,王海瑞,肖杨.mRMR特征筛选和随机森林的故障诊断方法研究[J].电子测量与仪器学报,2022,36(3):175-183. 被引量：5
3张会清,牛铮.基于线性判别分析和梯度提升决策树的WLAN室内定位算法[J].仪器仪表学报,2018,39(12):136-143. 被引量：14
4吴清寿,刘长勇,林丽惠.融合序列后向选择与支持向量机的混合式特征选择算法[J].计算机系统应用,2019,28(7):174-179. 被引量：5
5李光华,李俊清,张亮,辛衍森,邓华伟.一种融合蚁群算法和随机森林的特征选择方法[J].计算机科学,2019,46(S11):212-215. 被引量：22
6董纪阳.基于决策树自动化特征选择的基金客户流失预测研究——后疫情时代下的思考[J].山东社会科学,2020(9):74-80. 被引量：4
7李瑞津,刘斌,张学敏,舒征宇.基于改进LSTM的变电站铅酸电池寿命预测[J].电池,2020,50(6):560-564. 被引量：5
8孙琛.基于人工智能的人力资源数据整合系统[J].自动化与仪器仪表,2021(9):161-164. 被引量：3
9王萧萧,王亭雯,马玉玲,范佳奕,崔超然.基于深度森林的P2P网贷借款人信用风险评估方法[J].计算机科学,2021,48(S02):429-434. 被引量：4
10王家宝,缪祥华.利用麻雀搜索算法优化深度置信网络的入侵检测研究[J].化工自动化及仪表,2022,49(2):192-196. 被引量：3

1姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：250
2徐巍,谭德荣,文昌俊.测控系统软件质量模型及评价[J].计算机测量与控制,2005,13(8):858-859. 被引量：4
3王建梅.“高中信息技术”网络考试系统的设计与开发[J].网友世界,2014(8):13-13.
4李彬彬,王凌,郑大钟.基于插值评价的遗传算法及其在参数估计中的应用[J].化工自动化及仪表,2004,31(6):14-17. 被引量：2
5朱虎明,焦李成.并行免疫克隆特征选择算法[J].西安电子科技大学学报,2008,35(5):853-857. 被引量：5
6林棋,张宏,李千目.一种基于MA-LSSVM的封装式特征选择算法[J].南京理工大学学报,2016,40(1):10-16. 被引量：7
7叶吉祥,龚希龄.一种快速的Wrapper式特征子集选择新方法[J].长沙理工大学学报（自然科学版）,2010,7(4):69-73. 被引量：8
8吴启迪,马玉敏,李莉,乔非.数据驱动下的半导体生产线动态调度方法[J].控制理论与应用,2015,32(9):1233-1239. 被引量：12
9胡改蝶,樊孝仁,崔艺馨.文本分类中基于改进特征选择方法的研究[J].计算机与数字工程,2016,45(7):1290-1292. 被引量：1
10许占文,王鹤翔,张锦.一种神经网络和模式匹配相结合的入侵检测系统[J].沈阳工业大学学报,2007,29(3):336-339. 被引量：2

电子科技大学学报

2016年第4期

浏览历史

内容加载中请稍等...

直接验证的封装式特征选择方法被引量：7

参考文献39

同被引文献52

引证文献7

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

直接验证的封装式特征选择方法 被引量：7

参考文献39

同被引文献52

引证文献7

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

直接验证的封装式特征选择方法被引量：7