基于特征选择的高维数据集成学习方法研究被引量：3

Research on Ensemble Learning Method Based on Feature Selection for High-dimensional Data

下载PDF

导出

摘要从集成学习的预测误差分析和偏差-方差分解可以发现使用有限的、具有正确率和差异性的基学习器进行集成学习,具有更好的泛化精度。利用信息熵构建了两阶段的特征选择集成学习方法,第一阶段先按照相对分类信息熵构建精度高于0.5的基特征集B;第二阶段先在B的基础上按互信息熵标准评判独立性,运用贪心算法构建独立的特征子集,再运用Jaccard系数评价特征子集间多样性,选取多样性的独立特征子集并构建基学习器。通过数据实验分析发现,该优化方法的执行效率和测试精度优于普通Bagging方法,在多分类的高维数据集上优化效果更好,但不适用于二分类问题。 From the prediction error analysis and deviation-variance decomposition of ensemble learning,it can be found that the use of limited,accurate and differentiated basic learners for ensemble learning has better generalization accuracy.A two-stage feature selection ensemble learning method is constructed by using information entropy.In the first stage,the basic feature set B with accuracy higher than 0.5 is constructed according to the relative classification information entropy.In the second stage,independent feature subset is constructed by greedy algorithm and mutual information entropy criterion on the basis of B.Then Jaccard coefficient is used to evaluate the diversity among feature subsets,and the independent feature subset of diversity is selected and the basic learner is constructed.Through the analysis of data experiments,it is found that the efficiency and accuracy of the optimization method are better than the general Bagging method,especially in multi-classification high-dimensional datasets,the optimization effect is good,but it is not suitable for the two-classification problem.

作者周钢郭福亮 ZHOU Gang;GUO Fu-liang(Naval University of Engineering,Wuhan 430033,China)

机构地区海军工程大学

出处《计算机科学》 CSCD 北大核心 2021年第S01期250-254,共5页 Computer Science

关键词集成学习多样性特征选择信息熵高维数据 Ensemble learning Diversity Feature selection Information entropy High-dimensional data

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1郭福亮,周钢.集成学习中预测精度的影响因素分析[J].兵工自动化,2019,38(1):78-83. 被引量：4
2张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410. 被引量：137
3尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报（自然科学版）,2014,53(5):59-65. 被引量：32
4徐继伟,杨云.集成学习方法:研究综述[J].云南大学学报（自然科学版）,2018,40(6):1082-1092. 被引量：124
5姜正申,刘宏志,付彬,吴中海.集成学习的泛化误差和AUC分解理论及其在权重优化中的应用[J].计算机学报,2019,42(1):1-15. 被引量：16
6唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
7吕子昂,罗四维,杨坚,刘蕴辉,邹琪.模型的固有复杂度和泛化能力与几何曲率的关系[J].计算机学报,2007,30(7):1094-1103. 被引量：4
8张晶,李裕,李培培.基于随机子空间的多标签类属特征提取算法[J].计算机应用研究,2019,36(2):339-343. 被引量：13
9赵云,刘惟一.基于遗传算法的特征选择方法[J].计算机工程与应用,2004,40(15):52-54. 被引量：16
10翟俊海,刘博,张素芳.基于相对分类信息熵的进化特征选择算法[J].模式识别与人工智能,2016,29(8):682-690. 被引量：7

二级参考文献166

1张沧生,崔丽娟,杨刚,倪志宏.集成学习算法的比较研究[J].河北大学学报（自然科学版）,2007,27(5):551-554. 被引量：6
2李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
3杨利英,覃征,王向华.多分类器融合实现机型识别[J].计算机工程与应用,2004,40(15):10-12. 被引量：6
4蒋艳凰,杨学军.多层组合分类器研究[J].计算机工程与科学,2004,26(6):67-69. 被引量：8
5唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
6李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
7傅强,胡上序,赵胜颖.Clustering-based selective neural network ensemble[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(5):387-392. 被引量：2
8谷雨,徐宗本,孙剑,郑锦辉.基于PCA与ICA特征提取的入侵检测集成分类系统[J].计算机研究与发展,2006,43(4):633-638. 被引量：25
9王丽丽,苏德富.基于群体智能的选择性决策树分类器集成[J].计算机技术与发展,2006,16(12):55-57. 被引量：3
10陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96

共引文献479

1夏润亮,刘启兴,李涛,刘晓燕,高云飞,吴丹.基于集成学习的黄河未控区径流预测研究[J].应用基础与工程科学学报,2020(3):740-749. 被引量：7
2田之魁,王东军,李生启,关媛媛,孙璇,朱青青,王泓午.一种糖尿病足Wagner分级的舌图像识别方法[J].世界科学技术-中医药现代化,2023,25(4):1442-1446. 被引量：2
3冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
4武大硕,张传雷,陈佳,向启怀.基于遗传算法改进LSTM神经网络股指预测分析[J].计算机应用研究,2020,37(S01):86-87. 被引量：14
5王茂光,冀昊悦,王天明.一种基于层次聚类和模拟退火的选择性集成算法的风控模型研究[J].计算机科学,2022,49(S02):201-207. 被引量：1
6张丽颖,杨若瑾.基于机器学习的个人贷款违约预测模型的应用研究[J].金融监管研究,2022(6):46-59. 被引量：4
7崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：28
8叶东毅,陈昭炯.一个新的二进制可辨识矩阵及其核的计算[J].小型微型计算机系统,2004,25(6):965-967. 被引量：49
9高琰,谷士文,唐琎,蔡自兴.一种基于互信息的模糊聚类集成算法[J].小型微型计算机系统,2007,28(6):1068-1071. 被引量：2
10孙瑞霞,汪亚明,黄文清.基于GA的2DPCA在人脸识别中的应用[J].计算机工程与设计,2007,28(10):2398-2400. 被引量：4

同被引文献7

1王琪,林汉成,徐纪茹,黄平,王振原.死亡时间推断最新研究与展望[J].法医学杂志,2018,34(5):459-467. 被引量：23
2杨安顺,权国林,高云贵,汪君,隋鹏,黎光锋,龙定峰,林少磊,吴锡福,罗斌.尸体肛温与死亡时间推断[J].法医学杂志,2019,35(6):726-732. 被引量：2
3杜铁帅,孟西麦蒙,叶星,涂春艳,金恺迪,陈邵文,刘宁国,谢建辉,沈忆文.代谢组学技术在法医病理学中的研究进展[J].法医学杂志,2020,36(3):347-353. 被引量：6
4董明刚,张伟,敬超.面向不平衡数据流的动态权重集成分类算法[J].小型微型计算机系统,2020,41(8):1649-1655. 被引量：5
5夏平凡,倪志伟,朱旭辉,倪丽萍.基于双错测度的极限学习机选择性集成方法[J].电子与信息学报,2020,42(11):2756-2764. 被引量：4
6方世勇,戴鑫华,肖莉,邹静,杨林,叶懿,廖林川.基于GC-MS代谢组学推断不同环境温度下窒息死大鼠的早期死亡时间[J].法医学杂志,2020,36(6):741-748. 被引量：2
7郭傅傲,刘大明,唐飞.基于LSSVR和LSTM的多模型优化集成负荷预测[J].计算机仿真,2021,38(1):344-349. 被引量：3

引证文献3

1曹洁,谷祯,刘明锋,党丽虹,杜秋香,李宇,孙俊红.基于^(1)H NMR的代谢组学技术在死亡时间推断中的应用研究[J].分析化学,2022,50(10):1551-1559.
2魏军胜,刘琰,陈静,段顺然.一种自适应权重的多分类通用集成方法[J].计算机科学,2022,49(11):212-220. 被引量：2
3柳京秀,梅颖,卢诚波.基于差异指标的概念漂移数据流集成分类仿真[J].计算机仿真,2023,40(7):311-315.

二级引证文献2

1邵玉琢,汪紫情,计芯蕊,陈奕恒,李浩,薛朝辉.基于GRU-BiLSTM的光伏发电中长期功率预测[J].自动化应用,2023,64(15):63-66.
2蒲涛,王妮,汤连盟,龚育红,王安.自适应集成的高分辨率树种遥感分类[J].遥感信息,2023,38(6):139-147.

1张春森,刘恒恒,葛英伟,史书,张觅.多尺度空洞卷积金字塔网络建筑物提取[J].西安科技大学学报,2021,41(3):490-497. 被引量：5
2廖富强,钟玉婷,万智巍,贾玉连,曹向明,张智,蒋梅鑫.赣江尾闾区土壤质地的分形结构、空间异质性及指示意义[J].土壤通报,2020,51(6):1386-1393.
3孟欠欠,沈龙凤,李梦雯,李晓.结合子空间Laplacian正则项的迁移联合匹配方法[J].新余学院学报,2021,26(3):12-18.
4刘洋,谢栌乐,汪寿阳,孙少龙.基于EEMD-AWNN集成学习的中国经常账户预测研究[J].系统工程理论与实践,2021,41(5):1240-1251. 被引量：12

计算机科学

2021年第S01期

浏览历史

内容加载中请稍等...

基于特征选择的高维数据集成学习方法研究被引量：3

参考文献12

二级参考文献166

共引文献479

同被引文献7

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于特征选择的高维数据集成学习方法研究 被引量：3

参考文献12

二级参考文献166

共引文献479

同被引文献7

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于特征选择的高维数据集成学习方法研究被引量：3