利用近似马尔科夫毯的最大相关最小冗余特征选择算法被引量：13

A Feature Selection Algorithm for Maximum Relevance Minimum Redundancy Using Approximate Markov Blanket

下载PDF

导出

摘要针对高维数据集中冗余特征或无关特征降低机器学习模型分类准确率的问题,提出了一种基于近似马尔科夫毯的特征选择(nmRMR)算法。该算法首先利用最大相关最小冗余的准则进行特征相关性排序;采用近似马尔科夫毯算法对冗余特征或者无关特征进行删除,并最大程度地提高特征之间的相关性从而获得最优特征子集。在UCI的8个公开数据集上对比的实验结果表明:与mRMR算法相比,本文算法所选择出的特征子集数平均减少了6.875个,平均分类准确率提高了0.78%;与FullSet算法相比,本文算法所选择出的特征子集数平均减少了20.56个,平均分类准确率提高了1.88%;与FCBF算法相比,本文算法所选择出的特征子集数平均减少了3.187 5个,平均分类准确率提高了0.825%;本文算法总体优于其他算法。 To solve the problem that redundancy or irrelevant features in high-dimensional datasets reduce the classification accuracy of machine learning model,a feature selection algorithm based on approximate Markov blanket is proposed and named as normal max-relevance and min-redundancy(nmRMR)algorithm.Firstly,the algorithm uses the criteria of maximum relevance and minimum redundancy to perform feature relevance ranking.Then,it adopts the approximate Markov blanket to remove redundant features or irrelevant features,and maximize the correlation between features to obtain the optimal feature subset.Experimental results on UCI’s eight open datasets show that:the proposed nmRMR algorithm achieves on average 6.875,20.56 and 3.187 5 reduction in the selected number of feature subsets,as well as 0.78%,1.88%and 0.825%improvement in the average classification accuracy,compared with the mRMR algorithm,the FullSet algorithm,and the FCBF algorithm,respectively.It is concluded that the proposed nmRMR algorithm is superior to other algorithms.

作者张俐王枞郭文明 ZHANG Li;WANG Cong;GUO Wenming(Key Laboratory of Trustworthy Distributed Computing and Service Ministry of Education, Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区北京邮电大学可信分布式计算与服务教育部重点实验室

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2018年第10期141-145,共5页 Journal of Xi'an Jiaotong University

基金国家科技基础性工作专项资助项目(2015FY111700-6)

关键词特征选择特征相关冗余特征近似马尔科夫毯 feature selection feature relevance redundancy feature approximate Markov blanket

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1马超,陈西宏,徐宇亮,王光明.广义邻域粗集下的集成特征选择及其选择性集成算法[J].西安交通大学学报,2011,45(6):34-39. 被引量：6
2栗茂林,梁霖,王孙安,刘弹.结合交叠区异点统计和相关分析的免疫克隆特征选择方法[J].西安交通大学学报,2012,46(5):50-56. 被引量：2
3崔自峰,徐宝文,张卫丰,徐峻岭.一种近似Markov Blanket最优特征选择算法[J].计算机学报,2007,30(12):2074-2081. 被引量：15
4杨宏晖,王芸,孙进才,戴健,李亚安.融合样本选择与特征选择的AdaBoost支持向量机集成算法[J].西安交通大学学报,2014,48(12):63-68. 被引量：11
5裴晓梅,郑崇勋.基于Fisher判据时频分析的运动相关脑电特征选择及优化[J].西安交通大学学报,2008,42(8):1026-1030. 被引量：5
6崔舒宁,朱丹军,冯博琴,昂正全.结合受控词汇表的生物基因本体标注与分类[J].西安交通大学学报,2008,42(2):171-174. 被引量：3
7朱虎明,焦李成.基于免疫记忆克隆的特征选择[J].西安交通大学学报,2008,42(6):679-682. 被引量：7
8薛峰,周亚东,高峰,刘霁,赵俊舟,党琪.一种突发性热点话题在线发现与跟踪方法[J].西安交通大学学报,2011,45(12):64-69. 被引量：23
9杨宏晖,戴健,孙进才,杜方键,彭圆,李桂娟.用于水声目标识别的自适应免疫特征选择算法[J].西安交通大学学报,2011,45(12):28-32. 被引量：10

二级参考文献101

1杜海峰,公茂果,焦李成,刘若辰.用于高维函数优化的免疫记忆克隆规划算法[J].自然科学进展,2004,14(8):925-933. 被引量：19
2张向荣,焦李成.基于免疫克隆选择算法的特征选择[J].复旦学报（自然科学版）,2004,43(5):926-929. 被引量：23
3詹艳梅,曾向阳,孙进才.基于粗糙集理论的目标特征选择方法[J].自然科学进展,2004,14(12):1483-1487. 被引量：2
4廖广兰,史铁林,姜南,刘世元.基于SOM网络的特征选择技术研究[J].机械工程学报,2005,41(2):46-50. 被引量：7
5杨宏晖,孙进才,袁骏.基于支持向量机和遗传算法的水下目标特征选择算法[J].西北工业大学学报,2005,23(4):512-515. 被引量：19
6梁霖,徐光华.基于克隆选择的粗糙集属性约简方法[J].西安交通大学学报,2005,39(11):1231-1235. 被引量：12
7肖迪,胡寿松.实域粗糙集理论及属性约简[J].自动化学报,2007,33(3):253-258. 被引量：32
8DIETTERICH T G. An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization [J]. Machine Learning, 2000,40(2): 139-158.
9ZHOU Zhihua, WU Jianxin, TANG Wei. Ensembling neural networks: many could be better than all[J]. Artificial Intelligence, 2002, 137(1/2): 239-263.
10KAMINSKA B, ARI K, BELL I, et al. Analog and mixed-signal benchmark circuits: first release [C]//Proceedings of the 1997 IEEE International Conference on Test. Piscataway, NJ, USA. IEEE, 1997: 183- 190.

共引文献71

1朱小培,位云朋,闫李,韩茜茜.基于多模态进化计算的特征选择策略[J].中原工学院学报,2021,32(4):71-76.
2王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
3翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
4任永功,林楠.DPFS:一种基于动态规划的文本特征选择算法[J].计算机科学,2009,36(6):188-191. 被引量：2
5豆增发,高琳.应用粒子群优化-条件随机域的文本生物实体识别[J].西安交通大学学报,2010,44(12):38-42. 被引量：2
6林伟.一种基于成词概率的贝叶斯垃圾邮件过滤方法[J].计算机技术与发展,2011,21(9):242-244.
7郑丽萍,李光耀,姜华.口腔颌面疾病辅助诊断系统的设计与实现[J].计算机工程,2011,37(21):279-281. 被引量：2
8张逸石,陈传波.基于最小联合互信息亏损的最优特征选择算法[J].计算机科学,2011,38(12):200-205. 被引量：9
9杨宏晖,戴健,孙进才,杜方键,彭圆,李桂娟.用于水声目标识别的自适应免疫特征选择算法[J].西安交通大学学报,2011,45(12):28-32. 被引量：10
10豆增发,高琳.利用膜粒子群优化和信息熵的医学文本特征选择[J].西安交通大学学报,2012,46(4):45-51. 被引量：4

同被引文献109

1Shuang Wu,Le Zheng,Wei Hu,Rui Yu,Baisi Liu.Improved Deep Belief Network and Model Interpretation Method for Power System Transient Stability Assessment[J].Journal of Modern Power Systems and Clean Energy,2020,8(1):27-37. 被引量：19
2韩水保,汤卫东,张令涛,周联友,于宏文.支撑大电网调控系统无差别浏览的人机云终端及关键技术[J].电网技术,2020,44(2):420-428. 被引量：5
3陶洪铸,翟明玉,许洪强,季学纯,刘金波,徐丽燕.适应调控领域应用场景的人工智能平台体系架构及关键技术[J].电网技术,2020,44(2):412-419. 被引量：36
4李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：78
5张小强,吕赛英,成孝义.论科技期刊编辑与作者权利的界限及其统一性[J].编辑学报,2005,17(1):10-12. 被引量：14
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
7叶志伟,郑肇葆,万幼川,虞欣.基于蚁群优化的特征选择新方法[J].武汉大学学报（信息科学版）,2007,32(12):1127-1130. 被引量：23
8崔自峰,徐宝文,张卫丰,徐峻岭.一种近似Markov Blanket最优特征选择算法[J].计算机学报,2007,30(12):2074-2081. 被引量：15
9邵东国,王忠静,李元红,张新民.干旱内陆河流水质预测人工神经网络模型研究[J].灌溉排水,1999,18(4):7-9. 被引量：10
10张永波,游录金,陈杰新.基于模拟退火的多标记数据特征选择[J].计算机工程与设计,2011,32(7):2494-2496. 被引量：6

引证文献13

1李郅琴,杜建强,聂斌,熊旺平,黄灿奕,李欢.特征选择方法综述[J].计算机工程与应用,2019,55(24):10-19. 被引量：122
2杜秀杰.编辑在处理稿件过程中的界限意识[J].编辑学报,2019,31(6):683-684. 被引量：2
3何为,唐智和,吴甭,栾辉,张晶晶,陈冲,梁华庆.基于LSTM的催化裂化装置NOx排放预测模型及应用[J].西安石油大学学报（自然科学版）,2020,35(4):108-113. 被引量：7
4盖晓平,王冬青,赵喜兰,高峰,林昌年.利用概率统计特性的保护告警信息特征降维方法[J].电网技术,2021,45(5):2017-2024. 被引量：6
5金秀章,李京.基于互信息PSO-LSSVM的SO_(2)浓度预测[J].计量学报,2021,42(5):675-680. 被引量：9
6庞玉林,李喜旺.基于SU和AMB的网络流量特征选择算法[J].计算机系统应用,2022,31(4):281-287. 被引量：1
7殷柯欣,谢爱锋,翟峻仁.近似马尔科夫毯混合式特征选择[J].长春工业大学学报,2022,43(1):58-64.
8金秀章,李京.基于互信息PSO-LSTM的SO_(2)浓度预测[J].控制工程,2022,29(11):1928-1932. 被引量：7
9刘强,降爱莲.基于交互信息的两阶段特征选择算法[J].计算机工程与设计,2023,44(1):125-132. 被引量：1
10赵冬梅,谢家康,杜泽航,魏中庆,田世芳,徐咏盛.基于统计信息系数和Wasserstein生成对抗网络的风火系统暂态特征选择与两阶段稳定评估[J].电力自动化设备,2023,43(4):106-113. 被引量：3

二级引证文献159

1赵珂雨,陈婉莹.一种基于stacking集成学习的DGA域名检测方法[J].数据通信,2020(6):19-24.
2曹长玲,翁郁华,李晓琼,王超蕾.基于机器学习的糖尿病视网膜病变合并症风险预测模型[J].生命科学仪器,2023,21(2):56-63. 被引量：1
3刘猛猛,徐国天.改进鲸鱼优化算法在入侵检测中的应用研究[J].网信军民融合,2022(7):48-56. 被引量：2
4徐畅,丁俊琦,赵聃桐,乔岩,张领先.基于LightGBM和处方数据的番茄病害诊断方法[J].农业机械学报,2022,53(9):286-294. 被引量：5
5孔若琪,崔琳,董勇.机器学习算法在脱硫系统智能运行及优化中的应用[J].洁净煤技术,2023,29(S02):406-414.
6何为,唐智和,吴甭,栾辉,张晶晶,陈冲,梁华庆.基于LSTM的催化裂化装置NOx排放预测模型及应用[J].西安石油大学学报（自然科学版）,2020,35(4):108-113. 被引量：7
7彭颖聪.试论催化裂化装置腐蚀原因分析及防护建议[J].石油石化物资采购,2020(18):70-70.
8范琴,刘盾,叶晓庆.基于序贯三支决策的代价敏感文本情感分析方法[J].模式识别与人工智能,2020,33(8):732-742. 被引量：9
9张晓雪,杨志辉,曹珊珊,司永胜.基于支持向量机的甘薯冷害光谱检测方法[J].农业机械学报,2020,51(S02):471-477. 被引量：2
10林卫明,曹杰.基于超参数优化和集成算法的个人信用评估研究[J].徐州工程学院学报（自然科学版）,2020,35(4):67-74. 被引量：1

1刘玉红,颜红梅.基于Retinex理论的眼底彩色图像增强算法[J].中国生物医学工程学报,2018,37(3):257-265. 被引量：6

西安交通大学学报

2018年第10期

浏览历史

内容加载中请稍等...

利用近似马尔科夫毯的最大相关最小冗余特征选择算法被引量：13

参考文献9

二级参考文献101

共引文献71

同被引文献109

引证文献13

二级引证文献159

相关作者

相关机构

相关主题

浏览历史

利用近似马尔科夫毯的最大相关最小冗余特征选择算法 被引量：13

参考文献9

二级参考文献101

共引文献71

同被引文献109

引证文献13

二级引证文献159

相关作者

相关机构

相关主题

浏览历史

利用近似马尔科夫毯的最大相关最小冗余特征选择算法被引量：13