一种基于信息增益及遗传算法的特征选择算法被引量：18

Feature Selection Based on Information Gain and GA

下载PDF

导出

摘要特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。 Feature selection is one of the important problems in the pattern recognition and data mining areas. For highdimensional data, feature selection not only can improve the accuracy and efficiency of classification, but also can discover informative feature subset. This paper proposes a new feature selection method combining filter and wrapper models, which first filters features by feature partition based on information gain, and realizes the near optimal feature subset search on the compact representative feature subset by genetic algorithm; and the feature subset is evaluated by the classification inaccuracy of the perceptron model. The experiments show that the proposed algorithm can find the feature subsets with good linear separability, which results in the low-dimensional data and the good classification accuracy.

作者任江涛孙婧昊黄焕宇印鉴

机构地区中山大学计算机科学系

出处《计算机科学》 CSCD 北大核心 2006年第10期193-195,251,共4页 Computer Science

基金国家自然科学基金资助(60573097) 广东省自然科学基金资助(05200302 04300462)。

关键词特征选择信息增益遗传算法 Feature selection, Information gain, GA

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1John G H,Kohavi R,Pfleger K.Irrelevant Features and the Subset Selection Problem.In:Proc.of the Eleventh Intl.Conf.on Machine Learning,1994.121～129
2Kohavi R,John G H.Wrappers for feature subset selection.Artificial Intelligence,1997,97 (1-2):273～324
3Liu Huan,Yu Lei.Toward Integrating Feature Selection Algorithms for Classification and Clustering.IEEE Transactions on Knowledge and Data Engineering,2005,17(5):491～502
4Yang J,Honavar V.Feature subset selection using a genetic algorithm.IEEE Intelligent Systems,1998,13(2):44～49
5YU Lei,Liu Huan.Efficient Feature Selection via Analysis of Relevance and Redundancy.Journal of Machine Learning Research,2004(5):1205～1224
6Mitra P,Murthy C A.Pal S K.Unsupervised Feature Selection Using Feature Similarity.IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(3):301～312

同被引文献149

1张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3罗向阳,刘粉林,杨春芳,王道顺.基于最优小波包分解的图像隐写通用检测[J].中国科学：信息科学,2010,40(2):327-339. 被引量：5
4孙雷,王新.一种基于遗传操作和类内类间距离判据理论的特征选择方法[J].计算机工程与应用,2004,40(21):178-181. 被引量：8
5张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报（自然科学版）,2004,43(5):893-898. 被引量：44
6熊忠阳,刘道群,张玉芳.用改进的遗传算法训练神经网络构造分类器[J].计算机应用,2005,25(1):31-34. 被引量：19
7张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
8王新峰,邱静,刘冠军.故障特征组合选择方法[J].数据采集与处理,2005,20(2):181-185. 被引量：3
9李卓,刘斌,刘铁男,朱秀华,魏坤.支持向量机及其在油田生产中的应用[J].大庆石油学院学报,2005,29(3):77-79. 被引量：7
10刘素华,侯惠芳,李小霞.基于遗传算法和模拟退火算法的特征选择方法[J].计算机工程,2005,31(16):157-159. 被引量：14

引证文献18

1侯风巍,郭东军,李世磊,徐钊峰.基于信息反馈的文本主题分类过滤方法[J].通信学报,2009,30(S1):139-144.
2白似雪,陆萍.一种基于文本分类的特征选择方法[J].南昌大学学报（工科版）,2008,30(1):87-90. 被引量：2
3朱禹,王新才,沈海斌.基于支持向量机的计算机蠕虫病毒检测方法[J].机电工程,2008,25(8):21-24.
4周頔,李勇明.二步式轮询多准则特征选择算法[J].计算机应用,2009,29(1):132-135. 被引量：1
5朱禹,沈海斌,周喜川.基于Windows主机的未知蠕虫主动检测系统[J].电子器件,2008,31(6):1929-1932.
6左家亮,寇雅楠,杨任农,张滢,侯佩,黄利斌.基于贪婪算法的蠕虫综合容忍预警方法[J].计算机应用,2010,30(2):529-531.
7张家柏,王小玲.基于聚类和二进制PSO的特征选择[J].计算机技术与发展,2010,20(6):25-28. 被引量：6
8贾瑞玉,宁再早,耿锦威,查丰.基于佳点集遗传算法的特征选择方法[J].计算机技术与发展,2011,21(1):50-52. 被引量：3
9罗聪,曹三省,杜怀昌.一种基于信息增益的蚁群聚类算法[J].中国传媒大学学报（自然科学版）,2010,17(4):25-30.
10孙建文,杨宗凯,刘三(女牙),王佩.基于集成学习与遗传算法的网络书写纹识别研究[J].计算机科学,2011,38(6):242-245. 被引量：2

二级引证文献57

1张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
2李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
3丛涌泉,管婷,张春海,刘超,刘晓东.贴近度方法在考试分类系统中的研究与应用[J].计算机技术与发展,2011,21(1):250-252.
4肖裕权,周肆清.基于粒子群优化算法的数据流聚类算法[J].计算机技术与发展,2011,21(10):43-46. 被引量：6
5马瑞新,邓贵仕,孟繁成.基于角色划分的文献软聚类算法[J].计算机应用研究,2012,29(3):856-858.
6兰远东,邓辉舫.基于Kullback-Leibler与PCA的概率密度比值估计[J].计算机技术与发展,2012,22(6):107-110.
7姜骁,马文涛,曲桦.时域和酉空间中基于最大相关熵准则的非线性噪声处理[J].计算机应用,2012,32(12):3287-3290. 被引量：2
8张红梅,贺颖,聂筑平.粗糙集与熵值法在综合评价中的运用述评[J].科技信息,2012(36). 被引量：1
9黎冬媛,刘智,刘三(女牙),孟文婷.采用半随机特征采样算法的中文书写纹识别研究[J].计算机科学,2013,40(2):120-123. 被引量：1
10冯向荣,吴俊.基于云模型和支持向量机的入侵检测特征选择方法[J].华中师范大学学报（自然科学版）,2013,47(1):23-26. 被引量：4

1任江涛,黄焕宇,孙婧昊,印鉴.基于相关性分析及遗传算法的高维数据特征选择[J].计算机应用,2006,26(6):1403-1405. 被引量：17
2韩璐,荆晓远.一种新型软件缺陷预测模型研究[J].南京邮电大学学报（自然科学版）,2015,35(1):95-101. 被引量：1
3阳爱民,周咏梅,邓河,周剑峰.一种网络流量分类特征的产生及选择方法[J].山东大学学报（工学版）,2010,40(5):1-7. 被引量：4
4刘于江.人工神经网络与DNA序列分类问题[J].赣南师范学院学报,2004,25(3):52-54. 被引量：4
5姜明新,王洪玉.基于特征分组的在线目标跟踪算法[J].大连理工大学学报,2013,53(5):755-759. 被引量：2
6姚旭,王晓丹,张玉玺,权文.基于粒子群优化算法的最大相关最小冗余混合式特征选择方法[J].控制与决策,2013,28(3):413-417. 被引量：11
7邓河,严志.一种基于Filter与Wrapper模型的网络流量特征选择方法[J].长沙民政职业技术学院学报,2011,18(2):105-108.
8黄忠,胡敏,刘娟.基于AAM-SIFT特征描述的两级SVM人脸表情识别[J].计算机工程与应用,2016,52(3):178-183. 被引量：10
9王治锋,毛启容,詹永照.基于特征分组的多核融合在线自适应识别算法[J].小型微型计算机系统,2013,34(3):585-589. 被引量：1
10李伟红,龚卫国,杨利平,辜小花.人脸特征选择中的SVM泛化误差估计[J].光学精密工程,2008,16(8):1452-1458. 被引量：3

计算机科学

2006年第10期

浏览历史

内容加载中请稍等...

一种基于信息增益及遗传算法的特征选择算法被引量：18

参考文献6

同被引文献149

引证文献18

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

一种基于信息增益及遗传算法的特征选择算法 被引量：18

参考文献6

同被引文献149

引证文献18

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

一种基于信息增益及遗传算法的特征选择算法被引量：18