特征选择方法中三种度量的比较研究被引量：9

The Comparison of Three Measures in Feature Selection

下载PDF

导出

摘要不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显差别的问题,本文选择线性相关系数、对称不确定性和互信息三种常用的线性或非线性度量,将它们应用于基于相关性的快速特征选择方法中,对它们在基因微阵列和图像数据上的特征选择效果进行实验验证和比较。实验结果表明,基于相关性的快速特征选择方法使用线性相关系数在基因数据集上选取的特征集往往具有较好分类准确率,使用互信息在图像数据集上选取的特征集的分类效果较好,使用对称不确定性在两种类型数据上选取特征的分类效果较为稳定。 It has been known that either linear correlation or nonlinear correlation might exist between featureto-feature and feature-to-class in datasets.In this paper,we study the differences of selected feature subset when different kinds of measures are applied with same feature selection method in different kinds of datasets.Three representative linear or nonlinear measures,linear correlation coefficient,symmetrical uncertainty,and mutual information are selected.By combining them with the fast correlation-based filter(FCBF) feature selection method,we make the comparison of selected feature subset from 8 gene microarray and image datasets.Experimental results indicate that the feature subsets selected by linear correlation coefficient based FCBF obtain better classification accuracy in gene microarray datasets than in image datasets,while mutual information and symmetrical uncertainty based FCBF tend to obtain better results in image datasets.Moreover,symmetrical uncertainty based FCBF is more robust in all datasets.

作者宋智超康健孙广路何勇军

机构地区哈尔滨理工大学计算机科学与技术学院哈尔滨理工大学信息安全与智能技术研究中心北京宇航系统工程研究所

出处《哈尔滨理工大学学报》 CAS 北大核心 2018年第1期111-116,共6页 Journal of Harbin University of Science and Technology

基金黑龙江省普通高等学校新世纪优秀人才培养计划(1155-ncet-008) 黑龙江省教育科学规划课题(GBC1211062) 黑龙江省自然科学基金(QC2015084)

关键词特征选择线性相关系数对称不确定性互信息基于相关性的快速特征选择方法 feature selection linear correlation coefficient symmetrical uncertainty mutual Information fast correlation-based filter

分类号 TM391.1 [电气工程—电机]

引文网络
相关文献

参考文献2

1谢娟英,高红超.基于统计相关性与K-means的区分基因子集选择算法[J].软件学报,2014,25(9):2050-2075. 被引量：56
2崔自峰,徐宝文,张卫丰,徐峻岭.一种近似Markov Blanket最优特征选择算法[J].计算机学报,2007,30(12):2074-2081. 被引量：15

二级参考文献20

1李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
2Mitchell T M. Machine Learning. New Jersey: McGraw Hill, 1997
3Duda R O, Hart P E, Stork D G. Pattern Classification. 2nd Edition. New York: John Wiley & Sons, 2000
4Rennie J D, Shih L, Teevan J, Karger D R. Tackling the poor assumptions of naive Bayes text classifiers//Proceedings of the 20th International Conference on Machine Learning. Washington DC, 2003 : 616-623
5Joachims T. Text categorization with support vector machines: Learning with many relevant features//Proceedings of the 10th European Conference on Machine Learning. Chemnitz, DE, 1998:137-142
6Dash M, Liu H. Feature selection for classification. International Journal of Intelligent data Analysis, 1997, 1:131-156
7Kohavi R, John R C. Wrappers for feature subset selection. Artificial Intelligence, 1997, 97 : 273-324
8Das S. Filters, wrappers and a boosting-based hybrid for feature seleetion//Proceedings of the 18th International Conference on Machine Learning. Williams College, 2001:74-81
9Yang Y, Pedersen J O. A comparative study on feature selection in text categorization//Proceedings of the 14th International Conference on Machine Learning. Nashville, 1997 : 412-420
10Yu L, Liu H. Efficient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research, 2004, 10:1205-1224

共引文献68

1朱小培,位云朋,闫李,韩茜茜.基于多模态进化计算的特征选择策略[J].中原工学院学报,2021,32(4):71-76.
2任永功,林楠.DPFS:一种基于动态规划的文本特征选择算法[J].计算机科学,2009,36(6):188-191. 被引量：2
3林伟.一种基于成词概率的贝叶斯垃圾邮件过滤方法[J].计算机技术与发展,2011,21(9):242-244.
4张逸石,陈传波.基于最小联合互信息亏损的最优特征选择算法[J].计算机科学,2011,38(12):200-205. 被引量：9
5潘湑,顾宏斌,赵芷晴.术语定义抽取的特征选择框架[J].南京航空航天大学学报,2012,44(3):399-404. 被引量：1
6王玲,刘善军,陈兵林,姬长英.混合过滤器和封装器启发式判别籽棉成熟度[J].计算机研究与发展,2013,50(2):269-277. 被引量：2
7任永功,杨雪,杨荣杰,胡志冬.基于信息增益特征关联树的文本特征选择算法[J].计算机科学,2013,40(10):252-256. 被引量：9
8李敏,卡米力.木依丁.特征选择方法与算法的研究[J].计算机技术与发展,2013,23(12):16-21. 被引量：23
9王俊雅,刘峰,宋效东,李德成,杨金玲,张甘霖.基于地表温度的干旱平缓区土壤属性制图[J].土壤通报,2018,49(6):1270-1278. 被引量：2
10马国富,马胜利,王子贤,李双印,程雨丝.数据恢复在电子数据取证与司法鉴定中的应用[J].河北大学学报（自然科学版）,2015,35(5):538-545. 被引量：8

同被引文献75

1曾鸣,谢佳.互联网金融个人信用风险评估的指标选择方法[J].时代金融,2019,0(33):6-9. 被引量：5
2张娜,赵泽丹,包晓安,钱俊彦,吴彪.基于改进的Tent混沌万有引力搜索算法[J].控制与决策,2020,35(4):893-900. 被引量：51
3蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
4董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(1):1-7. 被引量：142
5张静,王建民,何华灿.基于属性相关性的属性约简新方法[J].计算机工程与应用,2005,41(28):55-57. 被引量：18
6宋方方,毕天姝,杨奇逊.基于WAMS的电力系统受扰轨迹预测[J].电力系统自动化,2006,30(23):27-32. 被引量：43
7凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
8文俊,刘天琪,李兴源,任景.在线识别同调机群的优化支持向量机算法[J].中国电机工程学报,2008,28(25):80-85. 被引量：31
9谭伟,张雪敏,沈沉.新的同调识别方法及其在切机算法中的应用[J].西南交通大学学报,2009,44(4):507-512. 被引量：4
10温玄,王培东,张海英.中储式球磨机制粉系统控制器设计[J].哈尔滨理工大学学报,2010,15(2):47-50. 被引量：9

引证文献9

1张艳霞,尹佳鑫,蒙高鹏,李杰,李多多.一种基于广域测量信息的在线同调分群方法[J].电机与控制学报,2019,23(5):10-17. 被引量：6
2陈谌,梁雪春.基于基尼指标和卡方检验的特征选择方法[J].计算机工程与设计,2019,40(8):2342-2345. 被引量：21
3朱朋成,钱虹,江诚.基于热力学机理与数据挖掘的磨煤机预警系统[J].哈尔滨理工大学学报,2020,25(1):43-50. 被引量：6
4李文深,容芷君,但斌斌.铸坯质量缺陷预测的特征降维方法研究[J].武汉科技大学学报,2020,43(5):334-339. 被引量：1
5周炎龙,孙广路.双重代价敏感随机森林算法[J].哈尔滨理工大学学报,2021,26(5):44-50. 被引量：2
6查志成,梁雪春.基于特征选择算法的个人信用预测模型[J].计算机工程与设计,2022,43(6):1678-1685. 被引量：1
7李思奇,吕王勇,陈雯,代娟,邓柙.基于属性约简的加权朴素贝叶斯分类算法[J].四川师范大学学报（自然科学版）,2023,46(4):532-539. 被引量：1
8闫蒙蒙,陈建凯,孟会贤,王鑫.随机森林与自编码器相结合的自适应特征选择算法[J].人工智能科学与工程,2023(9):39-47.
9邹鹏,王祚轩,林浩,王春东.基于对称不确定性网络流量特征筛选方法[J].计算机科学与应用,2023,13(4):890-901.

二级引证文献38

1王志海,高雪瑶.基于链路效能社会DTN网络的路由算法[J].哈尔滨理工大学学报,2020,25(1):86-92. 被引量：6
2苏鹏,高燕,董婷婷,庞岩,王泽伟.多星遥测联合判断实时故障分析模型设计及应用[J].国外电子测量技术,2020,39(9):128-131. 被引量：3
3林谷烨,黄振琳,杨宸瑄.基于模糊聚类法探究扰动对同调分群的影响[J].电气自动化,2021,43(4):50-53.
4李顺勇,王改变.一种新的最大相关最小冗余特征选择算法[J].智能系统学报,2021,16(4):649-661. 被引量：5
5叶磊,韦克苏,李德仑,张富贵,吴雪梅.基于改进RF特征选择策略的烤烟油分高光谱特征分析[J].中国农机化学报,2021,42(8):196-202. 被引量：2
6李雪,张琳玮,姜涛,陈厚合,李国庆.基于CPU-GPU异构的电力系统静态电压稳定域边界并行计算方法[J].电工技术学报,2021,36(19):4070-4084. 被引量：4
7朱亚军.在线用户商品评论信息挖掘方法的比较研究[J].价值工程,2021,40(29):172-174.
8徐济惠,颜晨阳.一种基于黏液菌觅食机制的特征选择算法及其在文本情感识别中的应用[J].南京理工大学学报,2021,45(5):596-605. 被引量：1
9闫旭,薛易,相东昊.基于DBSCAN密度聚类和长短期记忆网络的同调机群辨识方法[J].黑龙江电力,2021,43(5):377-383.
10臧世伟,高丽婷,赵睿哲.基于XGBoost的公共建筑用电预测研究[J].信息与电脑,2021,33(20):74-76.

1马忱,王文剑,姜高霞.面向函数型数据的快速特征选择方法[J].模式识别与人工智能,2017,30(9):822-832. 被引量：4
2史雪静,吴飞,荆晓远.基于改进MDS的软件缺陷预测[J].计算机技术与发展,2017,27(12):20-22.
3“临床病例讨论”栏目征稿启事[J].中华传染病杂志,2017,35(12):710-710.
4翁景德,唐维萍,许哲毓.基于糖尿病犯者医疗管理数据改进血糖控制研究[J].世界最新医学信息文摘,2017,17(56):55-55.
5王振国,陈宏宇,徐文明.利用DCNN融合特征对遥感图像进行场景分类[J].电子设计工程,2018,26(1):189-193. 被引量：5
6刘惠彬,陈强,吴飞,赵毅.基于卷积神经网络的固定群体中目标人物分类[J].上海大学学报（自然科学版）,2017,23(6):874-881. 被引量：2
7张会杰,李恒芬,李湘露.支持向量机在临床医学中的应用研究进展[J].神经疾病与精神卫生,2017,17(11):812-815. 被引量：6
8刘朝霞,邵峰,景雨,祁瑞华.图结构在航空遥感图像特征点匹配中的应用[J].计算机工程与应用,2018,54(1):19-24. 被引量：8
9任刚,彭冬亮,谷雨.基于圆柱面映射的快速图像拼接算法[J].计算机应用研究,2017,34(11):3472-3476. 被引量：13
10杨潇,崔超然,王帅强.基于矩阵分解优化的排序学习特征构造方法[J].计算机科学,2017,44(12):255-259. 被引量：2

哈尔滨理工大学学报

2018年第1期

浏览历史

内容加载中请稍等...

特征选择方法中三种度量的比较研究被引量：9

参考文献2

二级参考文献20

共引文献68

同被引文献75

引证文献9

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

特征选择方法中三种度量的比较研究 被引量：9

参考文献2

二级参考文献20

共引文献68

同被引文献75

引证文献9

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

特征选择方法中三种度量的比较研究被引量：9