基于互信息的无监督特征选择被引量：69

An Unsupervised Feature Selection Approach Based on Mutual Information

下载PDF

导出

摘要在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能. In data analysis, feature selection can be used to reduce the redundancy of features, improve the comprehensibility of models, and identify the hidden structures in high-dimensional data. In this paper, we propose a novel unsupervised feature selection approach based on mutual information called UFS-MI. In UFS-MI, we use a feature selection criterion, UrnRMR, to evaluate the importance of each feature, which takes into account both relevance and redundancy. The relevance and redundancy respectively use mutual information to measure the dependence of features on the latent class and the dependence between features. In the new algorithm, features are selected or ranked in a stepwise way, one at a time, by estimating the capability of each specified candidate feature to decrease the uncertainty of other features （i. e. the capability of retaining the information contained in other features）. The effectiveness of UFS-MI is confirmed by the theoretical proof which shows it can select features highly correlated with the latent class. An empirical comparison between UFS-MI and several traditional feature selection methods are also conducted on some popular data sets and the results show that UFS-MI can attain better or comparable performance and it is applicable to both numerical and non-numerical features.

作者徐峻岭周毓明陈林徐宝文

机构地区东南大学计算机科学与工程学院计算机软件新技术国家重点实验室(南京大学) 南京大学计算机科学与技术系

出处《计算机研究与发展》 EI CSCD 北大核心 2012年第2期372-382,共11页 Journal of Computer Research and Development

基金国家自然科学基金项目(61073029 90818027 60633010) 国家"八六三"高技术研究发展计划基金项目(2009AA01Z147) 国家"九七三"重点基础研究发展计划基金项目(2009CB320703)

关键词特征选择无监督特征选择互信息最小冗余-最大相关无监督最小冗余-最大相关 feature selection unsupervised feature selection mutual information minimum redundancy and maximum relevance unsupervised minimum redundancy and maximum relevance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1Langley P. Selection of relevant features in machine learning [C] //Proc of the AAAI Fall Symposium on Relevance. Menlo Park, CA: AAAI, 1994:1-5.
2Dash M, Liu H. Feature selection for classification [J]. International Journal of Intelligent Data Analysis, 1997, 1 (3): 131-156.
3Pudil P, Novovicova J. Novel methods for subset selection with respect to problem knowledge[J]. IEEE Intelligent Systems, 1998, 13(2): 66-74.
4Robnik-Sikonja M, Kononenko I. Theoretical and empirical analysis of ReliefF and RReliefF [J]. Machine Learning, 2003, 53(1): 23-69.
5Hall M. Correlation-based feature selection for discrete and numeric class machine learning [C]//Proc of the 7th Int Conf on Machine Learning. San Francisco: Morgan Kaufmann, 2000:359-366.
6Mitra P, Murthy C A, Pal S K. Unsupervised feature selection using feature similarity [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(3) : 301-312.
7Wei H L, Billings S A. Feature subset selection and ranking for data dimensionality reduction [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 29(1): 162-166.
8Yu L, Liu H. Efficient feature selection via analysis of relevance and redundancy [J]. Journal of Machine Learning Research, 2004, 5(10): 1205-1224.
9Battiti R. Using mutual information for selecting features in supervised neural net learning [J]. IEEE Trans on Neutral Networks, 1994, 5(4): 537-550.
10Dash M, Choi K, Scheuermann P, et al. Feature selection for clustering A filter solution [C] //Proc of the 2nd IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2002: 115-122.

二级参考文献7

1C. C. Aggrawal, P. S. Yu. Finding generalized projected clustersin high dimensional spaces. The SIGMOD'00, Dallas, 2000.
2M. Dash, H. Liu. Feature selection for clustering. The PAKDD-00, Kyoto, 2000.
3F. Sebastiani. Machine learning in automated text categorization.ACM Computin Surveys, 2002, 34(1): 1--47.
4Y. Yang, J. O. Pedersen. A comparative study on featureselection in text categorization. The ICML97, Nashville, 1997.
5M. Rogati, Y. Yang. High performance feature selection for text categorization. The CIKM-02, Mclean, 2002.
6L. Tao, L. Shengping, C. Zheng, et al.An evaluation on feature selection for text clustering. The ICML03, Washington,2003.
7陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126

共引文献36

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
5赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
6何中市,徐浙君.一种新型的文本无监督特征选择方法[J].重庆大学学报（自然科学版）,2007,30(6):77-79. 被引量：2
7殷钢,苗夺谦,段其国.一种新的粗糙Leader聚类算法[J].计算机科学,2009,36(5):203-205. 被引量：6
8王明文,付剑波,罗远胜,陆旭.基于协同聚类的两阶段文本聚类方法[J].模式识别与人工智能,2009,22(6):848-853. 被引量：5
9王雅菲,赵伟.一种基于相似融合的文本特征降维方法[J].长春工业大学学报,2009,30(6):651-656.
10王小芳,王瑞芳,张树功.一种无监督文本特征计算模型[J].吉林大学学报（理学版）,2010,48(1):79-84. 被引量：2

同被引文献519

1杨耀武,张平.中国经济高质量发展的逻辑、测度与治理[J].经济研究,2021,56(1):26-42. 被引量：283
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
3刘杰,金弟,杜惠君,刘大有.一种新的混合特征选择方法RRK[J].吉林大学学报（工学版）,2009,39(2):419-423. 被引量：7
4李海军,何丽媛,李岩.三种粗差检测方法的比较及分析[J].淮海工学院学报（自然科学版）,2011,20(S1):129-131. 被引量：2
5单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
6蒋敏,周亚建,张斌.一种基于量化的H.264视频水印算法[J].软件,2013,34(8):46-51. 被引量：6
7韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：12
8周开军,桂卫华,朱红求.矿物浮选泡沫图像分割参数的最优性分析[J].华中科技大学学报（自然科学版）,2013,41(S1):432-435. 被引量：2
9孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
10李速,齐翔林,胡宏,汪云九.功能柱结构神经网络模型中的同步振荡现象[J].中国科学（C辑）,2004,34(4):385-394. 被引量：7

引证文献69

1林莽.林莽散文选[J].岁月,2000(7):27-29.
2刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114. 被引量：24
3彭飞,曾学文,邓浩江,刘磊.基于特征子集的推荐系统托攻击无监督检测[J].计算机工程,2014,40(5):109-114. 被引量：5
4刘海峰,姚泽清,苏展.基于词频的优化互信息文本特征选择方法[J].计算机工程,2014,40(7):179-182. 被引量：13
5谭台哲,叶青,尚鹏.基于局部重构的无监督特征选择方法[J].计算机应用研究,2014,31(9):2828-2831. 被引量：5
6潘果.基于正则化互信息改进输入特征选择的分类算法[J].计算机工程与应用,2014,50(15):25-29. 被引量：3
7吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.语义词特征提取及其在维吾尔文文本分类中的应用[J].中文信息学报,2014,28(4):140-144. 被引量：15
8谭学清,周通,罗琳.一种基于类平均相似度的文本分类算法[J].现代图书情报技术,2014(9):66-73. 被引量：4
9潘俊,王瑞琴,孔繁胜.基于结构和约束保持的半监督特征选择[J].南京理工大学学报,2014,38(4):518-525. 被引量：2
10袁帅,杨宏晖,申昇.基于互信息的顺序向前特征选择算法[J].声学技术,2014,33(4):359-362. 被引量：5

二级引证文献440

1谢秀娟,陈茜茜.河南省经济高质量发展评价指标体系的构建与评价[J].投资与创业,2023,34(5):25-27.
2冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：9
3程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936.
4冯荣强,赵磊,杨勇,李宽宏,陈蕾,郑伟彦.计及电价和Attention机制的LSTM短期负荷预测模型[J].科技通报,2020,36(11):57-62. 被引量：6
5栗刚,孙中军,翟江涛,戴跃伟.一种基于条件变分自编码器的加密流量识别方法[J].计算机应用研究,2020,37(S01):301-303. 被引量：1
6王义,戴月明.基于混合互信息算法的文本情感分析[J].计算机应用研究,2020,37(2):337-341.
7张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：20
8陈金山.基于密度峰值的电子商务用户行为数据聚类方法[J].哈尔滨师范大学自然科学学报,2023,39(4):65-69.
9谢鑫.基于数据特征提取的线上电商用户潜在购买力挖掘方法[J].哈尔滨师范大学自然科学学报,2022,38(3):67-72.
10相银堂,郭乔进,温馨,吴其华.加密流量分类识别研究综述[J].信息化研究,2023,49(3):1-12.

1朱颢东,李红婵,钟勇.新颖的无监督特征选择方法[J].电子科技大学学报,2010,39(3):412-415. 被引量：4
2尚荣华,焦李成,吴建设,马文萍,李阳阳.用于非监督特征选择的免疫克隆多目标优化算法[J].西安电子科技大学学报,2010,37(1):18-22. 被引量：3
3杨国亮,谢乃俊,王艳芳,梁礼明.基于低秩稀疏评分的非监督特征选择[J].计算机工程与科学,2015,37(4):649-656. 被引量：2
4王连喜,蒋盛益.面向分类特征的无监督特征选择方法研究[J].小型微型计算机系统,2011,32(1):47-50. 被引量：5
5代琨,于宏毅,仇文博,李青.基于SVM的网络数据无监督特征选择算法[J].吉林大学学报（工学版）,2015,45(2):576-582. 被引量：10
6郑宝芬,苏宏业,罗林.无监督特征选择在时间序列数据挖掘中的应用[J].仪器仪表学报,2014,35(4):834-840. 被引量：15
7程欣宇.最小冗余的哈夫曼码表的构造方法[J].贵州工业大学学报（自然科学版）,2004,33(5):89-91. 被引量：2
8甘文迓,黄渊凌,李汀.无监督特征选择算法在盲分选中的应用[J].电信技术研究,2016,0(1):55-59.
9脱倩娟,赵红.基于局部邻域嵌入的无监督特征选择[J].郑州大学学报（理学版）,2016,48(3):57-62. 被引量：2
10张德军,何发智,袁志勇,石强.基于模糊粗糙集的半监督影像分类算法[J].华中科技大学学报（自然科学版）,2016,44(1):36-40.

计算机研究与发展

2012年第2期

浏览历史

内容加载中请稍等...

基于互信息的无监督特征选择被引量：69

参考文献24

二级参考文献7

共引文献36

同被引文献519

引证文献69

二级引证文献440

相关作者

相关机构

相关主题

浏览历史

基于互信息的无监督特征选择 被引量：69

参考文献24

二级参考文献7

共引文献36

同被引文献519

引证文献69

二级引证文献440

相关作者

相关机构

相关主题

浏览历史

基于互信息的无监督特征选择被引量：69