互信息与模糊C均值聚类集成的特征优选方法被引量：2

Feature selection method based on integration of mutual information and fuzzy C-means clustering

下载PDF

导出

摘要针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法 FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。 Plenty of redundant features may reduce the performance of data classification in massive dataset, so a new method of automatic feature selection based on the integration of Mutual Information and Fuzzy C-Means( FCM) clustering,named FCC-MI, was proposed to resolve this problem. Firstly, MI and its correlation function were analyzed, then the features were sorted according to the correlation value. Secondly, the data was grouped according to the feature with the maximum correlation, and the number of the optimal features were determined automatically by FCM clustering method. At last, the optimization selection of the features was performed using correlation value. Experiments on seven datasets of UCI machine learning database were conducted to compare FCC-MI with three methods come from the literatures, including WCMFS( Within class variance and Correlation Measure Feature Selection), B-AMBDMI( Based on Approximating Markov Blank and Dynamic Mutual Information), and T-MI-GA( Two-stage feature selection algorithm based on MI and GA). The theoretical analysis and experimental results show that the proposed method not only improves the efficiency of data classification, but also ensures the classification accuracy and automatically determine the optimal feature subset, which reduces the number of the features of the dataset, thus it is suitable for feature reduction and analysis of mass data with large correlation features.

作者朱接文肖军

机构地区江西工业工程职业技术学院计算机工程系

出处《计算机应用》 CSCD 北大核心 2014年第9期2608-2611,2649,共5页 journal of Computer Applications

关键词互信息特征优选模糊C均值聚类数据分组 Mutual Information(MI) feature selection Fuzzy C-Means(FCM) clustering data grouping

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1G.A. Rattá,J. Vega,A. Murari.Improved feature selection based on genetic algorithms for real time disruption prediction on JET[J].Fusion Engineering and Design.2012(9)
2Hui-Huang Hsu,Cheng-Wei Hsieh,Ming-Da Lu.Hybrid feature selection by combining filters and wrappers[J].Expert Systems With Applications.2011(7)
3姚旭,王晓丹,张玉玺,权文.基于Markov blanket和互信息的集成特征选择算法[J].系统工程与电子技术,2012,34(5):1046-1050. 被引量：7
4张云鹏,闫一功.一种基于自适应遗传策略的特征选择算法[J].长春工业大学学报,2010,31(2):126-131. 被引量：4
5Sylvain Verron,Teodor Tiplica,Abdessamad Kobi.Fault detection and identification with a new feature selection based on mutual information[J].Journal of Process Control.2007(5)
6张晓光,孙正,徐桂云,阮殿旭.一种类内方差与相关度结合的特征选择算法[J].哈尔滨工业大学学报,2011,43(3):132-136. 被引量：4
7裘国永,王娜,汪万紫.基于互信息和遗传算法的两阶段特征选择方法[J].计算机应用研究,2012,29(8):2903-2905. 被引量：14

二级参考文献47

1詹德川,周志华.基于相关投影分的特征选择算法[J].计算机科学与探索,2007,1(2):138-145. 被引量：2
2胡博春,郭淑清,张守伟.一种发动机异响故障诊断系统的实现[J].仪器仪表用户,2005,12(6):43-45. 被引量：3
3袁海英,陈光,谢永乐.故障诊断中基于神经网络的特征提取方法研究[J].仪器仪表学报,2007,28(1):90-94. 被引量：28
4陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
5Hand D J. Discrimination and classification [M]. New York.. [s. n. ],1981.
6Jain A K, Zongker D. Feature-selection: Evaluation, application, and small sample performance [J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1997,19(2) : 153-158.
7Pudil P, Novovicovd J, Kittler J. Floating search methods in feature selection[J]. Pattern Recognition Letters, 1994,15 : 1119-1125.
8Pudil P, Ferri F J, Novovicova J, et al. Floating search methods for feature selection with nonrnono- tonic criterion funetions[J]. Pattern Recognition, 1994(2) : 279-283.
9Cotter S, Adler J, Rao B, et al. Forward sequential algorithms for best basis selection[J]. Image and Signal Processing, 1999,146:235-244.
10Dimotrios V, Constantine K. Fast and sequential floating forward feature selection with the bayes classifier applied to speech emotion recognition[J]. Signal Processing, 2008,88 (12) : 2956-2970.

共引文献25

1刘泽,潘晖.基于ID3算法汽车变速箱故障诊断系统[J].长春工业大学学报,2011,32(6):534-537. 被引量：4
2王建义,蒋金元,任光荣,朱牧,华润龄,邓敏.鹳蟅合剂对实验性肝纤维化大鼠的疗效观察[J].江苏中医,2000,21(1):40-41. 被引量：2
3裘国永,王娜,汪万紫.基于互信息和遗传算法的两阶段特征选择方法[J].计算机应用研究,2012,29(8):2903-2905. 被引量：14
4沈奇.利用遗传算法进一步优化CBR案例推理模型[J].计算机与现代化,2013(2):147-149. 被引量：2
5魏莎莎,陆慧娟,金伟,李超.基于云平台的互信息最大化特征提取方法研究[J].电信科学,2013,29(10):38-42. 被引量：2
6马海昌,张志昌,赵学锋,孙飞.结合潜在语义分析与点互信息的同义词抽取[J].电脑知识与技术,2014(1):128-132. 被引量：2
7时晨曦,张敏情.基于改进增强特征选择算法的特征融合图像隐写分析[J].光电子．激光,2014,25(3):551-557. 被引量：4
8毕凯,王晓丹,姚旭,周进登.一种基于Bagging和混淆矩阵的自适应选择性集成[J].电子学报,2014,42(4):711-716. 被引量：25
9潘果.基于正则化互信息改进输入特征选择的分类算法[J].计算机工程与应用,2014,50(15):25-29. 被引量：3
10魏莎莎,陆慧娟,安春霖,郑恩辉,金伟.一种基于互信息最大化的模型无关基因选择方法[J].计算机科学,2014,41(9):243-247. 被引量：7

同被引文献21

1张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报（自然科学版）,2004,43(5):893-898. 被引量：44
2王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
3VAPNIK V N. Statistical learning theory [ M ]. New York: John Wiley & Sons, 1995.
4SUYKENS J A K, VANDEWALLE J. Least squares sup- port vector machine classifiers [ J ]. Neural Processing Letters, 1999, 9(3): 293-300.
5BRERETON R G, LLOYDA G R. Support vector ma- chines for classification and regression [ J ]. Analyst, 2010, 135(2), 230-267.
6HYVARINEN A. Fast and robust fixed-point algo- rithms for independent component analysis [ J 1 - IEEE Transactions of Neural Networks, 1999, 10 (3) : 626- 634.
7JIAO L CI-I, BO L F, WANG L. Fast sparse approxima- tion for least squares support vector machine [ J ]. IEEE Transaction on Neural Networks, 2007, 18 ( 3 ) : 685 -697.
8XIA X L, JIAO W D, LI K, et al. A novel sparse least squares support vector machines [ J ]. Mathematical Prob- lems in Engineering, 2013: 1-10.
9王磊,刘艳.基于约束Laplacian分值的半监督特征选择算法[J].吉林大学学报（信息科学版）,2010,28(4):404-409. 被引量：4
10丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：925

引证文献2

1焦卫东,林树森.整体改进的基于支持向量机的故障诊断方法[J].仪器仪表学报,2015,36(8):1861-1870. 被引量：63
2李顺勇,王改变,余曼.基于相似性特征聚类的加权无监督特征选择算法[J].贵州师范大学学报（自然科学版）,2021,39(1):49-57. 被引量：2

二级引证文献65

1姚澄,刘清惓,杨杰,王亚楠,朱化难.一种气象温度传感器设计及实验研究[J].电子测量技术,2022,45(24):9-14. 被引量：1
2张寅,胡宇,孙振生,张豪.基于特征向量法功率谱估计的发动机故障尾气静电信号分析[J].火箭军工程大学学报,2021(1):1-6.
3任子君,符文星,张通,闫杰.冗余捷联惯组故障诊断的奇异值分解新方法[J].仪器仪表学报,2016,37(2):412-419. 被引量：10
4谢骏遥,王金江,赵锐,段礼祥,王凯.迁移因子分析在齿轮箱变工况故障诊断中的应用[J].电子测量与仪器学报,2016,30(4):534-541. 被引量：8
5徐玉秀,赵晓菲,熊一奇.基于传递路径的多级齿轮箱齿轮裂纹故障识别[J].仪器仪表学报,2016,37(5):1018-1024. 被引量：12
6文莹,闫雅慧.电子设备诊断规则提取的形式概念分析方法[J].电子测量与仪器学报,2016,30(8):1228-1234. 被引量：2
7杨诚,宋萍,刘雄军,彭文家,高晓东.特种车辆油气弹簧漏气故障的识别与预测[J].仪器仪表学报,2016,37(11):2536-2544. 被引量：3
8何静,刘林凡,张昌凡,豆兵兵.参数优化的支持向量机机车车轮状态检测[J].电子测量与仪器学报,2016,30(11):1709-1717. 被引量：11
9朱程辉,张倩,王建平,李帷韬,赵益.基于AIS风电机组故障诊断与偏航控制系统研究[J].电子测量与仪器学报,2016,30(12):1949-1957. 被引量：6
10季姝,俞静.基于冗余数据压缩算法的经济信用风险研究[J].电子设计工程,2017,25(7):15-18. 被引量：3

1姚旭,王晓丹,张玉玺,权文.基于近似Markov Blanket和动态互信息的特征选择算法[J].计算机科学,2012,39(8):220-223.
2徐志洁,王来生,杨丽明.基于结合空间信息的FCM聚类的分水岭图像分割[J].计算机工程与应用,2008,44(11):176-178. 被引量：3
3康志伟,肖娜,何怡刚,刘劲,杨高波.基于模糊聚类的小波域半脆弱水印算法[J].仪器仪表学报,2008,29(9):1851-1855. 被引量：7
4李丽丽,刘希玉,刘涛,孙秀娟.一种基于粒子群优化的FCM聚类方法[J].信息技术与信息化,2008(1):89-90. 被引量：2
5姜文蓄,郭振波,王开西.结合ReliefF和改进的马尔科夫毯过滤的两阶段特征选择方法[J].青岛大学学报（自然科学版）,2016,29(3):73-78.
6裘国永,王娜,汪万紫.基于互信息和遗传算法的两阶段特征选择方法[J].计算机应用研究,2012,29(8):2903-2905. 被引量：14
7姚旭,王晓丹,张玉玺,权文.基于Markov blanket和互信息的集成特征选择算法[J].系统工程与电子技术,2012,34(5):1046-1050. 被引量：7
8马文龙,余宁梅,银磊,高勇.图像块动态划分矢量量化[J].计算机辅助设计与图形学学报,2005,17(2):279-283. 被引量：10
9王玉龙,叶新铭,李秀华.网页优化策略的模糊C均值(FCM)聚类算法研究[J].计算机科学,2005,32(10):154-156. 被引量：2
10赵东,赵宏伟,于繁华.动态多目标优化的运动物体图像分割[J].光学精密工程,2015,23(7):2109-2116. 被引量：13

计算机应用

2014年第9期

浏览历史

内容加载中请稍等...

互信息与模糊C均值聚类集成的特征优选方法被引量：2

参考文献7

二级参考文献47

共引文献25

同被引文献21

引证文献2

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

互信息与模糊C均值聚类集成的特征优选方法 被引量：2

参考文献7

二级参考文献47

共引文献25

同被引文献21

引证文献2

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

互信息与模糊C均值聚类集成的特征优选方法被引量：2