基于聚类和信息熵的特征选择算法被引量：4

A Feature Selection Algorithm Based on Clustering and Information Entropy

下载PDF

导出

摘要针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义,结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用. For categorical data,a method is put forward to measure significance of feature based on information entropy.Based on clustering,an unsupervised feature selection method is presented.The time complexity of the method is nearly linear with the size of dataset and the number of features.Besides,the method is applicable to the selection of features in large dataset.The results of the experiment on UCI datasets show that the method is effective and practicable.

作者李霞蒋盛益郭艾侠

机构地区广东外语外贸大学信息学院华南农业大学信息学院

出处《郑州大学学报（理学版）》 CAS 北大核心 2009年第1期77-80,共4页 Journal of Zhengzhou University:Natural Science Edition

基金国家自然科学基金资助项目,编号60673191 广东省高等学校自然科学研究重点项目,编号06Z012 广东外语外贸大学科研创新团队项目,编号GW2006-TA-005

关键词聚类信息熵特征选择大规模数据集 clustering information entropy feature selection large dataset

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2Julia Neumann,Christoph Schn?rr,Gabriele Steidl. Combined SVM-Based Feature Selection and Classification[J] 2005,Machine Learning(1-3):129～150

二级参考文献7

1C. C. Aggrawal, P. S. Yu. Finding generalized projected clustersin high dimensional spaces. The SIGMOD'00, Dallas, 2000.
2M. Dash, H. Liu. Feature selection for clustering. The PAKDD-00, Kyoto, 2000.
3F. Sebastiani. Machine learning in automated text categorization.ACM Computin Surveys, 2002, 34(1): 1--47.
4Y. Yang, J. O. Pedersen. A comparative study on featureselection in text categorization. The ICML97, Nashville, 1997.
5M. Rogati, Y. Yang. High performance feature selection for text categorization. The CIKM-02, Mclean, 2002.
6L. Tao, L. Shengping, C. Zheng, et al.An evaluation on feature selection for text clustering. The ICML03, Washington,2003.
7陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126

共引文献36

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
4赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
5何中市,徐浙君.一种新型的文本无监督特征选择方法[J].重庆大学学报（自然科学版）,2007,30(6):77-79. 被引量：2
6殷钢,苗夺谦,段其国.一种新的粗糙Leader聚类算法[J].计算机科学,2009,36(5):203-205. 被引量：6
7王明文,付剑波,罗远胜,陆旭.基于协同聚类的两阶段文本聚类方法[J].模式识别与人工智能,2009,22(6):848-853. 被引量：5
8王雅菲,赵伟.一种基于相似融合的文本特征降维方法[J].长春工业大学学报,2009,30(6):651-656.
9王小芳,王瑞芳,张树功.一种无监督文本特征计算模型[J].吉林大学学报（理学版）,2010,48(1):79-84. 被引量：2
10王海鹃,韩立新,甄志龙.基于索引项权重的文本特征选择方法[J].计算机工程与设计,2010,31(5):1149-1151. 被引量：4

同被引文献43

1蔡景,左洪福.基于信息熵的飞机相似机型确定方法[J].飞机设计,2006,26(2):12-15. 被引量：2
2苟博,黄贤武.支持向量机多类分类方法[J].数据采集与处理,2006,21(3):334-339. 被引量：63
3王海燕.信息论基础[M].南京:东南大学出版社,2003
4庄军,林奇英.泊松分布在生物学中的应用[J].激光生物学报,2007,16(5):655-658. 被引量：2
5Shannon C E. A mathematical theory of communication[ J]. Bell Sys Tech J, 1948, 27 (3) : 379 -433,623 -659.
6Zhao Jinying, Boerwinkle E, Xiong Momiao. An entropy-based statistic for genomewide association studies [ J ]. The American Journal of Human Genetics,2005,77 (1) :27 -40.
7Nozaki S A, Ross S M. Approximations in multi-seller poisson queues[ J ]. Journal of Complied Probability, 1978,15 (9) :82 - 86.
8Azaron A, Katagiri H, Kato K, et al. Longest path analysis in networks of queues : dynamic scheduling problems [ J ]. European Journal of Operational Research,2006,174 ( 1 ) : 132 - 149.
9Wikipedia. Poisson distribution[ EB/OL]. [ 2014 - 02 - 28 ]. http ://en. wikipedia, org/wikLCPoisson_distribution.
10Evans R J, Boersma J, Blachman N M, et al. The entropy of a Poisson distribution: problem 87-6[ J]. SIAM Review, 1988,30 (2) : 314 -317.

引证文献4

1蒋强,柳洪义,郝建军,唐毅锋.基于MIE和SVM算法的无级变速器故障诊断研究[J].机械传动,2010,34(12):44-47. 被引量：2
2周介南,丁勇.泊松分布信息熵的性质和数值计算[J].郑州大学学报（理学版）,2014,46(2):24-30. 被引量：1
3孟会芳,彭怡.基于熵的星座聚类理论在我国航空市场结构分析中的应用[J].武汉理工大学学报（交通科学与工程版）,2015,39(1):185-188.
4陈辉皇,林耀进,王晨曦,童先群,胡敏杰.基于层次粒化的特征选择算法[J].郑州大学学报（理学版）,2016,48(3):69-74. 被引量：1

二级引证文献4

1张晓辉,太健健,王光明,张海军,王成飞,钟成义.液压机械无级变速箱换段液压故障诊断的BP方法[J].中国农机化学报,2016,37(10):133-139. 被引量：5
2鲜言.供应链风险及基于信息熵的供应链稳定性评价[J].物流技术,2017,36(3):158-161. 被引量：1
3杨新桦,谭水平.基于结构分析法的EMCVT故障诊断与容错控制[J].重庆理工大学学报（自然科学）,2022,36(8):134-145.
4王一宾,缪佳李,程玉胜.信息适应性分层粒化的多标签特征选择[J].安庆师范大学学报（自然科学版）,2022,28(4):37-43.

1邓峰.多跳网络中分类属性数据模糊聚类仿真[J].计算机仿真,2017,34(1):292-295. 被引量：12
2张灿龙,李忠利,陈华彬.一种改进DBSCAN密度聚类算法[J].数字技术与应用,2016,34(11):134-134.
3李桃迎,陈燕,张金松,张琳.一种面向分类属性数据的聚类融合算法研究[J].计算机应用研究,2011,28(5):1671-1673. 被引量：7
4顾文强,李志华.基于互信息的分类属性数据特征选择算法[J].计算机工程与应用,2014,50(16):135-139. 被引量：3
5赵恒,张高煜.近似k-median分类属性数据聚类[J].计算机工程,2007,33(8):66-67.
6武森,张桂琼,潘静,全敏.分类属性数据的泛化中心聚类算法[J].运筹与管理,2014,23(6):37-43.
7蒋盛益,李庆华.聚类分析中的差异性度量方法研究[J].计算机工程与应用,2005,41(11):146-149. 被引量：4
8谢坤武,陈世强.一种分类数据的聚类算法[J].计算机研究与发展,2006,43(z3):332-337. 被引量：1
9李建伏,赵玉成,贺怀清.基于最大似然原理的分类属性数据分层聚类算法[J].计算机应用与软件,2015,32(3):247-252. 被引量：3
10梁吉业,白亮,曹付元.基于新的距离度量的K-Modes聚类算法[J].计算机研究与发展,2010,47(10):1749-1755. 被引量：45

郑州大学学报（理学版）

2009年第1期

浏览历史

内容加载中请稍等...

基于聚类和信息熵的特征选择算法被引量：4

参考文献2

二级参考文献7

共引文献36

同被引文献43

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于聚类和信息熵的特征选择算法 被引量：4

参考文献2

二级参考文献7

共引文献36

同被引文献43

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于聚类和信息熵的特征选择算法被引量：4