基于聚类的特征选择方法被引量：18

Clustering-Based Feature Selection

下载PDF

导出

摘要本文提出了一种度量特征区分度的定义,进而提出一种基于聚类的特征选择方法CBFS.该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择;该方法对数据类型没有限制,适用于混合类型数据.在UCI数据集上的实验结果表明,与文献中的方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效和实用的. The authors come up with a definition of measuring differentiations between features,and then put forward a method of clustering-based feature selection（Below referred to as CBFS）.The time complexity of the method is nearly linear with both the size of dataset and the number of features.Besides,the method is applicable to the selection of features in large dataset.It can particularly handle data with both Nominal and Continuous Features.The results of the experiment on UCI datasets show that the method is effective and practicable.

作者蒋盛益郑琪张倩生

机构地区广东外语外贸大学信息学院

出处《电子学报》 EI CAS CSCD 北大核心 2008年第B12期157-160,共4页 Acta Electronica Sinica

基金国家自然科学基金(No.60673191) 广东省高等学校自然科学研究重点项目(No.06Z012) 广东外语外贸大学科研创新团队项目(No.GW2006-TA-005)

关键词聚类特征区分度特征选择 clustering differentiation of feature feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Lewis P M. The characteristic selection problem in recognition system[ J ]. IRE Transaction on Information Theory, 1962, 8 (2) : 171 - 178.
2Mark Last, Abraham Kandel, Oded Maimon. Information-theoretic algorithm for feature selection[ J]. Pattern Recognition Letters,2001,22(6) :799- 811.
3Kononenko I. Estimating attributes: analysis and extensions of RELIEF[ A] .Proc of ECML[ C]. Catania, Italy, Springer-Verlag New York, 1994. 171 - 182.
4Liu H, Moloch H. Feature Selection for Knowledge Discovery and Data Mining[M]. Klumwer, Boston. 1998.
5Hu Q H, Xie Z X, Yu D R. Hybrid attribute reduction based on a novel fuzzy-rough model and information granulation [ J ].Pattern Recognition, 2007, 40(12) :3509 - 3521.
6Swiniarski R W, Skowron A. Rough set methods in feature selection and recognition[ J]. Pattern Recognition Letters,2003, 24(6) :833 - 849.
7Neurnann J, Schnorr C,Steidl O. Combined SVM-based feature selection and classification [ J ]. Machine Learning, 2005, 61 (1):129- 150.
8Huang J J,Cai Y Z, Xu X M.A hybrid genetic algorithm for feature selection wrapper based on mutual information[ J ]. Pattern Recognition Letters, 2007,28(13) : 1825 - 1844.
9Jiang S Y, Song X Y, et al. A clustering-based method for un- supervised intrusion detections[ J ]. Pattern Recognition Letters, 2006,27(7) :802 - 810.
10Merz C J , Merphy P. UCI repository of machine learning databases [ OB/OL]. URL: http://www, ics. uci. edu/- mleam/MLRRepository, html, 1996.

同被引文献212

1刘杰,金弟,杜惠君,刘大有.一种新的混合特征选择方法RRK[J].吉林大学学报（工学版）,2009,39(2):419-423. 被引量：7
2刘晓燕,单晓红.数据挖掘在竞争情报系统中的应用[J].管理学报,2005,2(S2):129-130. 被引量：14
3锅艳玲,卞昭玲.模式识别技术在企业信息工作中的应用研究[J].图书馆学研究（应用版）,2010(1):22-25. 被引量：3
4王燕.服务型企业标准化内涵及其必要性探析[J].航天标准化,2010(4):43-46. 被引量：2
5张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
6黄海洪,孙崇智,金龙.基于主分量的神经网络水位预报模型应用研究[J].南京气象学院学报,2005,28(1):58-63. 被引量：14
7吴小红,康海燕,任德官.基于神经网络中小城市空气污染指数预估器的设计[J].数学的实践与认识,2005,35(2):87-91. 被引量：8
8蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
9蒋盛益,李庆华,赵延喜.一种两阶段异常检测方法[J].小型微型计算机系统,2005,26(7):1237-1240. 被引量：7
10郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16

引证文献18

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：7
2王磊,刘艳.基于约束Laplacian分值的半监督特征选择算法[J].吉林大学学报（信息科学版）,2010,28(4):404-409. 被引量：4
3龙鹏飞,唐军,王琳.基于特征选择的数据流聚类[J].计算机工程与设计,2010,31(19):4235-4237.
4刘峤,王娟,陈伟,秦志光.基于随机复杂度约束的高维特征自动选择算法[J].电子学报,2011,39(2):370-374. 被引量：1
5王欣欣,赖惠成.改进的RBF文本分类算法[J].通信技术,2011,44(12):156-158. 被引量：2
6伍之昂,庄毅,王有权,曹杰.基于特征选择的推荐系统托攻击检测算法[J].电子学报,2012,40(8):1687-1693. 被引量：23
7姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：237
8罗养霞,房鼎益.基于聚类分析的软件胎记特征选择[J].电子学报,2013,41(12):2334-2338. 被引量：7
9张海涛,王鹤桥,孟祥羽,武文波.基于类对可分和灰色决策的高光谱波段选择方法[J].计算机科学,2014,41(6):309-313. 被引量：2
10张钰莎,蒋盛益.Clementine软件功能缺陷分析[J].信阳师范学院学报（自然科学版）,2015,28(3):450-453. 被引量：2

二级引证文献380

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：1
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：37
3盛晓欣,田翔华,周毅.基于随机森林癫痫患者脑电数据的分析研究[J].中国数字医学,2020,15(1):41-43.
4杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：2
5张王菲,文哲,张亚红,张庭苇,李云.Stokes参数在油菜长势监测中的可行性分析[J].武汉大学学报（信息科学版）,2020,45(2):242-249. 被引量：1
6伟利国,袁玉龙,董鑫,周达,汪雅琦,陈文科.拖挂式大载荷特种车辆导航控制系统设计与试验[J].农业机械学报,2022,53(S01):324-331. 被引量：1
7冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：7
8陈小君,叶子,石怀旺.基于K-Means聚类与SVM算法对古代玻璃文物的分类与鉴别[J].哈尔滨师范大学自然科学学报,2023,39(4):70-79.
9付华,韩冰,崔鹏,孟祥云.能量特性与随机森林的孤岛辨识模型[J].辽宁工程技术大学学报（自然科学版）,2021,40(1):41-47. 被引量：1
10焦良珍,陈海生,高革,李冠男,胡云鹏.基于数据挖掘算法的DHC系统负荷时序预测方法[J].建筑节能,2020,48(11):38-44. 被引量：3

1郭振铎,刘洲峰,徐庆伟,朱永胜.玻璃缺陷特征提取[J].中原工学院学报,2010,21(2):35-38.
2贾旭,王利,曹玉东,孙福明.基于特征区分度的静脉图像质量评价算法[J].辽宁工业大学学报（自然科学版）,2015,35(2):71-74.
3黎鹏,林妩媚,王万平,傅景能.基于特征区分度和区域生长的Mean Shift跟踪算法[J].光电技术应用,2016,31(1):50-55.
4张雨婷,叶东毅,柯逍,陈昭炯.适应目标尺度变化的改进压缩跟踪算法[J].模式识别与人工智能,2016,29(11):985-996.
5谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：64
6姚明海,赵连朋,刘维学.基于特征选择的Bagging分类算法研究[J].计算机技术与发展,2014,24(4):103-106. 被引量：8
7卓广平.高效数据挖掘算法在大规模数据集中的应用研究[J].软件,2014,35(8):72-74. 被引量：18
8王喆,陆楠,周春光.基于决策树归纳的聚类方法与实现[J].吉林大学学报（信息科学版）,2003,21(2):132-137. 被引量：11
9汪莉.基于改进k-means算法的入侵检测方法设计[J].科技广场,2010(5):63-65.
10李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4

电子学报

2008年第B12期

浏览历史

内容加载中请稍等...

基于聚类的特征选择方法被引量：18

参考文献12

同被引文献212

引证文献18

二级引证文献380

相关作者

相关机构

相关主题

浏览历史

基于聚类的特征选择方法 被引量：18

参考文献12

同被引文献212

引证文献18

二级引证文献380

相关作者

相关机构

相关主题

浏览历史

基于聚类的特征选择方法被引量：18