基于自适应邻域嵌入的无监督特征选择算法被引量：9

Adaptive Neighborhood Embedding Based Unsupervised Feature Selection

下载PDF

导出

摘要无监督特征选择算法可以对高维无标记数据进行有效的降维,从而减少数据处理的时间和空间复杂度,避免算法模型出现过拟合现象.然而,现有的无监督特征选择方法大都运用k近邻法捕捉数据样本的局部几何结构,忽略了数据分布不均的问题.为了解决这个问题,提出了一种基于自适应邻域嵌入的无监督特征选择(adaptive neighborhood embedding based unsupervised feature selection, ANEFS)算法,该算法根据数据集自身的分布特点确定每个样本的近邻数,进而构造样本相似矩阵,同时引入从高维空间映射到低维空间的中间矩阵,利用拉普拉斯乘子法优化目标函数进行求解.6个UCI数据集的实验结果表明:所提出的算法能够选出具有更高聚类精度和互信息的特征子集. Unsupervised feature selection algorithms can effectively reduce the dimensionality of high-dimensional unmarked data, which not only reduce the time and space complexity of data processing, but also avoid the over-fitting phenomenon of the feature selection model. However, most of the existing unsupervised feature selection algorithms use k-nearest neighbor method to capture the local geometric structure of data samples, ignoring the problem of uneven data distribution. To solve this problem, an unsupervised feature selection algorithm based on adaptive neighborhood embedding(ANEFS) is proposed. The algorithm determines the number of neighbors of samples according to the distribution of datasets, and then constructs similarity matrix. Meanwhile, a mid-matrix is introduced which maps from high-dimensional space to low-dimensional space, and Laplacian multiplier method is used to optimize the reconstructed function. The experimental results of six UCI datasets show that the proposed algorithm can select representative feature subsets which have higher clustering accuracy and normalize mutual information.

作者刘艳芳李文斌高阳 Liu Yanfang;Li Wenbin;Gao Yang(State Key Laboratory for Novel Software Technology(Nanjing University),Nanjing 210023;College of Mathematics and Information Engineering,Longyan University,Longyan,Fujian 364012)

机构地区计算机软件新技术国家重点实验室(南京大学) 龙岩学院数学与信息工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第8期1639-1649,共11页 Journal of Computer Research and Development

基金国家重点研发计划项目(2017YFB0702600,2017YFB0702601) 国家自然科学基金项目(61806096) 福建省中青年教师教育科研项目(科技类)(JAT170577,JAT190743) 龙岩市科技计划项目(2019LYF13002)。

关键词 K近邻自适应邻域流形学习特征选择无监督学习 k-nearest neighbor adaptive neighborhood manifold learning feature selection unsupervised learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1任永功,王玉玲,刘洋,张晶.基于用户相关性的动态网络媒体数据无监督特征选择算法[J].计算机学报,2018,41(7):1517-1535. 被引量：5
2谢娟英,丁丽娟,王明钊.基于谱聚类的无监督特征选择算法[J].软件学报,2020,31(4):1009-1024. 被引量：34
3徐峻岭,周毓明,陈林,徐宝文.基于互信息的无监督特征选择[J].计算机研究与发展,2012,49(2):372-382. 被引量：69
4谢娟英,丁丽娟.完全自适应的谱聚类算法[J].电子学报,2019,47(5):1000-1008. 被引量：22
5许行,张凯,王文剑.一种小样本数据的特征选择方法[J].计算机研究与发展,2018,55(10):2321-2330. 被引量：20
6刘艳芳,叶东毅.基于邻域保持学习的无监督特征选择算法[J].模式识别与人工智能,2018,31(12):1096-1102. 被引量：8
7Yue WU,Can WANG,Yue-qing ZHANG,Jia-jun BU.Unsupervised feature selection via joint local learning and group sparse regression[J].Frontiers of Information Technology & Electronic Engineering,2019,20(4):538-553. 被引量：2

二级参考文献43

1张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
4Langley P. Selection of relevant features in machine learning [C] //Proc of the AAAI Fall Symposium on Relevance. Menlo Park, CA: AAAI, 1994:1-5.
5Dash M, Liu H. Feature selection for classification [J]. International Journal of Intelligent Data Analysis, 1997, 1 (3): 131-156.
6Pudil P, Novovicova J. Novel methods for subset selection with respect to problem knowledge[J]. IEEE Intelligent Systems, 1998, 13(2): 66-74.
7Robnik-Sikonja M, Kononenko I. Theoretical and empirical analysis of ReliefF and RReliefF [J]. Machine Learning, 2003, 53(1): 23-69.
8Hall M. Correlation-based feature selection for discrete and numeric class machine learning [C]//Proc of the 7th Int Conf on Machine Learning. San Francisco: Morgan Kaufmann, 2000:359-366.
9Mitra P, Murthy C A, Pal S K. Unsupervised feature selection using feature similarity [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(3) : 301-312.
10Wei H L, Billings S A. Feature subset selection and ranking for data dimensionality reduction [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 29(1): 162-166.

共引文献147

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：8
2林莽.林莽散文选[J].岁月,2000(7):27-29.
3刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114. 被引量：24
4彭飞,曾学文,邓浩江,刘磊.基于特征子集的推荐系统托攻击无监督检测[J].计算机工程,2014,40(5):109-114. 被引量：5
5刘海峰,姚泽清,苏展.基于词频的优化互信息文本特征选择方法[J].计算机工程,2014,40(7):179-182. 被引量：13
6谭台哲,叶青,尚鹏.基于局部重构的无监督特征选择方法[J].计算机应用研究,2014,31(9):2828-2831. 被引量：5
7潘果.基于正则化互信息改进输入特征选择的分类算法[J].计算机工程与应用,2014,50(15):25-29. 被引量：3
8吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.语义词特征提取及其在维吾尔文文本分类中的应用[J].中文信息学报,2014,28(4):140-144. 被引量：15
9谭学清,周通,罗琳.一种基于类平均相似度的文本分类算法[J].现代图书情报技术,2014(9):66-73. 被引量：4
10潘俊,王瑞琴,孔繁胜.基于结构和约束保持的半监督特征选择[J].南京理工大学学报,2014,38(4):518-525. 被引量：2

同被引文献56

1车思琪,李学沛.评价系统视阈下中美企业致股东信情感话语对比分析——基于情感词典和机器学习的文本挖掘技术[J].外国语,2021,44(2):50-59. 被引量：14
2胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649. 被引量：288
3胡清华,赵辉,于达仁.基于邻域粗糙集的符号与数值属性快速约简算法[J].模式识别与人工智能,2008,21(6):732-738. 被引量：81
4蒋盛益,郑琪,张倩生.基于聚类的特征选择方法[J].电子学报,2008,36(B12):157-160. 被引量：18
5刘艳芳,叶东毅.基于邻域保持学习的无监督特征选择算法[J].模式识别与人工智能,2018,31(12):1096-1102. 被引量：8
6徐久成,徐天贺,孙林,任金玉.基于邻域粗糙集和粒子群优化的肿瘤分类特征基因选取[J].小型微型计算机系统,2014,35(11):2528-2532. 被引量：13
7刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：124
8钱晓东,曹阳.基于社区极大类发现的大数据并行聚类算法[J].南京理工大学学报,2016,40(1):117-123. 被引量：6
9钱彬,唐振民,李雪,徐威.基于流形鉴别信息的特征选择及其结构化稀疏表示[J].控制与决策,2016,31(7):1272-1278. 被引量：4
10古莹奎,潘高平,朱繁泷,承姿辛.基于邻域属性重要度与主成分分析的齿轮箱故障特征约简[J].中国机械工程,2016,27(13):1783-1789. 被引量：6

引证文献9

1张巍,张圳彬.联合图嵌入与特征加权的无监督特征选择[J].广东工业大学学报,2021,38(5):16-23. 被引量：2
2彭明,张继炎,王慧玲,黄宏昆,刘艳芳.基于自适应邻域和自表示正则的无监督特征选择算法[J].南京理工大学学报,2021,45(4):439-446.
3樊星男,刘晓娟.一种适用于轴承故障诊断的改进Mixup数据增强方法[J].工程机械,2022,53(4):38-45. 被引量：1
4杨秀璋,宋籍文,武帅,廖文婧,任天舒,刘建义.一种融合Bert预训练和BiLSTM的场景迁移情感分析研究[J].计算机时代,2022(8):69-74. 被引量：2
5江兵兵,何文达,吴兴宇,项俊浩,洪立斌,盛伟国.基于自适应图学习的半监督特征选择[J].电子学报,2022,50(7):1643-1652.
6周长顺,徐久成,瞿康林,申凯丽,章磊.一种基于改进邻域粗糙集中属性重要度的快速属性约简方法[J].西北大学学报（自然科学版）,2022,52(5):745-752. 被引量：2
7杨鹏飞,陈梅,张忠帅,陈永旭.自适应邻居和图正则的表示学习[J].小型微型计算机系统,2023,44(3):553-559. 被引量：1
8崔峻玮,翟亚红.近邻成分分析下的DDoS攻击检测[J].湖北汽车工业学院学报,2023,37(2):36-41.
9朱建勇,李兆祥,徐彬,杨辉,聂飞平.基于图嵌入的正交局部保持投影无监督特征选择[J].计算机科学,2023,50(S02):540-548.

二级引证文献8

1刘雁兵,肖骏,刘晓蓉,王义新,汪伟飞,吴凌翔.基于卷烟陈列识别和品牌文本表示的销量预测方法[J].无线电工程,2023,53(3):534-541.
2李宏,王静,李跃波,李富.基于熵权距离的图正则局部线性嵌入算法[J].化工自动化及仪表,2023,50(2):216-222.
3单振东,骆汉,刘顿.基于机器学习算法的蒸发量模型评估[J].水土保持研究,2023,30(3):289-294. 被引量：1
4郑丽苹,邓秀勤,张逸群.基于图结构的分类数据距离度量[J].广东工业大学学报,2023,40(4):109-116.
5陈垦,欧鸥,杨长志,龚帅,欧阳飞,向东升.基于改进YOLOX的落石检测方法[J].计算机测量与控制,2023,31(11):53-59. 被引量：1
6张建华,张淑唯,贺龙飞,李良辰.基于双维压缩与综合活性的案例知识进化研究[J].科技管理研究,2024,44(2):124-132.
7罗帆,蒋瑜.一种基于信息熵加权的属性约简算法[J].计算机应用研究,2024,41(4):1047-1051.
8王欣,干镞锐,许雅玺,史珂,郑涛.基于字词向量融合的民航智慧监管短文本分类[J].中国安全科学学报,2024,34(2):37-44.

1史彩娟,谷志斌.基于自步学习的半监督特征选择算法研究[J].电脑知识与技术,2020,16(15):210-210. 被引量：1
2王思翔,宋继伟,钟陈,张璋,刘倩颖,崔琦.基于PCA技术的人脸生物特征识别方式的设计[J].信息系统工程,2020,33(1):109-110.
3汪志远,降爱莲,奥斯曼·穆罕默德.基于正则互表示的无监督特征选择方法[J].计算机应用,2020,40(7):1896-1900. 被引量：6
4梁本来.群体智能在入侵检测特征选择中的应用综述[J].电脑知识与技术,2020,16(19):30-32. 被引量：1
5杨全月,董泽宇,马振宇,吴悠,崔琪,卢昊.基于SfM的针叶林无人机影像树冠分割算法[J].农业机械学报,2020,51(6):181-190. 被引量：12
6高方远,王秀美.一种基于块对角表示和近邻约束的子空间聚类方法[J].计算机科学,2020,47(7):66-70. 被引量：1
7乔松珊,张建军.高维数据下平均处理效应估计的调整方法[J].统计与决策,2020(10):33-36.
8张俊,王杨,李坤豪,李昌,赵传信.基于流形学习的多源传感器体域网数据融合模型[J].计算机科学,2020,47(8):323-328. 被引量：10
9吴俊,柯飂挺,任佳.参数自动优化的特征选择融合算法[J].计算机系统应用,2020,29(7):145-151. 被引量：4
10王军亭,宁静.电力系统配网长期电力负荷自动调度方法研究[J].自动化与仪器仪表,2019,0(12):176-178. 被引量：5

计算机研究与发展

2020年第8期

浏览历史

内容加载中请稍等...

基于自适应邻域嵌入的无监督特征选择算法被引量：9

参考文献7

二级参考文献43

共引文献147

同被引文献56

引证文献9

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于自适应邻域嵌入的无监督特征选择算法 被引量：9

参考文献7

二级参考文献43

共引文献147

同被引文献56

引证文献9

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于自适应邻域嵌入的无监督特征选择算法被引量：9