现有的多视图无监督特征选择方法大多存在以下问题:样本的相似度矩阵、不同视图的权重矩阵和特征的权重矩阵往往是预先定义的,不能有效刻画数据间的真实结构以及反映不同视图和特征的重要性,进而导致不能选出有用的特征。为解决上述问题...现有的多视图无监督特征选择方法大多存在以下问题:样本的相似度矩阵、不同视图的权重矩阵和特征的权重矩阵往往是预先定义的,不能有效刻画数据间的真实结构以及反映不同视图和特征的重要性,进而导致不能选出有用的特征。为解决上述问题,首先,在多视图模糊C均值聚类的基础上进行视图权重和特征权重的自适应学习,以同时实现特征选择并保证聚类性能;然后,在拉普拉斯秩约束下自适应地学习样本的相似度矩阵,并构建一个基于自适应学习的多视图无监督特征选择(ALMUFS)方法;最后,设计一种交替迭代优化算法对目标函数进行求解,并在8个真实数据集上将所提方法与6种无监督特征选择基线方法进行比较。实验结果表明,ALMUFS的聚类精度和F-measure优于其他方法,与自适应协作相似性学习(ACSL)相比,平均提高8.99和11.87个百分点;与ASVM(Adaptive Similarity and View Weight)相比,平均提高11.09和13.21个百分点,验证了所提方法的可行性和有效性。展开更多
目前,大多数特征选择算法是针对完整数据集的.而面对缺失及无标签数据集时,多数特征选择算法是无效的.为了解决缺失及无标签数据集的特征选择问题,本文提出了一种基于加权FCM,融合互信息同时交替更新特征权重的ReliefF算法(WFCM-IRelief...目前,大多数特征选择算法是针对完整数据集的.而面对缺失及无标签数据集时,多数特征选择算法是无效的.为了解决缺失及无标签数据集的特征选择问题,本文提出了一种基于加权FCM,融合互信息同时交替更新特征权重的ReliefF算法(WFCM-IReliefF,Improved ReliefF Based on WFCM).首先,对均值预填补的完整数据集利用FCM算法进行无监督学习,从而找到样本近邻;其次,将ReliefF算法计算得到的特征权重代入加权FCM算法中,解决原始空间与特征空间的不同造成的聚类效果不佳的问题,通过加权FCM算法和ReliefF算法交替更新得到关键特征;再者,对特征选择后的数据集利用矩阵分解技术改善对缺失数据的预填补.最后,利用多个UCI公共数据集的对比实验,验证了本文提出的算法与其他对比算法相比有较为满意的效果.展开更多
在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样...在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样本的特征进行评分,在这个过程中样本是被无差别看待的。然而这样做并不能完全捕捉数据的内在结构,不同样本的重要性应该是有差异的,并且样本权重与特征权重之间存在一种对偶关系,它们会互相影响。为此,提出了一种基于对偶流形重排序的无监督特征选择算法(Unsupervised Feature Selection Algorithm based on Dual Manifold Re-Ranking, DMRR),分别构建不同的相似性矩阵来刻画样本与样本、特征与特征、样本与特征的流形结构,并结合样本与特征的初始得分进行流形上的重排序。将DMRR与3种原始无监督特征选择算法以及2种无监督特征选择后处理算法进行比较,实验结果表明样本重要性信息、样本与特征之间的对偶关系有助于实现更优的特征选择。展开更多
文摘现有的多视图无监督特征选择方法大多存在以下问题:样本的相似度矩阵、不同视图的权重矩阵和特征的权重矩阵往往是预先定义的,不能有效刻画数据间的真实结构以及反映不同视图和特征的重要性,进而导致不能选出有用的特征。为解决上述问题,首先,在多视图模糊C均值聚类的基础上进行视图权重和特征权重的自适应学习,以同时实现特征选择并保证聚类性能;然后,在拉普拉斯秩约束下自适应地学习样本的相似度矩阵,并构建一个基于自适应学习的多视图无监督特征选择(ALMUFS)方法;最后,设计一种交替迭代优化算法对目标函数进行求解,并在8个真实数据集上将所提方法与6种无监督特征选择基线方法进行比较。实验结果表明,ALMUFS的聚类精度和F-measure优于其他方法,与自适应协作相似性学习(ACSL)相比,平均提高8.99和11.87个百分点;与ASVM(Adaptive Similarity and View Weight)相比,平均提高11.09和13.21个百分点,验证了所提方法的可行性和有效性。
文摘目前,大多数特征选择算法是针对完整数据集的.而面对缺失及无标签数据集时,多数特征选择算法是无效的.为了解决缺失及无标签数据集的特征选择问题,本文提出了一种基于加权FCM,融合互信息同时交替更新特征权重的ReliefF算法(WFCM-IReliefF,Improved ReliefF Based on WFCM).首先,对均值预填补的完整数据集利用FCM算法进行无监督学习,从而找到样本近邻;其次,将ReliefF算法计算得到的特征权重代入加权FCM算法中,解决原始空间与特征空间的不同造成的聚类效果不佳的问题,通过加权FCM算法和ReliefF算法交替更新得到关键特征;再者,对特征选择后的数据集利用矩阵分解技术改善对缺失数据的预填补.最后,利用多个UCI公共数据集的对比实验,验证了本文提出的算法与其他对比算法相比有较为满意的效果.
文摘在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样本的特征进行评分,在这个过程中样本是被无差别看待的。然而这样做并不能完全捕捉数据的内在结构,不同样本的重要性应该是有差异的,并且样本权重与特征权重之间存在一种对偶关系,它们会互相影响。为此,提出了一种基于对偶流形重排序的无监督特征选择算法(Unsupervised Feature Selection Algorithm based on Dual Manifold Re-Ranking, DMRR),分别构建不同的相似性矩阵来刻画样本与样本、特征与特征、样本与特征的流形结构,并结合样本与特征的初始得分进行流形上的重排序。将DMRR与3种原始无监督特征选择算法以及2种无监督特征选择后处理算法进行比较,实验结果表明样本重要性信息、样本与特征之间的对偶关系有助于实现更优的特征选择。