在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样...在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样本的特征进行评分,在这个过程中样本是被无差别看待的。然而这样做并不能完全捕捉数据的内在结构,不同样本的重要性应该是有差异的,并且样本权重与特征权重之间存在一种对偶关系,它们会互相影响。为此,提出了一种基于对偶流形重排序的无监督特征选择算法(Unsupervised Feature Selection Algorithm based on Dual Manifold Re-Ranking, DMRR),分别构建不同的相似性矩阵来刻画样本与样本、特征与特征、样本与特征的流形结构,并结合样本与特征的初始得分进行流形上的重排序。将DMRR与3种原始无监督特征选择算法以及2种无监督特征选择后处理算法进行比较,实验结果表明样本重要性信息、样本与特征之间的对偶关系有助于实现更优的特征选择。展开更多
用图书的出版信息和用户生成的社会信息从社会媒体中搜索出相关的图书已成为信息检索系统的一个研究热点。大部分的信息检索系统都是由单一的检索方法构成,随着用户需求的不断增加,这些系统难以满足用户需求。针对上述问题,提出了一种...用图书的出版信息和用户生成的社会信息从社会媒体中搜索出相关的图书已成为信息检索系统的一个研究热点。大部分的信息检索系统都是由单一的检索方法构成,随着用户需求的不断增加,这些系统难以满足用户需求。针对上述问题,提出了一种基于重排序融合的图书检索系统。使用伪相关反馈技术对用户查询内容进行扩展,并将检索结果作为初排序结果;再使用用户生成的社会信息特征对初排序结果进行重排序,最后采用排序学习模型对多种重排序策略得到的结果进行融合。在INEX 2012—2014 Social Book Search公开数据集上针对其他先进检索系统进行了对比实验,实验结果表明,系统的性能(NDCG@10)优于其他方法构成的图书检索系统。展开更多
文摘在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样本的特征进行评分,在这个过程中样本是被无差别看待的。然而这样做并不能完全捕捉数据的内在结构,不同样本的重要性应该是有差异的,并且样本权重与特征权重之间存在一种对偶关系,它们会互相影响。为此,提出了一种基于对偶流形重排序的无监督特征选择算法(Unsupervised Feature Selection Algorithm based on Dual Manifold Re-Ranking, DMRR),分别构建不同的相似性矩阵来刻画样本与样本、特征与特征、样本与特征的流形结构,并结合样本与特征的初始得分进行流形上的重排序。将DMRR与3种原始无监督特征选择算法以及2种无监督特征选择后处理算法进行比较,实验结果表明样本重要性信息、样本与特征之间的对偶关系有助于实现更优的特征选择。
文摘用图书的出版信息和用户生成的社会信息从社会媒体中搜索出相关的图书已成为信息检索系统的一个研究热点。大部分的信息检索系统都是由单一的检索方法构成,随着用户需求的不断增加,这些系统难以满足用户需求。针对上述问题,提出了一种基于重排序融合的图书检索系统。使用伪相关反馈技术对用户查询内容进行扩展,并将检索结果作为初排序结果;再使用用户生成的社会信息特征对初排序结果进行重排序,最后采用排序学习模型对多种重排序策略得到的结果进行融合。在INEX 2012—2014 Social Book Search公开数据集上针对其他先进检索系统进行了对比实验,实验结果表明,系统的性能(NDCG@10)优于其他方法构成的图书检索系统。