为提高文本分类的准确率,提出了费希尔信息度量随机近邻嵌入算法(Fisher information metric based on stochastic neighbor embedding,FIMSNE).首先,把文本的词频向量看作统计流形上的概率密度样本点,利用费希尔信息度量计算样本点之...为提高文本分类的准确率,提出了费希尔信息度量随机近邻嵌入算法(Fisher information metric based on stochastic neighbor embedding,FIMSNE).首先,把文本的词频向量看作统计流形上的概率密度样本点,利用费希尔信息度量计算样本点之间的距离;然后,从信息几何的观点出发,对t分布随机近邻嵌入(t-stochastic neighbor embedding,t-SNE)进行改进,实现了新算法.真实文本数据集上的二维嵌入和分类实验的结果表明:FIMSNE的性能在总体上优于t-SNE、费希尔信息非参数嵌入(Fisher information nonparametric embedding,FINE)和主成分分析(principal components analysis,PCA).展开更多
文摘为提高文本分类的准确率,提出了费希尔信息度量随机近邻嵌入算法(Fisher information metric based on stochastic neighbor embedding,FIMSNE).首先,把文本的词频向量看作统计流形上的概率密度样本点,利用费希尔信息度量计算样本点之间的距离;然后,从信息几何的观点出发,对t分布随机近邻嵌入(t-stochastic neighbor embedding,t-SNE)进行改进,实现了新算法.真实文本数据集上的二维嵌入和分类实验的结果表明:FIMSNE的性能在总体上优于t-SNE、费希尔信息非参数嵌入(Fisher information nonparametric embedding,FINE)和主成分分析(principal components analysis,PCA).