在数据挖掘和机器学习等领域中,数据降维是解决高维数据分析与处理难题的有效手段。对t-SNE降维算法进行了深入的研究,并对t-SNE计算高维空间样本点相似度的过程进行了改进。t-SNE算法直接利用样本点在高维空间中的欧氏距离来度量样本...在数据挖掘和机器学习等领域中,数据降维是解决高维数据分析与处理难题的有效手段。对t-SNE降维算法进行了深入的研究,并对t-SNE计算高维空间样本点相似度的过程进行了改进。t-SNE算法直接利用样本点在高维空间中的欧氏距离来度量样本点的相似度,但欧氏距离在高维空间中不能忠实反映样本位于非线性流形上的相似关系。利用样本点在高维空间中的邻居结构,提出使用二阶邻近距离来度量样本点的相似度,并提出基于二阶邻近距离的随机近邻嵌入算法(Second Order t-SNE,ST-SNE)。在MNIST、USPS、COIL-20等多个数据集上进行了对比实验。实验结果表明,改进后的算法提升了降维结果的分类准确度和可视化效果。展开更多
文摘在数据挖掘和机器学习等领域中,数据降维是解决高维数据分析与处理难题的有效手段。对t-SNE降维算法进行了深入的研究,并对t-SNE计算高维空间样本点相似度的过程进行了改进。t-SNE算法直接利用样本点在高维空间中的欧氏距离来度量样本点的相似度,但欧氏距离在高维空间中不能忠实反映样本位于非线性流形上的相似关系。利用样本点在高维空间中的邻居结构,提出使用二阶邻近距离来度量样本点的相似度,并提出基于二阶邻近距离的随机近邻嵌入算法(Second Order t-SNE,ST-SNE)。在MNIST、USPS、COIL-20等多个数据集上进行了对比实验。实验结果表明,改进后的算法提升了降维结果的分类准确度和可视化效果。