现有的距离度量学习算法都是假设训练数据和测试数据服从相同的分布,但是该假设在实际中不一定成立。当训练数据和测试数据的分布不同时,利用训练数据学习得到的度量函数可能难以适用于测试数据。针对上述问题,本文在NCA(Neighbourhood ...现有的距离度量学习算法都是假设训练数据和测试数据服从相同的分布,但是该假设在实际中不一定成立。当训练数据和测试数据的分布不同时,利用训练数据学习得到的度量函数可能难以适用于测试数据。针对上述问题,本文在NCA(Neighbourhood Components Analysis)度量学习方法的基础上,通过引入概率密度比值对目标函数加权,提出了一种采用概率密度比值估计的距离度量学习方法(Distance metric learning with ProbabilityDensity Ratio Estimation,DML-PDR)。在UCI数据集和Corel图像库上的KNN分类实验表明,新方法克服了传统度量学习方法的不一致问题,提高了分类的准确率。展开更多
高维因子模型在超高维度的大型数据集降维处理中发挥了重要作用。目前,高维因子模型有两种主成分估计方法,分别是基于协方差的主成分估计PCE和基于滞后自协方差的主成分估计LPCE。本文以S & P 500公司股票数据的高维因子建模为例,...高维因子模型在超高维度的大型数据集降维处理中发挥了重要作用。目前,高维因子模型有两种主成分估计方法,分别是基于协方差的主成分估计PCE和基于滞后自协方差的主成分估计LPCE。本文以S & P 500公司股票数据的高维因子建模为例,比较了PCE和LPCE在高维股票数据降维中的实际表现,其中因子个数通过信息准则法和特征值比值估计法确定。结果表明,在高维非平稳序列因子模型中,PCE的均方根误差和预测误差都比LPCE小,PCE得到的因子也比LPCE更能捕捉高维非平稳序列变化特征。在高维平稳序列因子模型中,PCE和LPCE的估计误差相同,两者的估计因子均能还原高维平稳序列的变化特征。此外,在确定因子个数时,信息准则倾向于高估因子个数,表现出严重的过拟合。特征值比值估计法的估计结果相对更准确和稳定,在PCE中倾向于放弃相对弱势的主成分,在LPCE中则倾向于将弱势的主成分视为因子。展开更多
文摘现有的距离度量学习算法都是假设训练数据和测试数据服从相同的分布,但是该假设在实际中不一定成立。当训练数据和测试数据的分布不同时,利用训练数据学习得到的度量函数可能难以适用于测试数据。针对上述问题,本文在NCA(Neighbourhood Components Analysis)度量学习方法的基础上,通过引入概率密度比值对目标函数加权,提出了一种采用概率密度比值估计的距离度量学习方法(Distance metric learning with ProbabilityDensity Ratio Estimation,DML-PDR)。在UCI数据集和Corel图像库上的KNN分类实验表明,新方法克服了传统度量学习方法的不一致问题,提高了分类的准确率。
文摘高维因子模型在超高维度的大型数据集降维处理中发挥了重要作用。目前,高维因子模型有两种主成分估计方法,分别是基于协方差的主成分估计PCE和基于滞后自协方差的主成分估计LPCE。本文以S & P 500公司股票数据的高维因子建模为例,比较了PCE和LPCE在高维股票数据降维中的实际表现,其中因子个数通过信息准则法和特征值比值估计法确定。结果表明,在高维非平稳序列因子模型中,PCE的均方根误差和预测误差都比LPCE小,PCE得到的因子也比LPCE更能捕捉高维非平稳序列变化特征。在高维平稳序列因子模型中,PCE和LPCE的估计误差相同,两者的估计因子均能还原高维平稳序列的变化特征。此外,在确定因子个数时,信息准则倾向于高估因子个数,表现出严重的过拟合。特征值比值估计法的估计结果相对更准确和稳定,在PCE中倾向于放弃相对弱势的主成分,在LPCE中则倾向于将弱势的主成分视为因子。