针对已有的符号数据主成分分析法大多采用部分代表性信息来代替符号数据的缺点,提出一种直方图符号数据的主成分分析法。直方图数据以概率分布的形式表示符号数据更全面准确。根据直方图数据特点将其用分位函数表示,引入充分考虑直方图...针对已有的符号数据主成分分析法大多采用部分代表性信息来代替符号数据的缺点,提出一种直方图符号数据的主成分分析法。直方图数据以概率分布的形式表示符号数据更全面准确。根据直方图数据特点将其用分位函数表示,引入充分考虑直方图数据概率分布的Wasserstein距离,计算直方图变量协方差矩阵,从而进行主成分分析。但该方法求得的前若干个最大特征所对应的特征向量不一定为非负,这样在用分位函数表示主成分时不能保证它也是分位函数。为此,结合DSD(distribution and symmetric distribution)回归模型,对每个直方图变量定义相应的对称分布变量,根据Wasserstein距离下的广义协方差矩阵得到具有非负系数的所有主成分。通过实验说明了该算法的有效性。该方法同时克服了直方图PCA系数可能为负的缺点,更多地保留了原始数据的信息。展开更多
文摘针对已有的符号数据主成分分析法大多采用部分代表性信息来代替符号数据的缺点,提出一种直方图符号数据的主成分分析法。直方图数据以概率分布的形式表示符号数据更全面准确。根据直方图数据特点将其用分位函数表示,引入充分考虑直方图数据概率分布的Wasserstein距离,计算直方图变量协方差矩阵,从而进行主成分分析。但该方法求得的前若干个最大特征所对应的特征向量不一定为非负,这样在用分位函数表示主成分时不能保证它也是分位函数。为此,结合DSD(distribution and symmetric distribution)回归模型,对每个直方图变量定义相应的对称分布变量,根据Wasserstein距离下的广义协方差矩阵得到具有非负系数的所有主成分。通过实验说明了该算法的有效性。该方法同时克服了直方图PCA系数可能为负的缺点,更多地保留了原始数据的信息。