基于不同相似性度量的方法对时间序列进行聚类,比较改进TS-DTW距离与其他距离度量相似性在聚类结果上的效果。结果表明基于改进TS-DTW距离度量的聚类结果比其他方法更有效。利用上海证券交易所50指数成分股进行实证研究,采用改进TS-DTW...基于不同相似性度量的方法对时间序列进行聚类,比较改进TS-DTW距离与其他距离度量相似性在聚类结果上的效果。结果表明基于改进TS-DTW距离度量的聚类结果比其他方法更有效。利用上海证券交易所50指数成分股进行实证研究,采用改进TS-DTW距离进行聚类,聚类结果表明不同类别的股票后续仍具有一定时效性,基于此构建投资组合,得到的时间序列聚类模型有助于降低投资组合的波动风险。Clustering time series based on different similarity metrics compares the effect of improved TS-DTW distance with other distance metrics of similarity in clustering results. The results show that the clustering results based on the improved TS-DTW distance metric are more effective than other methods. An empirical study is carried out using the constituent stocks of Shanghai Stock Exchange 50 Index, and the clustering results using the improved TS-DTW distance indicate that the follow-up of different categories of stocks is still time-sensitive, based on which the investment portfolios are constructed, and the obtained time-series clustering model helps to reduce the volatility risk of the investment portfolios.展开更多
聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可...聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可能多地保留数据的内蕴特征,识别代表知识的真正有趣的模式,具有重要意义。现有大多数时间序列聚类算法没有考虑数据集的局部结构,而数据集的局部结构对聚类性能有较大影响。提出一种基于局部线性嵌入(Locally Linear Embedding,LLE)和高斯混合模型(Gaussian Mixture Model,GMM)的时间序列聚类算法。首先从保留数据集局部结构的角度,使用LLE将每个高维时间序列样本表示为其k近邻的线性组合,并在低维空间进行重构,在保持数据集局部几何结构的同时实现维数约简;然后使用GMM从概率分布的角度进行聚类分析。与已有方法相比,该方法在单变量时间序列聚类上具有更优的效果。展开更多
文摘基于不同相似性度量的方法对时间序列进行聚类,比较改进TS-DTW距离与其他距离度量相似性在聚类结果上的效果。结果表明基于改进TS-DTW距离度量的聚类结果比其他方法更有效。利用上海证券交易所50指数成分股进行实证研究,采用改进TS-DTW距离进行聚类,聚类结果表明不同类别的股票后续仍具有一定时效性,基于此构建投资组合,得到的时间序列聚类模型有助于降低投资组合的波动风险。Clustering time series based on different similarity metrics compares the effect of improved TS-DTW distance with other distance metrics of similarity in clustering results. The results show that the clustering results based on the improved TS-DTW distance metric are more effective than other methods. An empirical study is carried out using the constituent stocks of Shanghai Stock Exchange 50 Index, and the clustering results using the improved TS-DTW distance indicate that the follow-up of different categories of stocks is still time-sensitive, based on which the investment portfolios are constructed, and the obtained time-series clustering model helps to reduce the volatility risk of the investment portfolios.
文摘聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可能多地保留数据的内蕴特征,识别代表知识的真正有趣的模式,具有重要意义。现有大多数时间序列聚类算法没有考虑数据集的局部结构,而数据集的局部结构对聚类性能有较大影响。提出一种基于局部线性嵌入(Locally Linear Embedding,LLE)和高斯混合模型(Gaussian Mixture Model,GMM)的时间序列聚类算法。首先从保留数据集局部结构的角度,使用LLE将每个高维时间序列样本表示为其k近邻的线性组合,并在低维空间进行重构,在保持数据集局部几何结构的同时实现维数约简;然后使用GMM从概率分布的角度进行聚类分析。与已有方法相比,该方法在单变量时间序列聚类上具有更优的效果。