时间序列的聚类算法是分析预测互联网搜索对象搜索指数和社交网络话题热度随时间变化趋势的重要过程,但目前时间序列聚类算法的研究存在两点不足:首先国内外的时间序列聚类的研究都采用等长划分的时间序列,这往往会丢失许多重要特征点,...时间序列的聚类算法是分析预测互联网搜索对象搜索指数和社交网络话题热度随时间变化趋势的重要过程,但目前时间序列聚类算法的研究存在两点不足:首先国内外的时间序列聚类的研究都采用等长划分的时间序列,这往往会丢失许多重要特征点,对数据挖掘结果产生一定的负面影响;其次直接使用时间序列观测值不能准确地度量时间序列的形状相似度。因此,通过标准分数z_score预处理消除了时间序列观测值数量级差异的影响,并设计了基于滑窗的不等长时间序列STS(short time series)距离和类k-means聚类算法的中心曲线计算方法,最终提出了基于滑窗不等长时间序列STS距离的聚类算法,从而解决了不等长时间序列聚类问题。采集互联网上的真实数据集作为测试样本,并进行了大量实验。实验结果表明,基于滑窗不等长时间序列STS距离的聚类算法不仅消除了时间序列观测值数量级差异的影响,解决了不等长时间序列聚类问题,并且比现有算法取得了更优的聚类效果。展开更多
文摘时间序列的聚类算法是分析预测互联网搜索对象搜索指数和社交网络话题热度随时间变化趋势的重要过程,但目前时间序列聚类算法的研究存在两点不足:首先国内外的时间序列聚类的研究都采用等长划分的时间序列,这往往会丢失许多重要特征点,对数据挖掘结果产生一定的负面影响;其次直接使用时间序列观测值不能准确地度量时间序列的形状相似度。因此,通过标准分数z_score预处理消除了时间序列观测值数量级差异的影响,并设计了基于滑窗的不等长时间序列STS(short time series)距离和类k-means聚类算法的中心曲线计算方法,最终提出了基于滑窗不等长时间序列STS距离的聚类算法,从而解决了不等长时间序列聚类问题。采集互联网上的真实数据集作为测试样本,并进行了大量实验。实验结果表明,基于滑窗不等长时间序列STS距离的聚类算法不仅消除了时间序列观测值数量级差异的影响,解决了不等长时间序列聚类问题,并且比现有算法取得了更优的聚类效果。