时间序列早期分类(ETSC)有两个矛盾的目标:早期性和准确率。分类早期性的实现,总是以牺牲它的准确率为代价。现有基于优化的多变量时间序列(MTS)早期分类方法,虽然在成本函数中考虑了错误分类成本和延迟决策成本,却忽视了MTS数据集样本...时间序列早期分类(ETSC)有两个矛盾的目标:早期性和准确率。分类早期性的实现,总是以牺牲它的准确率为代价。现有基于优化的多变量时间序列(MTS)早期分类方法,虽然在成本函数中考虑了错误分类成本和延迟决策成本,却忽视了MTS数据集样本之间的局部结构对分类性能的影响。针对这个问题,提出一种基于正交局部保持映射(OLPP)和成本优化的MTS早期分类模型(OLPPMOAE)。首先,使用OLPP将MTS样本前缀映射到低维空间,保持原数据集的局部结构;其次,在低维空间训练一组高斯过程(GP)分类器,生成训练集每个时刻的类概率;最后,使用粒子群优化(PSO)算法从这些类概率中学习停止规则中的最优参数。在6个MTS数据集上的实验结果表明,在早期性基本持平的情况下,OLPPMOAE的准确率显著高于基于成本的R1_C_(lr)(stopping Rule and Cost function with regularization term l_(1)and l_(2))模型,平均准确率能够提升11.33%~15.35%,调和均值(HM)能够提升4.71%~9.01%。因此,所提模型能够以较高的准确率尽早地分类MTS。展开更多
聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可...聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可能多地保留数据的内蕴特征,识别代表知识的真正有趣的模式,具有重要意义。现有大多数时间序列聚类算法没有考虑数据集的局部结构,而数据集的局部结构对聚类性能有较大影响。提出一种基于局部线性嵌入(Locally Linear Embedding,LLE)和高斯混合模型(Gaussian Mixture Model,GMM)的时间序列聚类算法。首先从保留数据集局部结构的角度,使用LLE将每个高维时间序列样本表示为其k近邻的线性组合,并在低维空间进行重构,在保持数据集局部几何结构的同时实现维数约简;然后使用GMM从概率分布的角度进行聚类分析。与已有方法相比,该方法在单变量时间序列聚类上具有更优的效果。展开更多
文摘时间序列早期分类(ETSC)有两个矛盾的目标:早期性和准确率。分类早期性的实现,总是以牺牲它的准确率为代价。现有基于优化的多变量时间序列(MTS)早期分类方法,虽然在成本函数中考虑了错误分类成本和延迟决策成本,却忽视了MTS数据集样本之间的局部结构对分类性能的影响。针对这个问题,提出一种基于正交局部保持映射(OLPP)和成本优化的MTS早期分类模型(OLPPMOAE)。首先,使用OLPP将MTS样本前缀映射到低维空间,保持原数据集的局部结构;其次,在低维空间训练一组高斯过程(GP)分类器,生成训练集每个时刻的类概率;最后,使用粒子群优化(PSO)算法从这些类概率中学习停止规则中的最优参数。在6个MTS数据集上的实验结果表明,在早期性基本持平的情况下,OLPPMOAE的准确率显著高于基于成本的R1_C_(lr)(stopping Rule and Cost function with regularization term l_(1)and l_(2))模型,平均准确率能够提升11.33%~15.35%,调和均值(HM)能够提升4.71%~9.01%。因此,所提模型能够以较高的准确率尽早地分类MTS。
文摘聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可能多地保留数据的内蕴特征,识别代表知识的真正有趣的模式,具有重要意义。现有大多数时间序列聚类算法没有考虑数据集的局部结构,而数据集的局部结构对聚类性能有较大影响。提出一种基于局部线性嵌入(Locally Linear Embedding,LLE)和高斯混合模型(Gaussian Mixture Model,GMM)的时间序列聚类算法。首先从保留数据集局部结构的角度,使用LLE将每个高维时间序列样本表示为其k近邻的线性组合,并在低维空间进行重构,在保持数据集局部几何结构的同时实现维数约简;然后使用GMM从概率分布的角度进行聚类分析。与已有方法相比,该方法在单变量时间序列聚类上具有更优的效果。