由于蕴含事物发展规律,时序数据上的数据挖掘正成为大数据决策的重要组成部分.作为时序数据挖掘的一种基本操作,时序数据相似连接可以找出给定相似度度量下的所有相似时序数据对.研究表明,动态时间规整(Dynamic Time Warping,DTW)正在...由于蕴含事物发展规律,时序数据上的数据挖掘正成为大数据决策的重要组成部分.作为时序数据挖掘的一种基本操作,时序数据相似连接可以找出给定相似度度量下的所有相似时序数据对.研究表明,动态时间规整(Dynamic Time Warping,DTW)正在文本挖掘、趋势预测等越来越多的科学与社会应用领域中成为时序数据上目前最佳的相似性度量方法.该文首次提出采用DTW作为相似性度量方法的时序数据相似连接问题.特别地,该文首次提出了基于阈值和基于Top-k的两种DTW度量上的时间序列相似连接任务.除了服务于进一步的时序数据挖掘算法,这两个任务还具有机器翻译、关联检测等广泛的直接应用.但是,直接的相似连接方法因为时序数据的规模大、DTW计算复杂性高而不能在实际中工作.尽管存在很多基于DTW的索引和上下界计算方法,这些工作主要关注DTW度量上的快速检索而非相似连接.因此,这些方法都假设存在一个固定的时序数据作为查询,并根据查询使用时间和空间复杂度很高的方法构建索引或进行预计算.但在文中的相似连接问题中,所有时序数据都是查询,因此这些方法的构建索引和预计算的时间比直接的相似连接方法需要的处理时间还长.为此,该文针对两种相似连接任务提出了两个基于DTW上下界的剪裁框架用于减少准确DTW相似性的计算次数.基于划分,该文为DTW度量设计了新颖的上下界计算方案.由于细粒度的划分带来上下界接近准确的DTW相似性但需要更长的计算时间,而粗粒度的划分需要更短的计算时间和与准确DTW相似性有较大差距的上下界,该文设计了基于二分查找的机制来自动找到合适的划分粒度,实现了整体的高处理性能.面对单机不能容纳全部时序数据和运行时间长的情况,该文将提出的两种相似连接处理框架利用MapReduce并行计算框架扩展到了分布式环境.该文在两个真实数据集上验证了文中提出的DTW相似连接在实际应用中的效果,并在真实与合成数据集上进行了充分的实验,验证了文中方法的高效性.展开更多
文摘由于蕴含事物发展规律,时序数据上的数据挖掘正成为大数据决策的重要组成部分.作为时序数据挖掘的一种基本操作,时序数据相似连接可以找出给定相似度度量下的所有相似时序数据对.研究表明,动态时间规整(Dynamic Time Warping,DTW)正在文本挖掘、趋势预测等越来越多的科学与社会应用领域中成为时序数据上目前最佳的相似性度量方法.该文首次提出采用DTW作为相似性度量方法的时序数据相似连接问题.特别地,该文首次提出了基于阈值和基于Top-k的两种DTW度量上的时间序列相似连接任务.除了服务于进一步的时序数据挖掘算法,这两个任务还具有机器翻译、关联检测等广泛的直接应用.但是,直接的相似连接方法因为时序数据的规模大、DTW计算复杂性高而不能在实际中工作.尽管存在很多基于DTW的索引和上下界计算方法,这些工作主要关注DTW度量上的快速检索而非相似连接.因此,这些方法都假设存在一个固定的时序数据作为查询,并根据查询使用时间和空间复杂度很高的方法构建索引或进行预计算.但在文中的相似连接问题中,所有时序数据都是查询,因此这些方法的构建索引和预计算的时间比直接的相似连接方法需要的处理时间还长.为此,该文针对两种相似连接任务提出了两个基于DTW上下界的剪裁框架用于减少准确DTW相似性的计算次数.基于划分,该文为DTW度量设计了新颖的上下界计算方案.由于细粒度的划分带来上下界接近准确的DTW相似性但需要更长的计算时间,而粗粒度的划分需要更短的计算时间和与准确DTW相似性有较大差距的上下界,该文设计了基于二分查找的机制来自动找到合适的划分粒度,实现了整体的高处理性能.面对单机不能容纳全部时序数据和运行时间长的情况,该文将提出的两种相似连接处理框架利用MapReduce并行计算框架扩展到了分布式环境.该文在两个真实数据集上验证了文中提出的DTW相似连接在实际应用中的效果,并在真实与合成数据集上进行了充分的实验,验证了文中方法的高效性.