基于动态时间规整的时序数据相似连接被引量：9

Similarity Join on Time Series under Dynamic Time Warping

下载PDF

导出

摘要由于蕴含事物发展规律,时序数据上的数据挖掘正成为大数据决策的重要组成部分.作为时序数据挖掘的一种基本操作,时序数据相似连接可以找出给定相似度度量下的所有相似时序数据对.研究表明,动态时间规整(Dynamic Time Warping,DTW)正在文本挖掘、趋势预测等越来越多的科学与社会应用领域中成为时序数据上目前最佳的相似性度量方法.该文首次提出采用DTW作为相似性度量方法的时序数据相似连接问题.特别地,该文首次提出了基于阈值和基于Top-k的两种DTW度量上的时间序列相似连接任务.除了服务于进一步的时序数据挖掘算法,这两个任务还具有机器翻译、关联检测等广泛的直接应用.但是,直接的相似连接方法因为时序数据的规模大、DTW计算复杂性高而不能在实际中工作.尽管存在很多基于DTW的索引和上下界计算方法,这些工作主要关注DTW度量上的快速检索而非相似连接.因此,这些方法都假设存在一个固定的时序数据作为查询,并根据查询使用时间和空间复杂度很高的方法构建索引或进行预计算.但在文中的相似连接问题中,所有时序数据都是查询,因此这些方法的构建索引和预计算的时间比直接的相似连接方法需要的处理时间还长.为此,该文针对两种相似连接任务提出了两个基于DTW上下界的剪裁框架用于减少准确DTW相似性的计算次数.基于划分,该文为DTW度量设计了新颖的上下界计算方案.由于细粒度的划分带来上下界接近准确的DTW相似性但需要更长的计算时间,而粗粒度的划分需要更短的计算时间和与准确DTW相似性有较大差距的上下界,该文设计了基于二分查找的机制来自动找到合适的划分粒度,实现了整体的高处理性能.面对单机不能容纳全部时序数据和运行时间长的情况,该文将提出的两种相似连接处理框架利用MapReduce并行计算框架扩展到了分布式环境.该文在两个真实数据集上验证了文中提出的DTW相似连接在实际应用中的效果,并在真实与合成数据集上进行了充分的实验,验证了文中方法的高效性. Revealing evolution insights of things, time series mining is becoming an indispensable component of big data driven decision making. As a fundamental operation in time series mining, given a similarity measure, similarity join gathers all pairs of similar time series. It is demonstrated that DTW （Dynamic Time Warping）has served as the best measure in disparate domains ranging from scientific to social fields such as text mining or tendency prediction. In this paper, we for the first time propose to join similar time series with DTW as the similarity measure. Specifically, we for the first time define two tasks, the threshold based and the Top- k based similarity join under DTW. Besides to serve time series further mining tasks such as stock prediction, these two tasks can be directly applied to a wide spectrum of applications such as machine translation and delay-correlation detection. Unfortunately, trivial solutions suffer from the large scale nature of time series and high computational complexity of DTW. Numerous indexing techniques and various lower and upper bounds of DTW have been proposed. However, these works aim at similarity search rather than similarity join under DTW. In concrete, they assume that a fixed time series serves as a query and index or precomputation is performed on the query time series. It is time and space - consuming to construct index and precompute for the fixed time series. However, under our similarity join task, all time series serve as the fixed query and thus the index construction or precomputation time for all the time series is even beyond the execution time of the trivial solution and thus these techniques become impractical. To tame similarity join under DTW, we first propose two pruning based processing frameworks for the threshold-based and Top- k based similarity join tasks respectively. These two frameworks prune unnecessary calculation of accurate DTW similarity between time series by leveraging the cheap upper and lower bound of DTW measure. In this way, we further devise novel upper and lower bounds for DTW measure. Both bounds are developed on top on time series partition. Since fine - grained partition enables more accurate DTW similarity but consumes more execution time while coarse - grained partition results in less accurate DTW similarity but consumes less execution time, we develop a mechanism based on binary search to quickly tune the granularities of partitions automatically and thus enable the overall practical performance. When single machine cannot meet the requirement of performance or cannot hold the massive time series, we extend our processing frameworks to distributed environment. Specifically, we design a MapReduce implementation to our pruning based similarity join framework. We conduct extensive experiments to demonstrate the effectiveness and efficiency of our methods. First, we apply the two proposed similarity join tasks on two real world datasets to demonstrate that the threshold-based similarity join task can be used to find correlated power supplement sources and find the same entities in different languages. Then, we use both real world and synthetic datasets to demonstrate that our methods outperform existing solutions consistently under various lengths and volume of time series.

作者周宁南张孝刘城山王珊 ZHOU NingNan;ZHANG Xiao;LIU ChengShan;WANG Shan(Key Laboratory of Data Engineering and Knowledge Engineering of the Ministry of Education（Renmin University of China）,Beijing 100872;Department of Information,Renmin University of China,Beijing 100872)

机构地区教育部数据工程与知识工程重点实验室(中国人民大学) 中国人民大学信息学院

出处《计算机学报》 EI CSCD 北大核心 2018年第8期1798-1813,共16页 Chinese Journal of Computers

基金国家重点研发计划项目(2016YFB10007002) 国家自然科学基金重点项目(61432006)资助~~

关键词动态时间规整时序数据相似连接划分剪枝分布剪枝 dynamic time warping time series similarity join partition-based pruning distribution-based pruning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1庞俊,谷峪,许嘉,于戈.相似性连接查询技术研究进展[J].计算机科学与探索,2013,7(1):1-13. 被引量：15

共引文献14

1曾光,陈性元,杜学绘,夏春涛.基于图相似匹配的政务网络结构一致性验证方法[J].计算机应用,2014,34(7):1909-1914.
2徐媛媛,陈华辉.基于MapReduce的增量式数据集的相似性连接[J].计算机应用研究,2014,31(11):3369-3374. 被引量：2
3马友忠,慈祥,孟小峰.海量高维向量的并行Top-k连接查询[J].计算机学报,2015,38(1):86-98. 被引量：10
4庞俊,于戈,许嘉,谷峪.基于MapReduce框架的海量数据相似性连接研究进展[J].计算机科学,2015,42(1):1-5. 被引量：16
5陈一帆,赵翔,何培俊,张维明,唐九阳.BMGSJoin:一种基于MapReduce的图相似度连接算法[J].模式识别与人工智能,2015,28(5):472-480. 被引量：4
6马友忠,贾世杰,张永新.基于卡方分布的高维数据相似性连接查询算法[J].计算机应用,2016,36(7):1993-1997. 被引量：2
7冯林静.多核的并行相似连接[J].计算机技术与发展,2017,27(7):43-46.
8王俊陆,张永普,宋宝燕,丁琳琳,张师文.基于Map-Reduce的向量空间约束连接路径查询方法[J].小型微型计算机系统,2018,39(9):2056-2059.
9鲍广慧,张兆功,李建中,玄萍.基于MapReduce的相似自连接新方法:过滤和内切圆算法[J].计算机研究与发展,2016,53(12):2847-2857.
10黄樱,宋春花,牛保宁.双向过滤的字符串相似连接验证方法[J].计算机工程与应用,2017,53(9):72-79. 被引量：2

同被引文献113

1乔铮,郭庆来,孙宏斌.电力—天然气耦合系统建模与规划运行研究综述[J].全球能源互联网,2020,3(1):14-26. 被引量：16
2汤俊,熊前兴.基于时间序列相似度的离群模式检测模型[J].武汉大学学报（工学版）,2006,39(3):111-114. 被引量：7
3杨一鸣,潘嵘,潘嘉林,杨强,李磊.时间序列分类问题的算法比较[J].计算机学报,2007,30(8):1259-1266. 被引量：40
4王爱民,葛彦强,刘国英,葛文英,周宏宇,王丁磊.甲骨文计算机辅助缀合技术研究[J].中国科技信息,2010(4):43-46. 被引量：2
5王爱民,刘国英,葛文英,周宏宇,王丁磊.甲骨文计算机辅助缀合系统设计[J].计算机工程与应用,2010,46(21):59-62. 被引量：6
6王爱民,葛彦强,刘国英,葛文英,周宏宇.计算机辅助甲骨文缀合关键技术研究[J].计算机测量与控制,2010,18(7):1612-1614. 被引量：3
7顾绍通.甲骨文数字化处理研究述评[J].西华大学学报（自然科学版）,2010,29(5):38-42. 被引量：9
8王爱民,钟珞,葛彦强,刘国英.甲骨碎片智能缀合关键技术研究[J].武汉理工大学学报,2010,32(20):194-199. 被引量：4
9夏宁霞,苏一丹,覃希.一种高效的K-medoids聚类算法[J].计算机应用研究,2010,27(12):4517-4519. 被引量：47
10张洋,李强,李朝晖,杨海晶,马宏伟,李明慧.光伏-储能联合微网系统工程方案设计[J].电力系统保护与控制,2010,38(23):212-214. 被引量：28

引证文献9

1侯德华,张庆,李忠玉,张会峰,Busel A V.基于DTW算法的复合改性沥青相容性评价研究[J].化工新型材料,2023,51(S01):191-196. 被引量：1
2林志达,张华兵,张今革.基于时序数据库的监控数据存储方法研究[J].电子元器件与信息技术,2020,4(1):73-74. 被引量：12
3李学威,张瑞.并行传输程序中时序数据相似性检测软件设计[J].电脑知识与技术,2020,16(33):71-73. 被引量：1
4钱乔睿.基于涨落模式及凹凸模式的时间序列相似度算法[J].信息与电脑,2021,33(8):47-52.
5李明,张靖,吴尚,徐道磊.基于时序数据库的自动化运维技术研究[J].信息技术,2021,45(6):102-107. 被引量：8
6樊晓伟,王瑞妙,朱小军,姚龙,周兴华,张晓.基于改进遗传模拟退火算法的分布式光伏储能投资决策研究[J].可再生能源,2022,40(11):1539-1545. 被引量：1
7樊晓伟,王瑞妙,朱小军,姚龙,周兴华,张晓.考虑风光荷时序波动特性的配电网投资策略多目标优化[J].可再生能源,2023,41(2):268-276. 被引量：4
8周芷怡,尹冠雄,王彬,潘昭光,李更丰,别朝红.考虑基准点—修正点两阶段的天然气管道泄漏定位新方法[J].天然气工业,2023,43(5):88-99. 被引量：3
9张重生,王斌.基于序列相似性计算的甲骨残片缀合算法[J].电子学报,2023,51(4):860-869.

二级引证文献30

1隋佳欢,吴迪,朱盈,李寄玮,薛飞.基于机载时序数据库的数据管理方案[J].网络安全与数据治理,2023,42(S01):216-220.
2张懿卿,沈鸣.云存储技术在视频存储上的应用[J].电子元器件与信息技术,2020,4(4):80-81. 被引量：2
3侯振华.航空发动机运行数据预处理方法研究[J].电子元器件与信息技术,2020,4(7):73-74. 被引量：1
4孙景乐,王成华.时序数据流场景下的高效时间转化算法[J].电脑知识与技术,2021,17(3):127-128.
5贾子翔,翟春辉,贾捷.5G云化工业自动化监控系统的设计与实现[J].信息通信技术,2021,15(3):35-41. 被引量：2
6刘乐梅,林基艳.基于动态时序的岗位招聘数据挖掘研究[J].微型电脑应用,2021,37(8):140-142.
7薛传宇.计算机云计算下的数据存储探讨[J].电子元器件与信息技术,2021,5(12):9-10. 被引量：1
8刘鹏,张振振,张欣萍,管超,滕俊青,孙浩.Apache IoTDB在智能运维平台存储中的应用[J].智慧轨道交通,2022,59(5):13-17. 被引量：1
9寇寰,郭爱涛.基于计算机安全监控系统的关键技术分析[J].电子元器件与信息技术,2022,6(7):155-158. 被引量：1
10李红卫.基于改进遗传算法的嵌入式软件时序测试数据自动生成方法[J].自动化与仪器仪表,2022(9):75-78. 被引量：7

1王昶平,王朝坤,汪浩,王萌,陈俊.泛化双向相似连接[J].软件学报,2017,28(12):3223-3240.
2姚思奇,吴世有,张经纬,叶盛波,方广有.一种基于超宽带雷达的多观测点人体呼吸信号检测方法[J].电子测量技术,2017,40(10):188-195. 被引量：3
3区块链能解决“物联网设备连接”问题吗?[J].软件,2018,39(5):232-232.
4李川.工民建施工过程中的节能技术浅谈[J].门窗,2018,0(7):34-34.
5傅慧庆.高中地理课堂有效性探究[J].成功,2018(6):110-110.
6秦芳远.一种高效的音频时延估计算法[J].信息通信,2018,31(7):31-33.
7陈玉.低年级计算教学中学生科学精神的培养[J].考试周刊,2018,0(76):13-13.
8李海峰,王炜.在线学习内容分析法的基本研究范式[J].开放教育研究,2018,24(2):69-77. 被引量：5
9张河炳.二分查找算法的运用策略研究[J].福建电脑,2018,34(8):116-117.
10刘益申,管文建.一种基于C#实现的生产多批次数量值的选值算法[J].计算机与数字工程,2018,46(4):699-704.

计算机学报

2018年第8期

浏览历史

内容加载中请稍等...

基于动态时间规整的时序数据相似连接被引量：9

参考文献1

共引文献14

同被引文献113

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于动态时间规整的时序数据相似连接 被引量：9

参考文献1

共引文献14

同被引文献113

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于动态时间规整的时序数据相似连接被引量：9