基于符号化聚合近似的时间序列相似性复合度量方法被引量：7

Composite metric method for time series similarity measurement based on symbolic aggregate approximation

下载PDF

导出

摘要基于关键点的符号化聚合近似(SAX)改进算法(KP_SAX)在SAX的基础上利用关键点对时间序列进行点距离度量,能更有效地计算时间序列的相似性,但对时间序列的模式信息体现不足,仍不能合理地度量时间序列的相似性。针对SAX与KP_SAX存在的缺陷,提出了一种基于SAX的时间序列相似性复合度量方法。综合了点距离和模式距离两种度量,先利用关键点将分段累积近似(PAA)法平均分段进一步细分成各个子分段;再用一个包含此两种距离信息的三元组表示每个子分段;最后利用定义的复合距离度量公式计算时间序列间的相似性,计算结果能更有效地反映时间序列间的差异。实验结果显示,改进方法的时间效率比KP_SAX算法仅降低了0.96%,而在时间序列区分度性能上优于KP_SAX算法和SAX算法。 Key point-based Symbolic Aggregate approximation （SAX） improving algorithm （KP SAX） uses key points to measure point distance of time series based on SAX, which can measure the similarity of time series more effectively. However, it is too short of information about the patterns of time series to measure the similarity of time series reasonably. To overcome the defects, a composite metric method of time series similarity measurement based on SAX was proposed. The method synthesized both point distance measurement and pattern distance measurement. First, key points were used to further subdivide the Piecewise Aggregate Approximation （PAA） segments into several sub-segments, and then a triple including the information about the two kinds of distance measurement was used to represent each sub-segment. Finally a composite metric formula was used to measure the similarity between two time series. The calculation results can reflect the difference between two time series more effectively. The experimental results show that the proposed method is only 0.96% lower than KP_SAX algorithm in time efficiency. However, it is superior to the KP_ SAX algorithm and the traditional SAX algorithm in differentiating between two time series.

作者刘芬郭躬德

机构地区福建师范大学数学与计算机科学学院福建师范大学网络安全与密码技术福建省高校重点实验室

出处《计算机应用》 CSCD 北大核心 2013年第1期192-198,共7页 journal of Computer Applications

基金国家自然科学基金资助项目(61070062 61175123) 福建高校产学合作科技重大项目(2010H6007)

关键词时间序列符号化聚合近似相似性模式距离复合度量 time series Symbolic Aggregate approximation （SAX） similarity pattern distance composite metric

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1李桂玲,王元珍,杨林权,吴湘宁.基于SAX的时间序列相似性度量方法[J].计算机应用研究,2012,29(3):893-896. 被引量：14
2AGRAWAL R, FALOUTSOS C, SWAMI A N. Efficient similarity search in sequence databases [ C]// Proceedings of the 4th Interna- tional Conference on Foundations of Data Organization and Algo- rithms. Berlin: Springer, 1993:69-84.
3LIN J, KEOGH E, LONARDI S, et al. A symbolic representation of time series, with implications for streaming algorithms [C]// Proceed- ings of the 8th SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery. New York: ACM Press, 2003: 2-11.
4KEOGH E, CHAKRABARTI K, PAZZANI M, et al. Dimensionali- ty reduction for fast similarity search in large time series databases [ J]. Knowledge and Information Systems, 2001, 3(3): 263-286.
5SHIEH J, KEOGH E. iSAX: disk-aware mining and indexing of massive time series datasets [ J]. Data Mining and Knowledge Dis- cnvery, 2009, 19(1): 24-57.
6CAMERA A, PALPANAS T, SHIEH J, et al. iSAX 2.0: indexing and mining one billion time series [ C]// Proceedings of the lOth IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2010:58 -67.
7陈湘涛,李明亮,陈玉娟.基于分割模式的时间序列矢量符号化算法[J].计算机工程,2011,37(4):55-57. 被引量：6
8同秋艳,孟凡荣.一种基于关键点的SAX改进算法[J].计算机研究与发展,2009,46(z2):483-490.
9刘威,邵良杉,曾繁慧,王江,付巍巍.基于SAX方法的股票时间序列数据相似性度量方法研究[J].计算机工程与科学,2009,31(9):115-118. 被引量：9
10朱天,白似雪.基于模式距离度量的时间序列相似性搜索[J].微计算机信息,2007,23(30):216-217. 被引量：8

二级参考文献37

1刘世元,江浩.面向相似性搜索的时间序列表示方法述评[J].计算机工程与应用,2004,40(27):53-59. 被引量：14
2肖辉,胡运发.基于分段时间弯曲距离的时间序列挖掘[J].计算机研究与发展,2005,42(1):72-78. 被引量：59
3李元媛,肖冬荣,赵妍.混沌理论在股票市场分析上的应用[J].微计算机信息,2006,22(03X):148-150. 被引量：3
4兰秋军,马超群.时序相似度的主观偏好模型及其系数估计的“锚点”方法[J].系统工程,2006,24(9):112-116. 被引量：1
5董晓莉,顾成奎,王正欧.基于形态的时间序列相似性度量研究[J].电子与信息学报,2007,29(5):1228-1231. 被引量：34
6刘懿,鲍德沛,杨泽红,赵雁南,贾培发,王家钦.新型时间序列相似性度量方法研究[J].计算机应用研究,2007,24(5):112-114. 被引量：24
7Keogh E, Lin J, Fu A. HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence[C]//Proc of the 5th IEEE Int'l Conf on Data Mining,2005:226-233.
8Keogh E, Chakrabarti K, Pazzani M, et al. Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases[C]//Proc of the ACM SIGMOD lnt'l Conf on Management of Data, 2001 : 51-162.
9Perng Chang-Shing, Wang Haixun, Zhang S R, et al. Landmarks: a New Model for Similarity-Based Pattern Querying in Time Series Databases[C]//Proc of ICDE' 00, 2000: 33- 42.
10Lin J, Keogh E, Lonardi S, et al. A Symbolic Representation of Time Series, with Implications for Streaming Algorithms[C]//Proc of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, 2003:2-11.

共引文献44

1宋志坤,徐立成,胡晓依,任海星,李强.基于改进型shapelets算法的动车组轴箱轴承故障诊断方法研究[J].仪器仪表学报,2021,42(2):66-74. 被引量：9
2白似雪,朱天.InClosPan:大型数据库中闭序列模式的增量挖掘[J].南昌大学学报（理科版）,2008,32(1):96-99. 被引量：3
3秦映波,胡劲松.基于模式搜索的连续函数寻优[J].微计算机信息,2010,26(3):184-185. 被引量：1
4安思,张蕰,叶鑫.基于AMT算法的时间序列数据在甘特图中的应用[J].计算机与数字工程,2011,39(6):146-149. 被引量：3
5李海林,郭崇慧,邱望仁.正态云模型相似度计算方法[J].电子学报,2011,39(11):2561-2567. 被引量：94
6刘芬,郭躬德.一种改进的时间序列模式发现算法[J].漳州师范学院学报（自然科学版）,2011,24(4):27-33. 被引量：2
7李桂玲,王元珍,杨林权,吴湘宁.基于SAX的时间序列相似性度量方法[J].计算机应用研究,2012,29(3):893-896. 被引量：14
8倪丽萍,倪志伟.一种基于趋势分形维数的股指时间序列相似性分析方法[J].系统工程理论与实践,2012,32(9):1900-1907. 被引量：8
9谢福鼎,李迎,孙岩,张永.改进的符号化时间序列处理方法[J].计算机工程与设计,2012,33(10):3950-3953. 被引量：5
10谭宏强,牛强.基于滑动窗口及局部特征的时间序列符号化方法[J].计算机应用研究,2013,30(3):796-798. 被引量：12

同被引文献63

1尹达,刘锋报,康毅力,郭斌,罗威,王涛,晏智航.库车山前盐膏层钻井液漏失成因类型判定[J].钻采工艺,2019,42(5):121-123. 被引量：12
2黄河,史忠植,郑征.基于形状特征k-d树的多维时间序列相似搜索[J].软件学报,2006,17(10):2048-2056. 被引量：11
3张建业,潘泉,张鹏,梁建海.基于斜率表示的时间序列相似性度量方法[J].模式识别与人工智能,2007,20(2):271-274. 被引量：36
4喻高瞻,彭宏,胡劲松,郑启伦.时间序列数据的分段线性表示[J].计算机应用与软件,2007,24(12):17-18. 被引量：19
5AGRAWAL R, SRIKANT R. Mining sequential patterns [C]// ICDE '95: Proceedings of the 11th International Conference on Data Engineering. Washington, DC: IEEE Computer Society, 1995: 3-14.
6RATANAMAHATANA C A, LIN J, GUNOPULOS D, et al. Data Mining and Knowledge Discovery Handbook [M]. Berlin: Springer, 2005: 1069-1103.
7HAN J, DONG G, YIN Y. Efficient mining of partial periodic patterns in time series database [C]// Proceedings of the 1999 15th International Conference on Data Engineering. Washington, DC: IEEE Computer Society, 1999: 106-115.
8SIRISHA G N V G, SHASHI M, RAJU G V P. Periodic pattern mining—algorithms and applications [EB/OL]. [2015-12-04]. http://globaljournals.org/GJCST_Volume13/4-Periodic-Pattern-Mining-Algorithms.pdf.
9YU X, YU H. An asynchronous periodic sequential patterns mining algorithm with multiple minimum item supports [C]// Proceedings of the 2014 9th International Conference on P2P, Parallel, Grid, Cloud and Internet Computing. Washington, DC: IEEE Computer Society, 2014: 274-281.
10AMIR A, APOSTOLICO A, EISENBERG E, et al. Detecting approximate periodic patterns [C]// Proceedings of the 1st Mediterranean Conference on Design and Analysis of Algorithms. Berlin: Springer, 2012: 1-12.

引证文献7

1王伟,王建东,张霞.基于改进符号化度量方法的机场噪声异常检测[J].计算机与现代化,2014(8):5-10. 被引量：2
2邹蕾,高学东.基于导数序列的时间序列同构关系发现[J].计算机应用,2016,36(9):2472-2474. 被引量：2
3戴珂.基于线性散列索引的时间序列查询方法研究[J].软件工程,2016,19(8):1-8. 被引量：1
4陈海燕,刘晨晖,孙博.时间序列数据挖掘的相似性度量综述[J].控制与决策,2017,32(1):1-11. 被引量：78
5彭成,贺婧,池昊.一种确定滑动窗口规模的边界距离算法[J].计算机科学,2019,46(B06):482-487. 被引量：4
6王慧健,刘峥,李云,李涛.基于神经网络语言模型的时间序列趋势预测方法[J].计算机工程,2019,45(7):13-19. 被引量：33
7史肖燕,季勇,崔猛,李忠明,赵飞.基于符号聚合近似法的钻井液漏失类型自动识别[J].石油钻采工艺,2023,45(6):696-703. 被引量：1

二级引证文献121

1李冉.基于语义图模型的跨语言网络信息检索方法研究[J].周口师范学院学报,2020(2):100-103. 被引量：3
2魏晖,杨飞,吴仕凤,朱磊,姚晗星,任晓毅.静态轨检历史数据匹配方法及其性能评价[J].铁道工程学报,2022,39(9):19-25.
3苏定立,谢小荣,张占松,胡贺松,刘春林,雷翅.基于模糊综合评价法的佛山某厂房基础工程稳定性评价[J].建筑科学,2020,36(S01):77-83. 被引量：3
4侯德华,张庆,李忠玉,张会峰,Busel A V.基于DTW算法的复合改性沥青相容性评价研究[J].化工新型材料,2023,51(S01):191-196. 被引量：1
5丁磊,陈殿远,胡向阳,张恒荣,王一.加速动态时间规整算法在测井曲线相似性度量中的改进及其应用[J].吉林大学学报（地球科学版）,2022,52(6):2042-2050.
6孙致信,龚敏珠,陈琳军,马骏,张志慈,华漱涯,曹晶.自体造血干细胞移植治疗难治性恶性淋巴瘤[J].上海医学,2000,23(5):282-285. 被引量：2
7谢婷玉,徐德刚,阳春华,桂卫华.基于重要点双重评价的时间序列趋势提取[J].信息与控制,2018,47(6):730-736. 被引量：5
8康琳琳.分布式实时数据库系统技术的探析[J].中小企业管理与科技,2015(32):267-267. 被引量：1
9羊斌.分布式市场监管数据库的关联规则挖掘[J].信息化研究,2017,43(2):61-64.
10刘琪,张鹏程,王继民.基于相关反馈的时间序列相似性搜索[J].计算机与现代化,2018(2):22-26.

1郭浩东,陈岭,丁永锋,陈根才.运动识别中基于主题的特征构建方法[J].浙江大学学报（工学版）,2016,50(6):1149-1154.
2孙光明,王硕,邹静昭.多因素复合度量的协同过滤推荐算法[J].计算机应用研究,2015,32(10):2896-2900. 被引量：5
3系统识别与模式识别[J].电子科技文摘,2006(5):137-139.
4白瑞阳,吴晓燕,陈永兴,卜祥伟,姚春明.基于数据挖掘的仿真模型验证[J].现代防御技术,2015,43(1):168-172. 被引量：1
5李海林,郭崇慧.基于形态特征的时间序列符号聚合近似方法[J].模式识别与人工智能,2011,24(5):665-672. 被引量：18
6朱天,白似雪.基于模式距离度量的时间序列相似性搜索[J].微计算机信息,2007,23(30):216-217. 被引量：8
7刘敏,韩继红,王亚弟.战术互联网中基于信任的k跳复合度量分簇算法[J].计算机应用,2010,30(2):521-524. 被引量：1
8陈海燕,刘晨晖,孙博.时间序列数据挖掘的相似性度量综述[J].控制与决策,2017,32(1):1-11. 被引量：78
9门连生,卫婧菲,李中.基于形态相似距离的时间序列相似性度量[J].计算机工程与应用,2015,51(4):120-122. 被引量：5
10吕纯洁,姚永玉,江浩.历史时序数据相似性提取方法在机械故障诊断中的应用[J].机械研究与应用,2009,22(2):21-23. 被引量：3

计算机应用

2013年第1期

浏览历史

内容加载中请稍等...

基于符号化聚合近似的时间序列相似性复合度量方法被引量：7

参考文献11

二级参考文献37

共引文献44

同被引文献63

引证文献7

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

基于符号化聚合近似的时间序列相似性复合度量方法 被引量：7

参考文献11

二级参考文献37

共引文献44

同被引文献63

引证文献7

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

基于符号化聚合近似的时间序列相似性复合度量方法被引量：7