MapReduce并行加速数据流多模式相似性搜索被引量：5

Accelerating parallel searching similar multiple patterns from data streams by using MapReduce

下载PDF

导出

摘要设计时间序列数据在Hadoop分布式文件系统(HDFS)中的有效存储方式,利用分布式缓存工具Distributed Cache将各子序列分发到Hadoop集群的计算节点上,将动态时间弯曲距离矩阵划分成多个子矩阵,采取并行迭代计算每条反对角线上子矩阵的方法,基于MapReduce编程模型,实现高效并行计算时间序列动态弯曲距离,通过改进剪裁冗余计算方法,设计实现一种数据流多模式相似性搜索并行算法。中国雪深长时间序列数据集的实验结果表明,当每条时间序列的长度达到5 000以上时,并行计算动态弯曲距离所需时间少于串行计算所需时间,当每条时间序列的长度达到9 000以上时,参与计算的集群节点越多,并行计算所需时间越少;当模式长度达到4 000、参与计算的集群节点数达5个以上时,从数据流中并行搜索出与模式匹配的相似子序列所需时间约为串行搜索所需时间的20%。 The effective storage mode for time series was designed on Hadoop Distributed File System （ HDFS）, the sub- series were distributed to the compute nodes on Hadoop cluster by applying Distributed Cache tool, and the matrix of dynamic time warping distances was partitioned into several sub-matrixes. Based on MapReduce programming mode, by parallel computing sub-matrixes in each back-diagonal iteratively, the parallel computation of dynamic time warping distances was implemented, and an efficient parallel algorithm for searching similar patterns from data streams was developed by improving pruning redundant computation. The experimental results on the data set of snow depth long time series in China show that when the length of each time series is equal to or longer than 5 000, the required time of parallel computing dynamic time warping distances is less than that of the corresponding sequential computation, and when the length of each time series is equal to or longer than 9000, the more the compute nodes used, the less the required parallel computation time; furthermore, when the length of each pattern is equal to or longer than 4000 and the number of compute nodes is equal to or larger than 5, the required time of parallel searching similar sub-series from data streams is 20% of the corresponding sequential searching time.

作者付晨钟诚叶波

机构地区广西大学计算机与电子信息学院广西科技信息网络中心

出处《计算机应用》 CSCD 北大核心 2017年第1期37-41,53,共6页 journal of Computer Applications

基金广西自然科学基金资助项目(2014GXNSFAA118396)~~

关键词时间序列数据流动态时间弯曲距离模式搜索 HADOOP time series data stream dynamic time warping distance pattern searching Hadoop

分类号 TP338.6 [自动化与计算机技术—计算机系统结构] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1钟诚,陈国良.PRAM和LARPBS模型上的近似串匹配并行算法[J].软件学报,2004,15(2):159-169. 被引量：19
2莫倩芸,钟诚.机群系统上并行计算时间序列的动态弯曲距离[J].微电子学与计算机,2008,25(10):155-158. 被引量：1
3张建平,李斌,刘学军,胡平.基于Hadoop的异常传感数据时间序列检测[J].传感技术学报,2014,27(12):1659-1665. 被引量：6
4陈乾,胡谷雨.一种新的DTW最佳弯曲窗口学习方法[J].计算机科学,2012,39(8):191-195. 被引量：15

二级参考文献33

1陈国良.并行算法的可扩放性分析[J].小型微型计算机系统,1995,16(2):10-16. 被引量：12
2Park JH,George KM.Efficient parallel hardware algorithms for string matching.Microprocessors and Microsystems,1999,23(3):155-168.
3Lester B.The Art of Parallel Programming.Englewood Cliffs:Prentice Hall,1993.
4Alan AB,Mei A.A residue number system on reconfigurable mesh with applications to prefix sums and approximate string matching.IEEE Trans.on Parallel and Distributed Systems,2000,11(11):1186-1199.
5Pan Y,Li Y,Li J,LI K,Zheng SQ.Efficient parallel algorithms for distance maps of 2-D binary images using an optical bus.IEEE Trans.on Systems,Man,and Cybernetics-Part A:Systems and Humans,2002,32(2):228-236.
6Han Y,Pan Y,Shen H.Sublogarithmic deterministic selection on arrays with a reconfigurable optical bus.IEEE Trans.on Computers,2002,51(6):702-706.
7Navarro G.A guided tour to approximate string matching.ACM Computing Surveys,2001,33(1):31-88.
8Navarro G,Baeza-Yates R.A hybrid indexing method for approximate string matching.Journal of Discrete Algorithms,2000,1(1):21-49.
9Lee H-C,Ercal F.RMESH algorithms for parallel string matching.In:Proc.of the 3rd Int'l.Symp.on Parallel Architectures,Algorithms,and Networks(I-SPAN'97).Los Alamitos:IEEE Computer Society Press,1997.223～226.http://ieeexplore.ieee.org/ xpl/tocresult.jsp?i
10Jiang Y,Wright AH.O(k)parallel algorithms for approximate string matching.Journal of Neural Parallel and Scientific Computation,1993,1:443-452.

共引文献37

1钟诚,宋彬.生物序列比对算法分析与比较[J].广西大学学报（自然科学版）,2004,29(3):214-221. 被引量：2
2陈宏建,陈峻,吕为.基于LARPBS模型的快速并行归并排序算法[J].扬州大学学报（自然科学版）,2005,8(3):1-5.
3宋彬,陈国良,鄢超,沈一飞.多序列比对问题的并行近似算法[J].中国科学技术大学学报,2005,35(5):656-664. 被引量：3
4刘玉慧,陈宏建,陈崚.基于流水光总线模型的快速归并排序算法[J].计算机工程与应用,2006,42(3):28-32.
5罗程,钟诚,李智.网络入侵检测系统中无导师学习分析器的设计[J].计算机工程与科学,2006,28(7):28-29.
6宫婧,孙知信,顾强.基于行为特征描述的P2P流识别方法的研究[J].小型微型计算机系统,2007,28(1):48-53. 被引量：5
7范曾,钟诚,莫倩芸,刘萍.机群系统上基于Hashing的多目标串匹配并行算法[J].微电子学与计算机,2007,24(9):165-168.
8沈一飞,陈国良,张强锋.PRAM和LARPBS模型上有向序列翻转距离并行算法(英文)[J].软件学报,2007,18(11):2683-2690.
9范大娟,钟诚,许莉莉.异构机群系统上近似串匹配并行算法[J].计算机工程,2008,34(3):141-144. 被引量：1
10范曾,钟诚,崔鑫,许莉莉.存储受限异构机群系统的多目标串近似匹配并行算法[J].小型微型计算机系统,2009,30(2):225-229. 被引量：2

同被引文献61

1曹桂均,程君.适用于正线机车的无线调车机车信号和监控系统的研究与试验[J].中国铁道科学,2012,33(4):91-98. 被引量：15
2王佳林,王斌,杨晓春.面向不确定时间序列的分类方法[J].计算机研究与发展,2011,48(S3):31-39. 被引量：5
3高四维,高雅.调车作业量发生规律研究及选编模型优化[J].中国铁道科学,2005,26(6):107-112. 被引量：8
4鞠洪钦.开行重载列车沿线编组站到解系统作业效率指标及接车延误率计算[J].中国铁道科学,1997,18(3):93-102. 被引量：4
5冯玉才,蒋涛,李国徽,朱虹.高效时序相似搜索技术[J].计算机学报,2009,32(11):2107-2122. 被引量：10
6李正欣,张凤鸣,李克武.基于DTW的多元时间序列模式匹配方法[J].模式识别与人工智能,2011,24(3):425-430. 被引量：25
7杨彧剑,林波.分布式存储系统中一致性哈希算法的研究[J].电脑知识与技术,2011,7(8):5295-5296. 被引量：27
8陈光鹏,杨育彬,高阳,商琳.一种基于MapReduce的频繁闭项集挖掘算法[J].模式识别与人工智能,2012,25(2):220-224. 被引量：18
9杨来,史忠植,梁帆,齐保元.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(5):936-944. 被引量：38
10陈波,张曦煌.基于分层与容错机制的云计算负载均衡策略[J].计算机应用,2013,33(11):3155-3159. 被引量：8

引证文献5

1曾伟忠.海量通信数据管理平台的设计与实现[J].计算机与数字工程,2018,46(5):981-986. 被引量：3
2李成为,王屿,郑迪威.基于MR框架的不确定时间序列相似性计算方法[J].计算机技术与发展,2018,28(10):27-31.
3景月娟,张晓丽.基于条码识别的标签信息智能检索方法[J].西安工程大学学报,2019,33(4):457-461. 被引量：5
4张震.并行程序中多路径数据相似性检测方法研究[J].自动化与仪器仪表,2020(6):26-28. 被引量：1
5曹子昱,冯军,陈彬,杨华昌,栾德杰.基于并行加速的优化相似性搜索的车站调车作业工作量预测[J].计算机应用,2022,42(S02):155-160.

二级引证文献9

1张恩红,尹海燕,李高洁.基于Elasticsearch的气象数据检索技术研究[J].计算机技术与发展,2019,29(11):154-158. 被引量：10
2李志杰.无线网络中多源交互信息关键特征检索方法研究[J].电子设计工程,2020,28(1):103-107. 被引量：1
3毕杨,王轩.ORB算法在智能工具箱中的应用研究[J].电子设计工程,2020,28(8):25-29. 被引量：3
4仝梦园,金守峰,陈阳,李毅,尹加杰.改进卷积神经网络的手写试卷分数识别方法[J].西安工程大学学报,2020,34(4):80-85. 被引量：11
5黄海洋.基于NB-IoT的多道并行程序数据召测模型研究[J].现代电子技术,2021,44(3):16-20. 被引量：2
6王壮,王洁.SSH框架下基于遗传算法的冷链物流追踪与溯源系统[J].西安工程大学学报,2021,35(2):85-90. 被引量：9
7牛怡婷,熊先青,袁莹莹,张靓婷.板式家具自动化原料与成品仓管控流程对比研究[J].林产工业,2021,58(5):30-33. 被引量：8
8王爽.基于IPv6的网络日志分析系统研究[J].计算机时代,2022(7):52-54. 被引量：2
9聂春燕,杨承金,王慧宇.一种情绪生理数据库管理平台的建立及应用[J].长春大学学报,2022,32(12):1-7.

1莫倩芸,钟诚.机群系统上并行计算时间序列的动态弯曲距离[J].微电子学与计算机,2008,25(10):155-158. 被引量：1
2吴虎胜,张凤鸣,吴虎胜.多元时间序列相似性研究综述[J].统计与决策,2014,30(7):77-81. 被引量：4
3宗胜,姜丽红.推荐系统中遗漏值解决方法的研究[J].计算机应用与软件,2008,25(6):193-195. 被引量：2
4陈树广,李俊奎,陈胜利.CSDTW:一种时间序列流上的受限动态弯曲距离[J].计算机应用研究,2012,29(8):2939-2942. 被引量：1
5陈胜利,李俊奎,刘小东.基于提前终止的加速时间序列弯曲算法[J].计算机应用,2010,30(4):1068-1071. 被引量：10
6薛劼,郭红.一种动态时间弯曲距离的时延调控基因相似度量聚类方法[J].福州大学学报（自然科学版）,2013,41(2):158-163. 被引量：1
7张起荣,刘歆.基于动态时间弯曲距离的灰关联度量方法及其应用[J].重庆邮电大学学报（自然科学版）,2014,26(5):700-705. 被引量：2
8刘芬,郭躬德.一种改进的时间序列模式发现算法[J].漳州师范学院学报（自然科学版）,2011,24(4):27-33. 被引量：2
9毛红保,张凤鸣,冯卉,张亮.基于特征点转换的时间序列符号化方法[J].计算机工程,2008,34(12):61-63. 被引量：1
10程文聪,邹鹏,贾焰.多维时序数据中的相似子序列搜索研究[J].计算机研究与发展,2010,47(3):416-425. 被引量：6

计算机应用

2017年第1期

浏览历史

内容加载中请稍等...

MapReduce并行加速数据流多模式相似性搜索被引量：5

参考文献4

二级参考文献33

共引文献37

同被引文献61

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

MapReduce并行加速数据流多模式相似性搜索 被引量：5

参考文献4

二级参考文献33

共引文献37

同被引文献61

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

MapReduce并行加速数据流多模式相似性搜索被引量：5