面向流式数据处理系统的高效故障恢复方法被引量：2

Efficient failure recovery method for stream data processing system

下载PDF

导出

摘要针对流式数据处理系统Flink无法高效处理单点故障的问题,提出了一种基于增量状态和备份的故障容错系统Flink+。首先,提前建立备份算子和数据通路;然后,对数据流图中的输出数据进行缓存,必要时使用磁盘;其次,在系统快照时进行任务状态同步;最后,在系统故障时使用备份任务和缓存的数据恢复计算。在系统实验测试中,Flink+在无故障运行时没有显著增加额外容错开销;而在单机和分布式环境下处理单点故障时,与Flink系统相比,所提系统在单机8任务并行度下故障恢复时间减少了96.98%,在分布式16任务并行度下故障恢复时间减少了88.75%。实验结果表明,增量状态和备份方法一起使用可以有效减少流式系统单点故障的恢复时间,增强系统的鲁棒性。 Focusing on the issue that the single point of failure cannot be efficiently handled by streaming data processing system Flink,a new fault‑tolerant system based on incremental state and backup,Flink+,was proposed.Firstly,backup operators and data paths were established in advance.Secondly,the output data in the data flow diagram was cached,and disks were used if necessary.Thirdly,task state synchronization was performed during system snapshots.Finally,backup tasks and cached data were used to recover calculation in case of system failure.In the system experiment and test,Flink+dose not significantly increase the additional fault tolerance overhead during fault‑free operation;when dealing with the single point of failure in both single‑machine and distributed environments,compared with Flink system,the proposed system has the failure recovery time reduced by 96.98%in single‑machine 8‑task parallelism and by 88.75%in distributed 16‑task parallelism.Experimental results show that using incremental state and backup method together can effectively reduce the recovery time of the single point of failure of the stream system and enhance the robustness of the system.

作者刘阳张扬扬周号益 LIU Yang;ZHANG Yangyang;ZHOU Haoyi(Beijing Advanced Innovation Center for Big Data and Brain Computing,Beihang University,Beijing 100191,China;School of Computer Science and Engineering,Beihang University,Beijing 100191,China;ShenYuan Honors College,Beihang University,Beijing 100191,China;College of Software,Beihang University,Beijing 100191,China)

机构地区北京航空航天大学大数据科学与脑机智能高精尖创新中心北京航空航天大学计算机学院北京航空航天大学未来空天技术学院/高等理工学院北京航空航天大学软件学院

出处《计算机应用》 CSCD 北大核心 2022年第11期3337-3345,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(U20B2053,61872022) 软件开发环境国家重点实验室开放课题(SKLSDE‑2020ZX‑12)。

关键词流式数据处理系统故障恢复分布式检查点状态备份 Apache Flink stream data processing system failure recovery distributed checkpoint state backup Apache Flink

分类号 TP311. [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：313

二级参考文献8

1覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
2亓开元,赵卓峰,房俊,马强.针对高速数据流的大规模数据实时处理方法[J].计算机学报,2012,35(3):477-490. 被引量：95
3李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1605
4孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2392
5冯芷艳,郭迅华,曾大军,陈煜波,陈国青.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013,16(1):1-9. 被引量：515
6覃雄派,王会举,李芙蓉,李翠平,陈红,周烜,杜小勇,王珊.数据管理技术的新格局[J].软件学报,2013,24(2):175-197. 被引量：110
7李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：260
8王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714

共引文献312

1张彦,谢兴生,陈晓雨.一种处理大数据的复杂适应系统框架设计[J].电子技术（上海）,2021,50(3):22-25.
2冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1
3程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：741
4徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2119-2135. 被引量：22
5崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述[J].计算机研究与发展,2015,52(2):318-332. 被引量：50
6侯洁,张希坤.云计算环境聚合与协同机理研究[J].网络安全技术与应用,2015(1):67-67.
7许振佳,倪建成.一种基于双层架构的流数据聚类算法[J].电子技术（上海）,2015,0(3):34-38.
8赵苏阳,李艳军,钱小燕,曹愈远,许振腾,乔磊,汪雷.大数据基本概念、技术与挑战[J].现代计算机（中旬刊）,2015(3):51-54. 被引量：9
9熊柏祥,石国凤.流式实时分布式计算系统的设计要点[J].移动信息,2015,0(1):36-36. 被引量：1
10官思发,孟玺,李宗洁,刘扬.大数据分析研究现状、问题与对策[J].情报杂志,2015,34(5):98-104. 被引量：74

同被引文献23

1杜芳,郦佳燕,邢伟杰.SQL Server数据库应用程序中数据库安全性研究[J].计算机产品与流通,2020,0(1):152-152. 被引量：2
2陈港,孟相如,康巧燕,翟东.基于最小生成树的vSDN故障快速恢复算法[J].计算机科学,2022,49(S02):861-867. 被引量：1
3林英建.数据库逻辑设计性能优化关键技术研究[J].计算机技术与发展,2013,23(12):74-77. 被引量：8
4李振松,李光旭,李晓锋,索旭华,陈朝晖.面向航天器嵌入式软件的在轨修复方法[J].空间控制技术与应用,2019,45(1):66-70. 被引量：2
5谢文光,李琪,汪克念,马春燕,张涛,张国群.航空控制软件条件表达式故障分类及修复方法[J].西北工业大学学报,2020,38(4):862-872. 被引量：1
6张策,吕为工,邱忠银,高天翼,江文倩,孟凡超.不完美排错下测试覆盖相关的软件可靠性模型[J].湖南大学学报（自然科学版）,2021,48(4):26-35. 被引量：9
7汪嘉来,张超,戚旭衍,荣易.Windows平台恶意软件智能检测综述[J].计算机研究与发展,2021,58(5):977-994. 被引量：18
8肖军弼,孟祥泽,田爱宝,陈松.SDN网络中基于拓扑分域的故障恢复方法[J].计算机工程与设计,2021,42(6):1501-1508. 被引量：5
9马博林,张铮,任权,张高斐,邬江兴.软件异构冗余执行系统的安全能力分析[J].通信学报,2021,42(9):1-11. 被引量：2
10刘文欣,蔡鹏.多主数据库中基于分区的并发控制[J].华东师范大学学报（自然科学版）,2021(5):84-93. 被引量：2

引证文献2

1康建萍.计算机的数据保密与安全技术[J].电子技术与软件工程,2022(18):21-24.
2王莉萍,邱建林,陈翔.马尔可夫决策求解的软件相继故障修复方法[J].计算机仿真,2023,40(11):480-484.

1齐艳彬.导波雷达液位计在应用中的故障分析及对策[J].仪器仪表用户,2022,29(12):56-60.
2杨玲,陈名鑫.迈瑞便携彩超M6故障维修案例五例及日常保养[J].医疗装备,2022,35(21):149-150. 被引量：1

计算机应用

2022年第11期

浏览历史

内容加载中请稍等...

面向流式数据处理系统的高效故障恢复方法被引量：2

参考文献1

二级参考文献8

共引文献312

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向流式数据处理系统的高效故障恢复方法 被引量：2

参考文献1

二级参考文献8

共引文献312

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向流式数据处理系统的高效故障恢复方法被引量：2