-
题名面向流式数据处理系统的高效故障恢复方法
被引量:2
- 1
-
-
作者
刘阳
张扬扬
周号益
-
机构
北京航空航天大学大数据科学与脑机智能高精尖创新中心
北京航空航天大学计算机学院
北京航空航天大学未来空天技术学院/高等理工学院
北京航空航天大学软件学院
-
出处
《计算机应用》
CSCD
北大核心
2022年第11期3337-3345,共9页
-
基金
国家自然科学基金资助项目(U20B2053,61872022)
软件开发环境国家重点实验室开放课题(SKLSDE‑2020ZX‑12)。
-
文摘
针对流式数据处理系统Flink无法高效处理单点故障的问题,提出了一种基于增量状态和备份的故障容错系统Flink+。首先,提前建立备份算子和数据通路;然后,对数据流图中的输出数据进行缓存,必要时使用磁盘;其次,在系统快照时进行任务状态同步;最后,在系统故障时使用备份任务和缓存的数据恢复计算。在系统实验测试中,Flink+在无故障运行时没有显著增加额外容错开销;而在单机和分布式环境下处理单点故障时,与Flink系统相比,所提系统在单机8任务并行度下故障恢复时间减少了96.98%,在分布式16任务并行度下故障恢复时间减少了88.75%。实验结果表明,增量状态和备份方法一起使用可以有效减少流式系统单点故障的恢复时间,增强系统的鲁棒性。
-
关键词
流式数据处理系统
故障恢复
分布式检查点
状态备份
Apache
Flink
-
Keywords
stream data processing system
failure recovery
distributed checkpoint
state backup
Apache Flink
-
分类号
TP311.
[自动化与计算机技术—计算机软件与理论]
-