-
题名一种基于冗余线程的GPU多副本容错技术
被引量:8
- 1
-
-
作者
贾佳
杨学军
李志凌
-
机构
并行与分布处理国家重点实验室国防科学技术大学计算机学院长沙
乌鲁木齐民族干部学院乌鲁木齐
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第7期1551-1562,共12页
-
基金
国家自然科学基金项目(60921062,61003087)
-
文摘
目前随着通用GPU(general purpose computation on graphic processing units,GPGPU)性能的不断提高,利用CPU和GPU构建的异构系统已经成为高性能计算领域的研究热点.然而随着并行计算系统的不断增长,系统可靠性越来越低,已成为并行计算向大规模扩展的一个不容忽视的制约因素.由于商用GPGPU容错能力较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐,尚缺乏实用的容错手段,针对这一现实问题提出了一种基于冗余线程的GPU多副本容错技术:RB-TMR(Rollback TMR),同时根据异构系统的编程模型及程序特征对这一面向异构系统的容错机制的设计实现及其编译框架进行了具体分析和描述.最后通过10个案例对此技术进行了实现并评估了其性能.这一技术为异构系统的容错技术研究提供了新的思路,具有重大意义.
-
关键词
通用GPU
异构系统
冗余线程
容错技术
多副本
-
Keywords
general purpose GPU(GPGPU) heterogeneous system
redundancy multithread
faulttolerance technique
multiple copies
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-