大规模并行计算机系统硬件故障容错技术综述被引量：6

A Survey of the Fault-Tolerance Techniques for Large-Scale Parallel Computing Systems

下载PDF

导出

摘要计算机系统的容错是一个不容忽视的问题。近年来,随着系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都很突出。本文首先介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,然后回顾了近些年来一些具有代表性的硬件故障检测技术和硬件故障恢复技术,其中重点介绍了针对大规模并行计算机系统提出的容错方法。本文还介绍了我们在先前的研究工作中提出的一种优化的故障恢复技术,称为容错并行算法。最后,总结了一些可能的研究方向。 Fault tolerance is critical to computer systems. Recently,as the ever increasing complexity of architecture and the development of semiconductor techniques,the density of chips becomes much higher. As a consequence,the reliability issue of computer systems emerges,not only for largescale parallel systems,but also for distributed environments,even desktop applications. This paper reviews a number of typical faulttolerance techniques concerning hardware faults proposed in recent years,especially for those designed for largescale parallel systems,draws some preliminary conclusions,and puts forward several potential research topics of this domain.

作者富弘毅杨学军

机构地区并行与分布处理国防科技重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2010年第10期38-43,53,共7页 Computer Engineering & Science

基金国家自然科学基金资助项目(60621003 60633050)

关键词大规模并行计算容错技术可靠性 largescale parallel computing faulttolerance techique reliability

分类号 TP302.8 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献34

1TOP500 Supercomputing Site[EB/OL]. [2009-03-10]. http://www, top500. org.
2Reed D A, Lu C, Mendes C L. Reliability Challenges in Large Systems[J]. Future Generation Computer Systems, 2006,22 (3) :293-302.
3Dubrova E. Fault Tolerant Design: An Introduction [S]. Draft, 2006.
4Neumann J V. Probabilistic Logic and the Synthesis of Reliable Organisms from Unreliable Components[M]. Princeton University Press, 1956.
5LaFrieda C, Ipek E, Martinez J F, et al. Utilizing Dynamically Coupled Cores to Form a Resilient Chip Multiprocessor[C]//Proc of the 37th Annual IEEE/IFIP Int'l Conf on Dependable Systems and Networks, 2007 : 317-326.
6Oh N, Shirvani P P, McCluskey E J. Error Detection by Duplicated Instructions in Super-Scalar Processors[J]. IEEE Trans on Reliability, 2002,51 (1) :63-75.
7Oh N,Mitra S,McCluskey E J. Ed4i: Error Detection by Diverse Data and Duplicated Instructions[J]. IEEE Trans on Computers, 2002,51 (2) : 180-199.
8Reinhardt S K, Mukherjee S S. Transient Fault Detection via Simultaneous Multithreading[C]//Proe of the 27th Annual Int'l Syrup on Computer Arehiteeture, 2000 : 25-36.
9Mukherjee S S, Kontz M, Reinhardt S K. Detailed Design and Evaluation of Redundant Multi-Threadingaltematives[C] // Proc of the 29th Annual Int'l Symp on Computer Architecture, 2002 : 99-110.
10Lu D J. Watchdog Processors and VLSI[C]//Proc of National Electronies Conf, 1980 : 240-245.

同被引文献94

1魏振瀛,王小能.论构成民事责任条件中的过错[J].中国法学,1986(5):18-25. 被引量：25
2徐文芳,刘宏伟,舒燕君,马闯.三模冗余容错系统管理板[J].清华大学学报（自然科学版）,2011,51(S1):1434-1439. 被引量：6
3徐奡,夏德天,郑久寿.高升力系统控制计算机容错技术研究[J].微电子学与计算机,2015,32(6):36-40. 被引量：12
4李俊照,罗家融.基于linux集群的并行计算[J].计算机测量与控制,2004,12(11):1064-1066. 被引量：14
5刘心松,朱鹰.容错并行处理系统结构研究[J].计算机应用,1994,14(1):8-11. 被引量：14
6周恩强,卢宇彤,沈志宇.一个适合大规模集群并行计算的检查点系统[J].计算机研究与发展,2005,42(6):987-992. 被引量：12
7屈婉霞,蒋句平,杨晓东,徐炜遐.并行计算机系统容错设计[J].计算机工程与科学,2005,27(9):69-70. 被引量：3
8冯云,周淑秋.MPI+OpenMP混合并行编程模型应用研究[J].计算机系统应用,2006,15(2):86-89. 被引量：24
9燕云捷,张渤.不可抗力与意外事件之法律比较[J].西北大学学报（哲学社会科学版）,2006,36(2):123-126. 被引量：12
10熊庭刚,马中,袁由光.基于操作系统调用的容错计算机系统同步技术研究[J].计算机研究与发展,2006,43(11):1985-1992. 被引量：4

引证文献6

1李明良,马行知.期货交易所采取紧急处置措施时的免责制度研究[J].证券法律评论,2020(1):99-112.
2赵菁,窦万峰.并行数字地形分析的容错与负载均衡研究[J].南京师范大学学报（工程技术版）,2011,11(3):65-72.
3徐晓东,赵建亭,许春雷.实时多任务并行计算系统的容错技术[J].计算机工程与应用,2013,49(9):33-36. 被引量：5
4李锶锶.任意平面交换网络容错设计[J].中国新技术新产品,2015(8):23-23.
5孟晨,曹宗雁,王龙,迟学斌.基于Charm++运行时环境的异构计算应用容错研究[J].计算机工程与应用,2016,52(13):1-7. 被引量：3
6谢建洲.计算机系统容错技术研究[J].电脑知识与技术,2016,12(2X):250-252. 被引量：4

二级引证文献12

1朱剑锋,缪万胜,康介祥.基于堆栈回溯的异常处理[J].计算机工程与设计,2014,35(12):4176-4180. 被引量：7
2张薇薇,张鑫.光照并行算法的研究与实现[J].西安工程大学学报,2015,29(2):181-186. 被引量：1
3陈志佳,朱元昌,邸彦强,冯少冲.基于虚拟化技术的仿真系统容错优化方法[J].计算机应用,2015,35(8):2392-2396. 被引量：1
4张薇薇,杨怿菲.多光源并行化算法的实现[J].火力与指挥控制,2016,41(3):111-115. 被引量：1
5孟晨,曹宗雁,王龙,迟学斌.基于Charm++运行时环境的异构计算应用容错研究[J].计算机工程与应用,2016,52(13):1-7. 被引量：3
6李达清.嵌入式计算机控制系统容错策略[J].电子世界,2017,0(11):76-76.
7王永胜.CPU+GPU的异构计算系统在石油勘探中的应用研究[J].电脑知识与技术（过刊）,2017,23(10X):250-251. 被引量：1
8刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
9张红军,王豫鑫,杨万里,祁永钊,李登明.基于大数据的数据挖掘中容错技术研究[J].电脑知识与技术,2020,16(9):16-18. 被引量：3
10包冲,张善从.面向GPU的通用矩阵乘法计算的容错研究[J].微电子学与计算机,2021,38(1):22-26.

1沈兰萍,刘广明.大规模并行计算机系统MBC—100[J].电子计算机,1996(5):24-27.
2张习义.大规模并行计算机系统[J].世界发明,1994,17(7):12-13.
3刘文耀,张以谟,王勇.大规模并行计算机系统及其拓扑重构的实现[J].计算机研究与发展,1996,33(1):11-16. 被引量：3
4徐强.大规模并行计算机系统通讯问题研究[J].中国化工贸易,2012,4(4):39-39.
5李静梅,吴艳霞,沈晶,张健沛.改进的CFCSS控制流检测算法[J].哈尔滨工程大学学报,2011,32(6):814-819. 被引量：1
6贺应其.重构计算机系统的可靠性分析[J].电脑与信息技术,1999,7(4):59-60.
7蓝玉龙.提高计算机系统可靠性技术[J].广西教育学院学报,2000(4):102-104.
8周端,李小霞,徐阳扬.计算机系统可靠性设计研究[J].计算机与数字工程,2005,33(4):110-112. 被引量：5
9刘杰,迟利华,蒋杰,徐涵,晏益慧,胡庆丰.大规模并行计算机系统性能测评体系[J].计算机工程与科学,2013,35(3):25-30. 被引量：2
10杜云飞,唐玉华,杨学军.容错并行算法的性能分析[J].计算机科学,2009,36(9):248-251. 被引量：2

计算机工程与科学

2010年第10期

浏览历史

内容加载中请稍等...

大规模并行计算机系统硬件故障容错技术综述被引量：6

参考文献34

同被引文献94

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

大规模并行计算机系统硬件故障容错技术综述 被引量：6

参考文献34

同被引文献94

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

大规模并行计算机系统硬件故障容错技术综述被引量：6