一种改进的同步检查点设置算法被引量：3

An Improved Algorithm of Synchronous Checkpointing Method

下载PDF

导出

摘要检查点设置与卷回恢复是集群系统中容错计算的重要手段。同步检查点方法在集群系统中得到了广泛应用。为了提高集群计算系统的工作效率,降低系统的容错开销,根据基于消息驱赶的同步检查点设置算法的性质和在实际应用中并行应用程序的通信特征,通过减小协同过程中的阻塞时间,降低系统中控制消息的数量,对基于消息驱赶的Sync-and-Stop算法进行优化。改进的算法有效降低检查点设置的时间和空间开销,减小在系统应用中检查点设置的代价,进一步提高系统可扩展性和应用可靠性。 The technology of checkpoint and rollback recovery is an effective method of fault tolerance in cluster system. Synchronous checkpointing method has been widely used in cluster system. For improving the efficiency of cluster computing system, proposes the modified coperative checkpoint to reduce the blocking time and the number of control information, according to nature of algorithm of synchronous checkpointing method and feature of parallel programs. It optimizes the Syne - and - Stop algorithm based on driving information. The test result indicates that this algorithm improves the system＇s scalability and application＇s reliability.

作者田甜祝永志

机构地区曲阜师范大学计算机科学学院

出处《计算机技术与发展》 2009年第8期124-126,共3页 Computer Technology and Development

基金山东省高等学校实验研究项目基金(2005-400) 曲阜师范大学校级科研项目(XJ0734)

关键词检查点同步消息驱赶 checkpoint synchronous driving information

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1张杰智,任国林.一种基于信道不可靠环境的协调式检查点协议[J].计算机技术与发展,2008,18(2):55-58. 被引量：4
2万国伟,卢宇彤,谢旻,沈志宇.一种低开销非阻塞的协同式检查点算法[J].计算机工程,2007,33(24):66-68. 被引量：1
3洪雄,戴光明,冷春霞.构架Linux环境下基于MPICH的工作站机群[J].微计算机信息,2006,22(03X):124-126. 被引量：10
4罗元盛,闵应骅,张大方.一种基于索引的准同步检查点协议[J].计算机学报,2005,28(10):1620-1625. 被引量：3
5周恩强,卢宇彤,沈志宇.一个适合大规模集群并行计算的检查点系统[J].计算机研究与发展,2005,42(6):987-992. 被引量：12

二级参考文献29

1周恩强,卢宇彤,沈志宇.一个适合大规模集群并行计算的检查点系统[J].计算机研究与发展,2005,42(6):987-992. 被引量：12
2李翀,罗家融,王华忠.基于BEOWULF的PC集群系统设计及并行编程的研究[J].微计算机信息,2005,21(08X):64-67. 被引量：14
3E.N. Elnozahy, D. B. Johnson. A survey of rollback-recovery protocols in message passing systems. School of Computer Science, Carnegie Mellon University, Tech Rep: CMU-CS-96-181, 1996
4Pierre Lemarinier, Aurelien Bouteiller. Improved message logging versus improved coordinated checkpointing for fault tolerant MPI.IEEE Int'l Conf. Cluster Computing (Cluster 2003), Hong Kong, 2003
5Chandy K M, Lamport L. Distributed snapshots: Determining global states of distributed systems. ACM Trans. Computer Systems, 1985, 3(1): 63～75
6谢旻邢座程.NICHAL通信软件接口设计与实现[J].计算机研究与发展,2002,39:189-203.
7Elnozahy E.N., Alvisi L., Wang Y.M., Johnson D.B.. A survey of rollback-recovery protocols in message-passing systems. ACM Computing Surveys, 2002, 34(3): 375～408.
8Baldoni R., Quaglia F., Fornara P.. An index-based checkpointing algorithm for autonomous distributed systems. IEEE Transactions on Parallel and Distributed Systems, 1999, 10(2): 181～192.
9Vieira G.M.D., Garcia I.C., Buzato L.E.. Systematic analysis of index-based checkpointing algorithms using simulation. In: Proceedings of IX Brazilian Symposium on Fault-Tolerant Computing, 2001.
10Manivannan D., Singhal M.. A low overhead recovery technique using quasi-synchronous checkpointing. In: Proceedings of the 16th IEEE International Conference on Distributed Computing System, 1996, 100～107.

共引文献24

1王勇,王忠群,刘涛,吴小兰.支持构件迁移的分布式系统容错算法[J].计算机工程与设计,2007,28(15):3566-3568. 被引量：1
2陆克中,林晓辉.MPI并行程序设计的负载平衡实现方法[J].微计算机信息,2007(05X):226-227. 被引量：10
3胡晓力,田有先.混合编程集群研究及实现[J].微计算机信息,2007,23(33):252-253. 被引量：3
4牛思先.基于软管模型的MPLS VPN中QoS的实现研究[J].微计算机信息,2007,23(33):261-262. 被引量：2
5胡晓力,田有先.多粒度并行计算集群研究与应用[J].电力学报,2007,22(4):436-438. 被引量：5
6谢旻,卢宇彤,周恩强,曹宏嘉,杨学军.基于Lustre文件系统的MPI检查点系统实现技术与性能测试[J].计算机研究与发展,2007,44(10):1709-1716. 被引量：4
7万国伟,卢宇彤,谢旻,沈志宇.一种低开销非阻塞的协同式检查点算法[J].计算机工程,2007,33(24):66-68. 被引量：1
8隋翠翠,晏海华.一种基于高性能集群计算系统的检查点策略[J].微电子学与计算机,2008,25(10):162-165. 被引量：2
9陈曦,李志蜀.基于MPI并行环境下拉格朗日插值的求解[J].微计算机信息,2009(9):168-170. 被引量：5
10张军,万剑怡.多核集群系统上的混合编程模型研究[J].计算机与现代化,2009(5):1-4. 被引量：4

同被引文献40

1周恩强,卢宇彤,沈志宇.一个适合大规模集群并行计算的检查点系统[J].计算机研究与发展,2005,42(6):987-992. 被引量：12
2肖迎元,刘云生,刘小峰,廖国琼.嵌入式实时内存数据库故障恢复技术[J].计算机科学,2005,32(8):77-79. 被引量：10
3黄敬尧.分布式系统中检查点的设计及实现[J].三峡大学学报（自然科学版）,2006,28(2):161-165. 被引量：3
4杨超,张伟哲,张宏莉,田舟贤,方滨兴.基于检查点算法的网格计算容错机制研究[J].微电子学与计算机,2006,23(9):82-84. 被引量：6
5周小成,孙凝晖,霍志刚,马捷.一种降低并行程序检查点开销的方法[J].计算机工程,2007,33(12):84-86. 被引量：3
6CAO G H,MUKESH S.Checkpointing with mutable checkpoints[J].Theoretical Computer Science,2003,290:1127-1148.
7FOSIER I,KESSELMAN C.网格计算[M].北京:机械工业出版社,2005.
8RONALD J.Leach,Setting checkpoints in legacy code to improve fault-tolerance[J].The Journal of Systems and Software,2008,81:920-928.
9HIMADRI S P,AROBINDA G.Finding a suitable checkpoint and recovery protocol for a distributed application[J].Journal of Parallel and Distributed Computing,2006,66:732-749.
10Garcia-Molina H, Ullman J D, Widom J.数据库系统实现[M].杨冬青,译.北京:机械工业出版社,2010.

引证文献3

1张光辉,王丽娟,陈姗.采用增量检查点技术改进Condor检查点机制的研究[J].河南农业大学学报,2010,44(6):718-721. 被引量：3
2王曼丽,邢玉钢,王翰虎,马丹,陈梅.一种高效的闪存数据库故障恢复方法MMR[J].计算机技术与发展,2012,22(1):40-44. 被引量：1
3刘洋,杨金民.OpenMP程序中基于活跃变量分析的检查点优化[J].计算机工程与应用,2016,52(4):31-41.

二级引证文献4

1殷源,胡术,宋万忠,骆健,喻德军.ATC中FDP集群进程检查点的研究与实现[J].计算机工程与设计,2012,33(9):3588-3592.
2马志伟,汤春香,王丽娟,周伟强.基于语义合并的上载事务队列算法研究[J].河南农业大学学报,2013,47(2):182-186. 被引量：1
3刘洋,杨金民.OpenMP程序中基于活跃变量分析的检查点优化[J].计算机工程与应用,2016,52(4):31-41.
4董宜林.闪存数据库技术的应用分析[J].青年时代,2017,0(2):104-104.

1王丹.大数据下Apache Spark的应用研究[J].江苏科技信息,2016,33(33):69-70. 被引量：1
2王国明,侯整风,王一春.集群计算系统的分析与研究[J].电脑知识与技术,2006,1(11):103-104. 被引量：3
3申红芳,罗四维,赵宏.集群计算系统的模型结构[J].计算机应用研究,2004,21(2):52-55. 被引量：17
4付永涛.应用可靠性技术研究S—2000集散系统的特性[J].黑龙江电子技术,1992(2):28-32.
5韩宇.云计算应用的安全问题分析[J].信息安全与技术,2014,5(1):8-9. 被引量：4
6李剑.提高计算机网络可靠性的方法研究[J].黑龙江科技信息,2016(30):227-227. 被引量：1
7陈伟,刘求真,张蕾,蒲利.8031两模冗余容错单片机系统[J].西南石油学院学报,1993,15(3):130-134.
8曾碧卿,陈志刚,邓会敏,刘伟.集群计算系统中并行I/O模拟器的研究与设计[J].计算技术与自动化,2004,23(3):79-81.
9曾碧卿,陈志刚,谭璐,邓晓衡.并行文件系统与并行I/O研究[J].微机发展,2004,14(12):79-82. 被引量：1
10张至柔.网格计算服务系统检查点算法研究[J].计算机工程与设计,2008,29(14):3596-3599. 被引量：1

计算机技术与发展

2009年第8期

浏览历史

内容加载中请稍等...

一种改进的同步检查点设置算法被引量：3

参考文献5

二级参考文献29

共引文献24

同被引文献40

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种改进的同步检查点设置算法 被引量：3

参考文献5

二级参考文献29

共引文献24

同被引文献40

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种改进的同步检查点设置算法被引量：3