一个基于通信系统支持的并行检查点系统被引量：1

A Parallel Checkpointing System Based on Communication System Support

下载PDF

导出

摘要在大规模机群环境下,检查点和恢复机制是一种必不可少的容错技术。该文提出一种基于机群通信系统的可靠性机制,在不作全局同步的情况下获取通信系统全局状态的方法,并利用该方法实现了一个对应用程序透明的并行检查点系统。该系统通过底层通信系统的支持降低了并行检查点的实现复杂度和执行开销,适用于大规模机群应用。 Checkpointing and recovery systems are growing in importance in large-scale clusters. A non-blocking coordinated checkpointing and recovery system is proposed in which reliable communication mechanisms are used to eliminate the overhead of global synchronization. It is shown that a parallel checkpointing system can benefit from supports embedded in low-level communication systems in its implementation and to improve its performance.

作者霍志刚马捷孙凝晖

机构地区中国科学院研究生院中国科学院计算技术研究所

出处《计算机工程》 CAS CSCD 北大核心 2007年第5期217-219,共3页 Computer Engineering

基金中科院新一代机群关键技术的研究项目(KGCX2-SW-116)

关键词机群通信系统并行检查点容错技术 Cluster communication system Parallel checkpointing Fault-tolerance

分类号 TN915.02 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1Chandy K M,Lamport L.Distributed Snapshots:Determining Global States of Distributed Systems[J].ACM Trans.on Computer Systems,1985,3(1):63-75.
2汪东升,邵明珑.具有O(n)消息复杂度的协调检查点设置算法[J].软件学报,2003,14(1):43-48. 被引量：17
3Stellner G.CoCheck:Checkpointing and Process Migration for MPI[C]//Proceedings of the 10^th International Parallel Processing Symposium.1996:526-531.

二级参考文献1

1汪东升,沈美明,郑纬民,裴丹.一种基于检查点的卷回恢复与进程迁移系统[J].软件学报,1999,10(1):68-73. 被引量：16

共引文献16

1李国徽,王洪亚,陈基雄,刘云生.支持分布式合作实时事务处理的协同检验点方法[J].计算机学报,2004,27(9):1207-1212. 被引量：2
2李国徽,陈基雄,王洪亚,刘云生.支持移动合作实时事务的一种新的协同检验点算法[J].小型微型计算机系统,2004,25(11):1943-1947.
3李国徽,王洪亚,刘云生.一种高效的合作实时事务并行检验点算法[J].计算机科学,2005,32(7):69-71.
4张宇,张玉芳.基于PVM的准同步检查点设置方法[J].计算机工程与设计,2006,27(3):494-496.
5王勇,王忠群,刘涛,吴小兰.支持构件迁移的分布式系统容错算法[J].计算机工程与设计,2007,28(15):3566-3568. 被引量：1
6张杰智,任国林.一种基于信道不可靠环境的协调式检查点协议[J].计算机技术与发展,2008,18(2):55-58. 被引量：4
7万国伟,卢宇彤,谢旻,沈志宇.一种低开销非阻塞的协同式检查点算法[J].计算机工程,2007,33(24):66-68. 被引量：1
8张至柔.网格计算服务系统检查点算法研究[J].计算机工程与设计,2008,29(14):3596-3599. 被引量：1
9门朝光,徐振朋,李香.移动计算系统检查点迁移策略的性能评价[J].哈尔滨工业大学学报,2010,42(5):806-810. 被引量：3
10徐振朋.An adaptive handoff management for fault tolerant mobile computing[J].High Technology Letters,2010,16(4):407-412.

同被引文献5

1周小成,孙凝晖,霍志刚,马捷.一种降低并行程序检查点开销的方法[J].计算机工程,2007,33(12):84-86. 被引量：3
2Hong G,Ahn S J,Sang C,et al.Kckpt:Checkpoint and Recovery Facility on UnixWare Kernel[C] //Proc.of the 15th International Conference on Computers and Their Applications.New Orleans,Louisiana,USA:[s.n.] ,2000:303-308.
3Russinovich M E,Solomon D A.Microsoft Windows Internals[M].4th ed.San Jose,California,USA:Microsoft Press,2004.
4杨晖,陈闳中.支持文件迁移的Linux检查点机制的实现[J].计算机工程,2010,36(3):266-268. 被引量：4
5张悠慧,汪东升,郑纬民.Windows NT环境下的进程检查点设置与回卷恢复[J].计算机研究与发展,2001,38(1):50-55. 被引量：12

引证文献1

1李旭东,张春霞,林曙光,林星.基于WRK的多文件句柄进程的冷冻与解冻[J].计算机工程,2010,36(20):74-77.

1刘越,张宝贤,陈常嘉.多点通信中的可靠性机制[J].数字通信,2000,27(2):42-44. 被引量：2
2刘亚林.拥塞控制在路由器中的实现[J].现代有线传输,2000(3):51-53.
3刘冰.基于NS2的TCP全局同步问题模拟[J].信息技术,2006,30(7):100-103.
4代亚楠,张驰,俞能海.一种基于虚拟公共安全信道的多频率MAC协议[J].通信技术,2016,49(2):174-181.
5杨熙贤.分布式计算模型[J].西安欧亚学院学报,2012,10(2):64-68.
6张鑫,刘钊远,王钊.一种提高4G视频网管可靠性机制的设计[J].计算机系统应用,2017,26(2):245-248.
7聂祖卿.ChinaEDI的服务功能及其安全可靠性机制[J].广东通信技术,1999,19(1):39-43.
8宋丽华,陈鸣,张睿.一种基于测量的TCP Fast改进方案[J].北京邮电大学学报,2005,28(4):27-31. 被引量：6
9鲁华伟,洪伟.虚拟化环境下的功耗管理[J].邮电设计技术,2009(12):62-67.
10江丽君,石磊,李雪鹏,贾鹏,李健,顾畹仪.ASON中RSVP-TE可靠性和生存性机制研究[J].光通信研究,2007(3):1-3. 被引量：3

计算机工程

2007年第5期

浏览历史

内容加载中请稍等...

一个基于通信系统支持的并行检查点系统被引量：1

参考文献3

二级参考文献1

共引文献16

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

一个基于通信系统支持的并行检查点系统 被引量：1

参考文献3

二级参考文献1

共引文献16

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

一个基于通信系统支持的并行检查点系统被引量：1