期刊文献+

一个基于通信系统支持的并行检查点系统 被引量:1

A Parallel Checkpointing System Based on Communication System Support
下载PDF
导出
摘要 在大规模机群环境下,检查点和恢复机制是一种必不可少的容错技术。该文提出一种基于机群通信系统的可靠性机制,在不作全局同步的情况下获取通信系统全局状态的方法,并利用该方法实现了一个对应用程序透明的并行检查点系统。该系统通过底层通信系统的支持降低了并行检查点的实现复杂度和执行开销,适用于大规模机群应用。 Checkpointing and recovery systems are growing in importance in large-scale clusters. A non-blocking coordinated checkpointing and recovery system is proposed in which reliable communication mechanisms are used to eliminate the overhead of global synchronization. It is shown that a parallel checkpointing system can benefit from supports embedded in low-level communication systems in its implementation and to improve its performance.
出处 《计算机工程》 CAS CSCD 北大核心 2007年第5期217-219,共3页 Computer Engineering
基金 中科院新一代机群关键技术的研究项目(KGCX2-SW-116)
关键词 机群通信系统 并行检查点 容错技术 Cluster communication system Parallel checkpointing Fault-tolerance
  • 相关文献

参考文献3

  • 1Chandy K M,Lamport L.Distributed Snapshots:Determining Global States of Distributed Systems[J].ACM Trans.on Computer Systems,1985,3(1):63-75.
  • 2汪东升,邵明珑.具有O(n)消息复杂度的协调检查点设置算法[J].软件学报,2003,14(1):43-48. 被引量:17
  • 3Stellner G.CoCheck:Checkpointing and Process Migration for MPI[C]//Proceedings of the 10^th International Parallel Processing Symposium.1996:526-531.

二级参考文献1

共引文献16

同被引文献5

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部