异步检查点容错PVM 被引量：1

Asynchronous Checkpointing for Fault Tolerance in PVM

下载PDF

导出

摘要以工作站簇为代表的计算环境是当前分布式系统和并行计算的研究重点之一，ＰＶＭ所提供的消息传递机制支持了高效的异构网络计算。但标准ＰＶＭ缺乏对系统容错的支持，这可以通过使用检查点的回滚恢复方式予以弥补。该文对如何在用户级实现ＰＶＭ全局容错，分析其设计思想和实现技术。主要思想是使用进行消息记录的异步检查点算法，并利用ＰＶＭ守护进程和全局调度进程进行控制，所有操作对应用程序都是透明的。利用该系统还可以进一步实现ＰＶＭ的透明进程迁移和负载均衡。 Computing environment exemplified by Clusters of Workstations is one of the hot-spots in the study ofdistributed system and Parallel computing. The message-passing mechanism of PVM provides the necessary supportfor efficient heterogeneous network computing. But such system lacks the ability to support fault-tolerance, whichcan be enhanced by rollback recovery with checkpointing. this paper analyzes the design principles and implementtechnique used to extend PVM with global fault-tolerance at user-level. The main idea is to harness the asyn-chronous checkpointing with message logging. The daemon processes and global scheduler of PVM are employed.All the operations are transparent to the application. It is also possible to implement transparent process migrationand load balancing by the system in the future.

作者余洋陆鑫达

机构地区上海交通大学计算机系

出处《计算机工程与应用》 CSCD 北大核心 1999年第11期34-37,共4页 Computer Engineering and Applications

基金国家自然科学基金

关键词异步检查点容错工作站簇 PVM 软件系统 checkpointing, asynchronous checkpointing, message logging, task id mapping

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1鞠九滨,魏晓辉,徐高潮,尹玉.DPVM：支持任务迁移和排队的PVM[J].计算机学报,1997,20(10):872-877. 被引量：12
2鞠九滨，计算机学报，1997年，20卷，10期，873页

共引文献11

1张信一,李代平,罗寿文.物探的并行计算解决方案[J].计算机应用研究,2004,21(8):171-174.
2张建军,蒋廷耀,郭志鑫.PVM中动态负载平衡的设计和实现[J].计算机工程,2005,31(7):63-64. 被引量：4
3魏晓辉,鞠九滨.容错系统中文件状态的保存与恢复算法[J].计算机学报,1998,21(8):738-746. 被引量：1
4李鸿培,王新梅,徐甲同.异构环境中的进程透明性迁移[J].西安电子科技大学学报,1999,26(2):236-239. 被引量：2
5裴丹,汪东升,沈美明.工作站网络系统进程迁移机制[J].软件学报,1999,10(10):1032-1037. 被引量：2
6朱世进,李毅,周明天,王月.一种基于PVM的主动的任务动态调度策略[J].计算机科学,2000,27(2):26-28.
7李毅,周明天,虞厥邦.PVM任务迁移协议的研究[J].计算机科学,2001,28(1):48-52.
8刘振英,方滨兴,胡铭曾,张毅.一个有效的动态负载平衡方法[J].软件学报,2001,12(4):563-569. 被引量：37
9沙丽杰,武秀川,韦鵷.分布式系统检查点算法中程序卷回时文件系统的状态恢复[J].计算机工程与应用,2002,38(17):131-134. 被引量：4
10魏晓辉,鞠九滨.SCR Algorithm: Saving/Restoring States of File Systems[J].Journal of Computer Science & Technology,2000,15(4):393-400.

同被引文献8

1Stellner G,Pruyne J.Resource management and checkpointing for PVM[C].Proceedings of the 2nd Europe PVM User Group Meeting,1995.131-136.
2Litakow M,Solomon M.Supporting checkpoinging and process migration outside the unix kernel[C].Proc USENIX-Winter'92.San Francisco,CA,1992.283-290.
3Manivannan D,Singhal M.A low-overhead recovery technique using quasi-synchronous checkpointing[C].IEEE Proc 16th ICDCS,1996.100-107.
4魏晓辉,鞠九滨.分布式系统中的检查点算法[J].计算机学报,1998,21(4):367-375. 被引量：12
5张怡,胡建平.机群系统中检查点卷回恢复协议分析[J].计算机工程与科学,2001,23(5):66-69. 被引量：2
6章勤,杨中志,张继顺.一种基于PVM的交错一致检查点算法[J].华中科技大学学报（自然科学版）,2002,30(2):114-116. 被引量：1
7王春露,汪东升.基于PVM的协调检查点设置关键技术[J].小型微型计算机系统,2002,23(5):524-528. 被引量：1
8汪东升,邵明珑.具有O(n)消息复杂度的协调检查点设置算法[J].软件学报,2003,14(1):43-48. 被引量：17

引证文献1

1张宇,张玉芳.基于PVM的准同步检查点设置方法[J].计算机工程与设计,2006,27(3):494-496.

1易会战,王锋,左克,杨灿群,杜云飞,马亚青.基于内存缓存的异步检查点容错技术[J].计算机研究与发展,2014,51(6):1229-1239. 被引量：8
2官文军.深入浅出Oracle数据库备份[J].网管员世界,2008(21):64-65.
3胡明.医院信息系统备份与恢复的研究[J].电子世界,2013(5):5-6. 被引量：1
4廖国琼,熊安晋,狄国强,万常选,夏家莉.移动Ad Hoc网络混合检查点策略[J].计算机研究与发展,2014,51(6):1176-1184. 被引量：1
5柳颖,陈道蓄,谢立,曹建农.基于故障敏感图的回卷算法和故障恢复[J].软件学报,2000,11(2):235-239. 被引量：1
6王荣福.谈谈GHOST恢复方式的故障[J].办公自动化,2006(9):18-18.
7何国雄.实践Windows7硬盘恢复方案[J].网管员世界,2011(20):73-76.
8施洁华,冷翠娟.Oracle数据库的维护攻略[J].新疆石油科技,2004,14(1):67-68. 被引量：1
9佚名.玩转戴尔一键恢复[J].电脑知识与技术（经验技巧）,2013(5):86-88.
10赵江.轻松打造一键还原系统[J].视窗世界,2005(4):54-55.

计算机工程与应用

1999年第11期

浏览历史

内容加载中请稍等...

异步检查点容错PVM 被引量：1

参考文献2

共引文献11

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史