摘要
本文提出一种新的应用级机群检查点实现方案 .给出了与现有方案不同的方法 :首先 ,采用关系数据库系统来代替以前采用文件的方式来存储机群系统的检查点、管理数据、资源情况等信息 ,便于数据的索引与归一化 ,并且 ,当数据规模非常大时 ,数据库支持的访问速度要优于基于文件系统的访问速度 .其次 ,采用独立的服务器 ,使得这些检查点以及其他相关操作对机群系统本身的运算影响最小 ,并且对这个独立的管理服务器作镜像容错处理 。
This paper issues a new application level checkpoint system for cluster computing. It stores checkpoint, management data and resource information in database system, it has the following advantages: using index structure, database provides faster access than file system. Transactions about checkpoint system less affect the performance of the cluster because they could occur on a separate database server. For fault tolerance, to mirror the standalone database server is better than to mirror every computer node in cluster system.
出处
《小型微型计算机系统》
CSCD
北大核心
2002年第3期257-261,共5页
Journal of Chinese Computer Systems
基金
教育部项目"先进计算基础设施 ACI"资助
国家攀登计划研究项目"高性能计算机若干技术关键问题研究"资助