期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
大规模计算系统的主动故障管理方法 被引量:5
1
作者 武林平 罗红兵 +1 位作者 艾志玮 沈岳 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第S1期20-24,共5页
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的... 为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量. 展开更多
关键词 大规模计算系统 中国国家网格 故障隔离 主动故障管理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部