期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
大规模计算系统的主动故障管理方法
被引量:
5
1
作者
武林平
罗红兵
+1 位作者
艾志玮
沈岳
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第S1期20-24,共5页
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的...
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量.
展开更多
关键词
大规模计算系统
中国国家网格
故障隔离
主动故障管理
原文传递
题名
大规模计算系统的主动故障管理方法
被引量:
5
1
作者
武林平
罗红兵
艾志玮
沈岳
机构
北京应用物理与计算数学研究所计算中心
北京
城市学院公共管理学部
出处
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第S1期20-24,共5页
基金
国家自然科学基金资助项目(60803045)
国家高技术研究发展计划资助项目(2006AA01A107)
文摘
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量.
关键词
大规模计算系统
中国国家网格
故障隔离
主动故障管理
Keywords
large scale computing system
China national grid
fault isolation
proactive fault management
分类号
TP393.06 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
大规模计算系统的主动故障管理方法
武林平
罗红兵
艾志玮
沈岳
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010
5
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部