期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
自治故障管理系统推理规则的智能学习技术 被引量:1
1
作者 张莉丽 王睿伯 +1 位作者 王晓东 张文喆 《计算机工程与科学》 CSCD 北大核心 2023年第5期772-781,共10页
随着高性能计算机系统规模急剧增加,系统整体的固有可靠性逐步降低,产生了“可靠性墙”问题。为了应对这一挑战,天河高性能计算机系统设计了自治故障管理系统,通过该系统实时监控、分析、管理全系统的报警、故障和错误。自治故障管理系... 随着高性能计算机系统规模急剧增加,系统整体的固有可靠性逐步降低,产生了“可靠性墙”问题。为了应对这一挑战,天河高性能计算机系统设计了自治故障管理系统,通过该系统实时监控、分析、管理全系统的报警、故障和错误。自治故障管理系统所收集的故障消息垂直涵盖系统的各个逻辑层次,水平覆盖系统的全部功能模块,因此故障消息之间存在逻辑上的因果关系,即一个故障源会导致后续一系列的故障事件。提出了一种针对于故障信息的推理规则学习算法EMRL,把故障信息的推理规则建模为一个概率模型,通过该模型自动从故障信息中挖掘故障推理规则,并且根据挖掘结果自动生成最小的故障推理图。采用天河系统的部分运行数据,验证了EMRL算法的有效性,结果表明EMRL能有效挖掘故障信息的推理关系。 展开更多
关键词 推理规则学习 故障管理 自治管理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部