-
题名自治故障管理系统推理规则的智能学习技术
被引量:1
- 1
-
-
作者
张莉丽
王睿伯
王晓东
张文喆
-
机构
国防科技大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2023年第5期772-781,共10页
-
文摘
随着高性能计算机系统规模急剧增加,系统整体的固有可靠性逐步降低,产生了“可靠性墙”问题。为了应对这一挑战,天河高性能计算机系统设计了自治故障管理系统,通过该系统实时监控、分析、管理全系统的报警、故障和错误。自治故障管理系统所收集的故障消息垂直涵盖系统的各个逻辑层次,水平覆盖系统的全部功能模块,因此故障消息之间存在逻辑上的因果关系,即一个故障源会导致后续一系列的故障事件。提出了一种针对于故障信息的推理规则学习算法EMRL,把故障信息的推理规则建模为一个概率模型,通过该模型自动从故障信息中挖掘故障推理规则,并且根据挖掘结果自动生成最小的故障推理图。采用天河系统的部分运行数据,验证了EMRL算法的有效性,结果表明EMRL能有效挖掘故障信息的推理关系。
-
关键词
推理规则学习
故障管理
自治管理
-
Keywords
inference rule learning
fault management
autonomous management
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-