-
题名基于日志分析的超级计算机错误预测方法研究
- 1
-
-
作者
田曲波
邱德红
张奇峰
孙蕾
-
机构
华中科技大学软件学院
-
出处
《计算机应用研究》
CSCD
北大核心
2011年第4期1235-1237,共3页
-
基金
国家自然科学基金资助项目(60873031)
-
文摘
大量的错误严重影响了超级计算机系统的稳定性,错误预测对于提高其稳定性有重要作用,日志分析是进行错误预测的有效方法。建立了错误预测的基本框架,包括日志的预处理、基础预测器和联合预测器,其中基础预测器包括时间预测器和关联预测器。在BlueGene/L日志上进行的实验结果显示联合预测器的预测效果比基础预测器好。这表明错误预测要充分挖掘错误的特性,将基于各种错误特性的基础预测器联合起来进行预测才能取得满意的预测效果。
-
关键词
日志分析
错误预测
时间预测器
关联预测器
联合预测器
-
Keywords
log analysis
failure prediction
time predictor
association predictor
joint predictor
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名超级计算机错误预测模型研究
- 2
-
-
作者
田曲波
邱德红
张奇峰
孙蕾
-
机构
华中科技大学软件学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第20期126-128,141,共4页
-
基金
国家自然科学基金No.60873031
the National Natural Science Foundation of China under Grant No.60873031
-
文摘
错误预测对于提高计算机系统的运算稳定性有重要意义,日志分析是建立错误预测模型的有效方法。在同类型错误的时间预测模型的基础之上,通过日志分析建立了不同类型错误之间的关联模式,并在此基础上建立了基于关联模式的错误预测模型,填补了时间预测模型在错误发生后的短时间内无能为力的缺陷,提高了预测率,并在IBM的BlueGene/L的系统日志数据上验证了关联模式错误预测模型的有效性。
-
关键词
关联模式
错误预测
日志分析
BlueGene/L
-
Keywords
associated mode
failure prediction
log analysis
BlueGene/L
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-