-
题名基于深度学习的集群系统故障预测方法
- 1
-
-
作者
姬莉霞
张庆开
周洪鑫
党依萍
张晗
-
机构
郑州大学网络空间安全学院
四川大学计算机学院
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2024年第5期71-79,共9页
-
基金
国家自然科学基金项目(52179144)
河南省重大科技专项(201300210500)
郑州市重大科技创新专项(2020CXZX0053)。
-
文摘
在面对集群系统故障预测时,长时间序列预测中存在因关键特征信息丢失而导致梯度消失或爆炸问题,从而影响了故障预测模型的准确性。基于此,提出一种新的基于深度学习的集群系统故障预测方法。该方法采用双向门控循环网络(bidirectional gate recurrent unit, BiGRU)来捕捉局部时序特征,同时采用Transformer来提高全局特征提取能力。通过BiGRU层中双向的信息传递获得集群系统日志上时序特征的动态变化,以获取集群事件中的潜在因果关系和局部时间特征,使用Transformer层并行处理BiGRU层输出的时间序列,得到全局的时间依赖性,继而由全连接神经网络层得到预测结果。通过由Blue Gene/L系统产生的真实日志所构建的公共数据集来验证方法的有效性,结果表明,所提方法优于对比方法,其最佳正确率和F1值分别达到91.69%和92.74%。
-
关键词
故障预测
集群系统
特征提取
循环神经网络
TRANSFORMER
深度学习
-
Keywords
failure prediction
cluster system
feature extraction
recurrent neural network
Transformer
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-