-
题名基于用户行为的超级计算机作业失败预测方法
- 1
-
-
作者
唐阳坤
鲜港
杨文祥
喻杰
张晓蓉
王耀彬
-
机构
西南科技大学计算机科学与技术学院
中国空气动力研究与发展中心计算空气动力研究所
国防科技大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2022年第10期1753-1761,共9页
-
基金
国家自然科学基金(61872304,61802320)
空气动力学国家重点实验室基金(SKLA20200203)。
-
文摘
超级计算机的规模不断扩大,与此同时,科学应用的复杂性也在不断增加,这导致了超级计算机上许多作业失败。作业失败会造成资源浪费,排队作业等待时间延长,严重影响系统的执行效率。提前预测作业失败,就可以采取必要的措施提升系统资源利用率和系统执行效率,这对未来的E级超级计算机至关重要。为此,尝试研究从已知的传统特征和构建特征中预测作业失败,发现能够反映用户工作行为模式和提交行为模式的特征及处理方式。通过结合行为特征和传统特征,提出基于树结构模型的综合框架来预测作业失败。实验结果表明,预测效果优于其他相关方法。
-
关键词
系统执行效率
作业日志分析
用户行为
作业失败预测
机器学习
-
Keywords
system execution efficiency
job log analysis
user behavior
job failure prediction
machine learning
-
分类号
TP303
[自动化与计算机技术—计算机系统结构]
-