基于XGBoost模型的超算作业运行状态预测研究

Research on Supercomputer Job Running State Prediction Based on XGBoost Model

下载PDF

导出

摘要【背景】在高性能计算系统中,作业运行一段时间后可能失败或者异常退出,导致计算资源被占用但未得到满意结果。【目的】对计算作业异常运行状态的检测和预警可以帮助用户、管理人员提前介入干预,减少资源浪费,更早和更好地跟踪分析异常原因。【方法】本文基于大型超级计算集群真实监控数据,从作业运行状态和特征的角度,采用XGBoost算法对各类型作业的运行状态进行异常检测,并对作业是否失败进行预测。【结果】通过对算法的比较和分析,发现XGBoost能够较准确地预测作业失败。【结论】本文研究为高性能计算作业的异常检测和预警拓展了一种新的研究思路,对帮助用户更高效使用昂贵的超级计算资源具有积极意义。 [Background]In high-performance computing systems,jobs may fail or exit abnormally after running for a period of time,resulting in computational resources being utilized without satisfactory results.[Objective]Detection and early warning of abnormal operation status of computing jobs can help users and managers to intervene in advance,reduce the waste of resources,and track and analyze the causes of abnormalities earlier and better.[Methods]Based on real monitoring data of large supercomputing clusters,the XGBoost algorithm is used to detect anomalies in the operation status of each type of job and predict whether the job fails or not from the operation status and characteristics of the job.[Results]By comparing and analyzing the algorithms,it is found that XGBoost can predict job failure more accurately.[Conclusions]The research in this paper explores a new research idea for anomaly detection and early warning of high performance computing jobs,which is of positive significance to help users to use expensive supercomputing resources more efficiently.

作者纪鹏牛铁危婷彭亮 JI Peng;NIU Tie;WEI Ting;PENG Liang(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083,China;School of Computer Science and Technology,Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院计算机网络信息中心中国科学院大学

出处《数据与计算发展前沿（中英文）》 CSCD 2024年第6期123-129,共7页 Frontiers of Data & Computing

基金中国科学院网络安全和信息化专项(CAS-WX2022GC-0103)。

关键词高性能计算作业状态预测机器学习 HPC job status prediction machine learning

分类号 TP38 [自动化与计算机技术—计算机系统结构] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘春红,韩晶晶,商彦磊.基于SVM分类的云集群失败作业主动预测方法[J].北京邮电大学学报,2016,39(5):104-109. 被引量：7
2危婷,彭亮,牛铁,张宏海.基于特征分析的HPC失败作业的检测和根因分析[J].数据与计算发展前沿,2023,5(6):94-103. 被引量：1

二级参考文献7

1丁晓剑,赵银亮.双边界支持向量机的理论研究与分析[J].北京邮电大学学报,2010,33(2):20-23. 被引量：2
2王克朝,成坚,王甜甜,任向民.面向程序分析的插桩技术研究[J].计算机应用研究,2015,32(2):479-484. 被引量：5
3韩利钊,钱雪忠,罗靖,宋威.基于区域划分的DBSCAN多密度聚类算法[J].计算机应用研究,2018,35(6):1668-1671. 被引量：30
4游伟倩,盛乐标,张予倩.南京大学高性能计算集群系统管理与运维研究[J].中国设备工程,2018(22):42-45. 被引量：6
5尚家泽,安葳鹏,郭耀丹.基于阈值的BIRCH算法改进与分析[J].重庆邮电大学学报（自然科学版）,2020,32(3):487-494. 被引量：7
6钱德沛,王锐.E级计算的几个问题[J].中国科学：信息科学,2020,50(9):1303-1326. 被引量：9
7彭亮,牛铁,魏宝亮,赵毅.超大规模计算集群监控系统的设计与实现[J].数据与计算发展前沿,2023,5(1):97-103. 被引量：1

共引文献6

1谢丽霞,汪子荧.一种在线集群异常作业预测方法[J].北京邮电大学学报,2019,42(5):62-68.
2吴青,齐韶维,孙凯悦,臧博研,赵祥.最小二乘大间隔孪生支持向量机[J].北京邮电大学学报,2018,41(6):34-38. 被引量：2
3谢丽霞,汪子荧.一种分段集群异常作业预测方法[J].大连理工大学学报,2019,59(4):427-433. 被引量：1
4代丽萍,王敬雄,李为丽,刘春红,程渤.基于类重叠度区分的大规模云平台任务终止状态预测[J].中国传媒大学学报（自然科学版）,2021,28(2):44-53.
5唐阳坤,鲜港,杨文祥,喻杰,张晓蓉,王耀彬.基于用户行为的超级计算机作业失败预测方法[J].计算机工程与科学,2022,44(10):1753-1761.
6刘春红,李为丽,焦洁,王敬雄,张俊娜.一种可解释的云平台任务终止状态预测方法[J].计算机研究与发展,2024,61(3):716-727. 被引量：1

1王婧宇.多元统计在经济学中的深度应用与优化[J].市场周刊,2024,37(34):154-157.
2朱芯逸,王灏,陈梦函,何木叶,赵凡,刘电芝.同伴介入团体运动干预改善孤独症儿童的症状[J].中国临床心理学杂志,2024,32(5):1181-1186.
3申永春,刘丹,罗凤鸣.热蒸汽肺减容的应用及挑战[J].中华结核和呼吸杂志,2024,47(11):1019-1021.
4陈国文,付水平,黄刚刚,胡春梅,曹宏勇.经腘静脉入路介入与风险分级在急性下肢深静脉血栓应用[J].现代诊断与治疗,2024,35(13):1970-1972.
5张大伟,冯新政,林文青,毕吴瑕,王玮琦,王帆.国内外不同GPU用于洪水模拟时加速性能对比分析[J].中国水利水电科学研究院学报（中英文）,2024,22(5):530-538.
6王在彬.如何通过能力验证提高实验室检测能力[J].计量与测试技术,2024,50(11):127-130.
7高艺鑫.个案工作视角下辅导员谈心谈话工作实效性提升研究[J].科教导刊,2024(30):93-96.
8刘美佟,胡旃,范荻,陈长,张兆强.2019—2023年湖南省疾病预防控制中心能力验证情况分析[J].实用预防医学,2024,31(9):1146-1148.
9钟晨,符增,温燕清,申芳瑜,李小海.基于质量控制检测指标下的呼吸机预防性保养类别划分[J].中国医疗器械信息,2024,30(22):156-159.
10李志远,张景仪,王思琪,李哲媛,刘屹,邹伟斌.微生物限度检查能力验证组织及解读[J].药学前沿,2024,28(10):229-236.

数据与计算发展前沿（中英文）

2024年第6期

浏览历史

内容加载中请稍等...

基于XGBoost模型的超算作业运行状态预测研究

参考文献2

二级参考文献7

共引文献6

相关作者

相关机构

相关主题

浏览历史