期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
SlurmX:基于Slurm使用面向对象设计方法重构的任务调度系统 被引量:1
1
作者 温瑞林 樊春 +3 位作者 马银萍 王政丹 向广宇 付振新 《计算机工程与科学》 CSCD 北大核心 2022年第9期1532-1541,共10页
目前使用较为广泛的Slurm任务调度系统存在代码臃肿、新功能开发效率低和难以维护的问题,在参考目前较为成熟的任务调度系统(如Slurm和HTCondor)的优缺点的基础上,设计了一个性能优异、可扩展性好和维护方便的高性能任务及资源调度系统S... 目前使用较为广泛的Slurm任务调度系统存在代码臃肿、新功能开发效率低和难以维护的问题,在参考目前较为成熟的任务调度系统(如Slurm和HTCondor)的优缺点的基础上,设计了一个性能优异、可扩展性好和维护方便的高性能任务及资源调度系统SlurmX。讨论了通过使用面向对象的手段,对Slurm内部的组件从上至下进行了功能级别的重新抽象和组织,并从系统架构设计和组件内部设计等方面,简述了该调度系统如何在保障性能的情况下,提供高可扩展性和内部模块之间的低耦合性。 展开更多
关键词 任务调度系统 面向对象方法 slurm cgroups
下载PDF
Slurm作业调度系统在高性能集群中的应用 被引量:1
2
作者 杨敏 李淑倩 +2 位作者 关宇 何芸 侯波 《电脑知识与技术》 2021年第36期153-154,159,共3页
集群作业管理系统作为高性能计算领域的核心技术,伴随着计算机技术的发展进步逐渐成为计算机学科的热点研究领域。作为集群系统软件的重要组成部分,集群作业管理系统可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公... 集群作业管理系统作为高性能计算领域的核心技术,伴随着计算机技术的发展进步逐渐成为计算机学科的热点研究领域。作为集群系统软件的重要组成部分,集群作业管理系统可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。传统作业管理系统大多需要以命令行的方式进行管理,用户需要熟练掌握多种调度器命令。Slurm是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。本文以Slurm作业调度器为例,对其体系结构、作业执行过程做了重点研究,重点阐述其在地震处理软件中的应用。其高效便捷的操作方式,极大提升工作效率,极大程度地优化了集群管理工作。 展开更多
关键词 slurm 高性能计算 作业调度系统
下载PDF
基于Slurm的深度学习高性能计算平台设计及其调度实现技术 被引量:4
3
作者 陆忠华 胡腾腾 +2 位作者 王彦棡 刘芳 王珏 《科研信息化技术与应用》 2018年第2期40-45,共6页
传统上,HPC与解决大规模科学计算和相应大数据紧密结合。伴随着物联网、移动互联网时代的到来,数据呈现出前所未有的爆炸式的增长,给人类对数据的利用方式提出了新的命题与挑战。2012年,Hinton采用深度学习的方法以巨大的优势摘取Image... 传统上,HPC与解决大规模科学计算和相应大数据紧密结合。伴随着物联网、移动互联网时代的到来,数据呈现出前所未有的爆炸式的增长,给人类对数据的利用方式提出了新的命题与挑战。2012年,Hinton采用深度学习的方法以巨大的优势摘取ImageNet的桂冠,让人类看到了海量数据与人工智能相结合的巨大价值。HPC系统天然与深度学习无缝对接,本文将以高性能计算集群为基础,提供搭建一整套高性能的深度学习平台设计思路与实现,并以Slurm调度分布式TensorFlow进行海量数据的相关的测试实验。 展开更多
关键词 HPC 深度学习 slurm
原文传递
延安大学高性能计算平台的建设与实践
4
作者 吴乔 黄协 高俊义 《延安大学学报(自然科学版)》 2024年第1期82-89,共8页
在教育新基建的驱动下,在科学研究、学科建设、人才培养的实际状况下,高校对高性能计算基础设施的需求日益增长。采用案例分析法,以延安大学高性能计算平台建设为例,提出目前高性能计算集群运维、管理等方面面临的挑战,从平台建设、运... 在教育新基建的驱动下,在科学研究、学科建设、人才培养的实际状况下,高校对高性能计算基础设施的需求日益增长。采用案例分析法,以延安大学高性能计算平台建设为例,提出目前高性能计算集群运维、管理等方面面临的挑战,从平台建设、运维管理、成效与创新等方面进行探索性研究。研究结果表明:先进的计算平台、精湛的技术支持、开放的学术氛围以及创新的管理服务模式能够支撑更多领域的科学研究工作。 展开更多
关键词 高性能计算平台 slurm GRIDVIEW 计算节点 队列 延安大学
下载PDF
P级计算中心集群资源开放共享实践
5
作者 李胜泰 刘军 +2 位作者 袁强 宋子轩 罗璐 《实验技术与管理》 CAS 北大核心 2023年第11期263-267,共5页
随着科学技术的高速发展,科学研究对GPU资源的需求越来越大,高校与研究所纷纷建立高性能计算中心。因缺少专职管理人员、服务器种类多样化,存在计算资源利用率不高、闲置等问题。某高校计算中心通过搭建三套独立的网络管理服务器,配置... 随着科学技术的高速发展,科学研究对GPU资源的需求越来越大,高校与研究所纷纷建立高性能计算中心。因缺少专职管理人员、服务器种类多样化,存在计算资源利用率不高、闲置等问题。某高校计算中心通过搭建三套独立的网络管理服务器,配置支持调度异构资源的SLURM任务提交系统,整合不同计算资源做好开放共享。通过长期实践,集群运行稳定,整体资源利用率接近100%,在充分利用所有计算资源的同时,也为用户提供了良好的使用环境。 展开更多
关键词 GPU 计算中心 开放共享 slurm
下载PDF
异构融合智算管理平台的设计与实现
6
作者 陈莉琳 《福建电脑》 2023年第10期73-77,共5页
为了满足不同用户对各种计算软硬件的使用需求,建设一个异构融合的统一算力管理平台十分必要。本文设计并实现了一个数字福建云计算公司智算管理平台,平台采用Slurm调度管理和Singularity容器技术,对算力资源调度管理进行总体规划。实... 为了满足不同用户对各种计算软硬件的使用需求,建设一个异构融合的统一算力管理平台十分必要。本文设计并实现了一个数字福建云计算公司智算管理平台,平台采用Slurm调度管理和Singularity容器技术,对算力资源调度管理进行总体规划。实际使用的结果表明,该平台可为公共用户提供便捷和易用的算力服务。 展开更多
关键词 高性能计算 人工智能 集群调度 容器 管理平台
下载PDF
并行程序运行故障原因识别 被引量:1
7
作者 刘轶 高玉林 张国振 《国防科技大学学报》 EI CAS CSCD 北大核心 2022年第5期45-52,共8页
高性能计算系统的复杂性和规模的不断增长使得系统的平均无故障时间越来越短,因此系统的硬软件故障导致并行程序运行出错的概率随之增加。此外,并行程序本身可能存在的编程错误也会导致运行出错。由于处理上述两类故障原因的措施迥异,... 高性能计算系统的复杂性和规模的不断增长使得系统的平均无故障时间越来越短,因此系统的硬软件故障导致并行程序运行出错的概率随之增加。此外,并行程序本身可能存在的编程错误也会导致运行出错。由于处理上述两类故障原因的措施迥异,所以在程序运行出现故障时,用户需要关注故障原因的类别。针对这一问题,设计和实现了一种基于作业管理系统Slurm的并行程序运行故障原因识别系统。通过对Slurm进行扩展,监控作业状态,重提交和重运行作业。根据作业运行结果,区分故障原因类别。故障注入方式进行的实验表明,该系统具有较高的识别准确率。 展开更多
关键词 高性能计算系统 slurm 运行故障 故障检测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部