容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更...容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常。因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现。文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能。期望本工作能为后续实现高性能计算任务迁移提供有效的支撑。展开更多
【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法...【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法】分析了高性能计算环境服务模式发展和现有计算环境下不同的编程模式,提出了基于高性能计算环境的HPC算力编程模式HPC as a function,定义了HPC算力和任务模式的基本抽象,以及HPC算力编程模式的参考体系结构。【结果】HPC算力编程模式可支持科研业务中融合计算对HPC算力的基本需求,可将适用于HPC的计算任务分发到合适的计算资源执行并有效管理,相比传统的工作流系统提供了更大的灵活性和可编程性。【结论】HPC算力编程模式可望有效提高“东数西算”计算基础设施的可编程性。展开更多
文摘容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常。因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现。文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能。期望本工作能为后续实现高性能计算任务迁移提供有效的支撑。
文摘【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法】分析了高性能计算环境服务模式发展和现有计算环境下不同的编程模式,提出了基于高性能计算环境的HPC算力编程模式HPC as a function,定义了HPC算力和任务模式的基本抽象,以及HPC算力编程模式的参考体系结构。【结果】HPC算力编程模式可支持科研业务中融合计算对HPC算力的基本需求,可将适用于HPC的计算任务分发到合适的计算资源执行并有效管理,相比传统的工作流系统提供了更大的灵活性和可编程性。【结论】HPC算力编程模式可望有效提高“东数西算”计算基础设施的可编程性。