容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更...容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常。因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现。文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能。期望本工作能为后续实现高性能计算任务迁移提供有效的支撑。展开更多
【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法...【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法】分析了高性能计算环境服务模式发展和现有计算环境下不同的编程模式,提出了基于高性能计算环境的HPC算力编程模式HPC as a function,定义了HPC算力和任务模式的基本抽象,以及HPC算力编程模式的参考体系结构。【结果】HPC算力编程模式可支持科研业务中融合计算对HPC算力的基本需求,可将适用于HPC的计算任务分发到合适的计算资源执行并有效管理,相比传统的工作流系统提供了更大的灵活性和可编程性。【结论】HPC算力编程模式可望有效提高“东数西算”计算基础设施的可编程性。展开更多
国家高性能计算环境为提高应用服务的持续交付能力逐步引进微服务架构。针对国家高性能计算环境由传统单体架构向微服务架构转变引入的新的运维问题,设计并实现了面向高性能计算环境的微服务运维平台,拟面向开发运维人员,降低开发难度,...国家高性能计算环境为提高应用服务的持续交付能力逐步引进微服务架构。针对国家高性能计算环境由传统单体架构向微服务架构转变引入的新的运维问题,设计并实现了面向高性能计算环境的微服务运维平台,拟面向开发运维人员,降低开发难度,提升运维效率。重点研究并实现了微服务运维平台中的服务部署及管理、服务运行监控和服务弹性伸缩特色功能,通过应用化封装技术对服务部署及管理过程进行封装,同时设计用户权限管理机制,利用EFK和Prometheus分别完善高性能计算环境的日志收集功能和监控告警功能,通过Horizontal Pod Autoscaler资源对象实现基于CPU、内存等核心指标以及QPS等自定义指标的服务规模弹性伸缩技术。测试结果表明,微服务运维平台可以实现高性能计算环境中以项目为划分依据的一键式服务部署、更新、删除等操作,提供交互性更好的可视化运行监控方案,应对流量高峰场景,增强应用服务可靠性。展开更多
文摘容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常。因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现。文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能。期望本工作能为后续实现高性能计算任务迁移提供有效的支撑。
文摘【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法】分析了高性能计算环境服务模式发展和现有计算环境下不同的编程模式,提出了基于高性能计算环境的HPC算力编程模式HPC as a function,定义了HPC算力和任务模式的基本抽象,以及HPC算力编程模式的参考体系结构。【结果】HPC算力编程模式可支持科研业务中融合计算对HPC算力的基本需求,可将适用于HPC的计算任务分发到合适的计算资源执行并有效管理,相比传统的工作流系统提供了更大的灵活性和可编程性。【结论】HPC算力编程模式可望有效提高“东数西算”计算基础设施的可编程性。
文摘国家高性能计算环境为提高应用服务的持续交付能力逐步引进微服务架构。针对国家高性能计算环境由传统单体架构向微服务架构转变引入的新的运维问题,设计并实现了面向高性能计算环境的微服务运维平台,拟面向开发运维人员,降低开发难度,提升运维效率。重点研究并实现了微服务运维平台中的服务部署及管理、服务运行监控和服务弹性伸缩特色功能,通过应用化封装技术对服务部署及管理过程进行封装,同时设计用户权限管理机制,利用EFK和Prometheus分别完善高性能计算环境的日志收集功能和监控告警功能,通过Horizontal Pod Autoscaler资源对象实现基于CPU、内存等核心指标以及QPS等自定义指标的服务规模弹性伸缩技术。测试结果表明,微服务运维平台可以实现高性能计算环境中以项目为划分依据的一键式服务部署、更新、删除等操作,提供交互性更好的可视化运行监控方案,应对流量高峰场景,增强应用服务可靠性。