【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法...【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法】分析了高性能计算环境服务模式发展和现有计算环境下不同的编程模式,提出了基于高性能计算环境的HPC算力编程模式HPC as a function,定义了HPC算力和任务模式的基本抽象,以及HPC算力编程模式的参考体系结构。【结果】HPC算力编程模式可支持科研业务中融合计算对HPC算力的基本需求,可将适用于HPC的计算任务分发到合适的计算资源执行并有效管理,相比传统的工作流系统提供了更大的灵活性和可编程性。【结论】HPC算力编程模式可望有效提高“东数西算”计算基础设施的可编程性。展开更多
国家高性能计算环境为提高应用服务的持续交付能力逐步引进微服务架构。针对国家高性能计算环境由传统单体架构向微服务架构转变引入的新的运维问题,设计并实现了面向高性能计算环境的微服务运维平台,拟面向开发运维人员,降低开发难度,...国家高性能计算环境为提高应用服务的持续交付能力逐步引进微服务架构。针对国家高性能计算环境由传统单体架构向微服务架构转变引入的新的运维问题,设计并实现了面向高性能计算环境的微服务运维平台,拟面向开发运维人员,降低开发难度,提升运维效率。重点研究并实现了微服务运维平台中的服务部署及管理、服务运行监控和服务弹性伸缩特色功能,通过应用化封装技术对服务部署及管理过程进行封装,同时设计用户权限管理机制,利用EFK和Prometheus分别完善高性能计算环境的日志收集功能和监控告警功能,通过Horizontal Pod Autoscaler资源对象实现基于CPU、内存等核心指标以及QPS等自定义指标的服务规模弹性伸缩技术。测试结果表明,微服务运维平台可以实现高性能计算环境中以项目为划分依据的一键式服务部署、更新、删除等操作,提供交互性更好的可视化运行监控方案,应对流量高峰场景,增强应用服务可靠性。展开更多
文摘【目的】随着云计算、大数据、人工智能等技术的兴起和广泛应用,促进了基于多元算力的融合计算发展。在国家“东数西算”战略的指引下,充分发挥HPC算力优势,提供新型HPC算力编程模式,是新一代计算基础设施可编程能力的重要变革。【方法】分析了高性能计算环境服务模式发展和现有计算环境下不同的编程模式,提出了基于高性能计算环境的HPC算力编程模式HPC as a function,定义了HPC算力和任务模式的基本抽象,以及HPC算力编程模式的参考体系结构。【结果】HPC算力编程模式可支持科研业务中融合计算对HPC算力的基本需求,可将适用于HPC的计算任务分发到合适的计算资源执行并有效管理,相比传统的工作流系统提供了更大的灵活性和可编程性。【结论】HPC算力编程模式可望有效提高“东数西算”计算基础设施的可编程性。
文摘国家高性能计算环境为提高应用服务的持续交付能力逐步引进微服务架构。针对国家高性能计算环境由传统单体架构向微服务架构转变引入的新的运维问题,设计并实现了面向高性能计算环境的微服务运维平台,拟面向开发运维人员,降低开发难度,提升运维效率。重点研究并实现了微服务运维平台中的服务部署及管理、服务运行监控和服务弹性伸缩特色功能,通过应用化封装技术对服务部署及管理过程进行封装,同时设计用户权限管理机制,利用EFK和Prometheus分别完善高性能计算环境的日志收集功能和监控告警功能,通过Horizontal Pod Autoscaler资源对象实现基于CPU、内存等核心指标以及QPS等自定义指标的服务规模弹性伸缩技术。测试结果表明,微服务运维平台可以实现高性能计算环境中以项目为划分依据的一键式服务部署、更新、删除等操作,提供交互性更好的可视化运行监控方案,应对流量高峰场景,增强应用服务可靠性。