期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
大规模计算系统故障特征及容错机制分析 被引量:3
1
作者 武林平 罗红兵 刘勇鹏 《计算机工程与科学》 CSCD 北大核心 2009年第A01期237-240,共4页
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系... 本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。 展开更多
关键词 大规模计系统 故障 容错 断点续算
下载PDF
基于公共云的HPC集群实现及自动伸缩闲时计算研究 被引量:2
2
作者 田永军 何万青 +1 位作者 孙相征 余洋 《计算机工程与科学》 CSCD 北大核心 2019年第7期1155-1160,共6页
对于HPC用户来说,计算成本是迁云所考虑的重要因素之一,阿里云上提供的抢占式实例,是一种按需实例,旨在降低使用公共云计算资源成本,抢占式实例市场价格是波动的,通常远低于正常的按需实例,甚至达到正常按需实例的一折。抢占式实例一般... 对于HPC用户来说,计算成本是迁云所考虑的重要因素之一,阿里云上提供的抢占式实例,是一种按需实例,旨在降低使用公共云计算资源成本,抢占式实例市场价格是波动的,通常远低于正常的按需实例,甚至达到正常按需实例的一折。抢占式实例一般会在创建时为用户保留一段最短时间,过后有可能会被释放,所以一般适用于无状态的应用场景。提出在公共云上的自动伸缩策略,其面向通用的HPC集群调度器,基于用户的应用软件类型、提交作业规律以及用户对性能和成本等多方面需求,自动在云上部署扩容计算资源,控制成本。对用户来说,可以做到“only pay for what you want and what you use”。基于公共云上丰富的资源规格类型和售卖方式,利用自动伸缩服务,抢占式实例,断点续算等技术可以配置低成本的公共云上HPC自动伸缩方案:用户提交作业的同时可以指定成本上限,自动伸缩服务自动在低于此成本的前提下寻找和扩容抢占式计算资源,同时利用断点续算功能保证作业在计算资源切换的时候可以继续运算。最后,通过LAMMPS和GROMACS两个高性能应用实例验证了该策略的可行性和有效性。 展开更多
关键词 高性能计 公共云 自动伸缩 断点续算 闲时计伸缩模型
下载PDF
新一代调控系统分析决策中心业务多活框架与技术 被引量:7
3
作者 翟明玉 许洪强 +3 位作者 彭晖 余璟 葛以踊 吴炳祥 《电力系统自动化》 EI CSCD 北大核心 2019年第22期110-115,共6页
新一代电网调度控制系统采用"物理分布、逻辑统一"的体系架构,全局分析决策业务集中部署于多个异地分析决策中心。在研究新一代电网调度控制系统分析决策业务运行时特征的基础上,提出了分析决策中心业务多活的技术框架,研发... 新一代电网调度控制系统采用"物理分布、逻辑统一"的体系架构,全局分析决策业务集中部署于多个异地分析决策中心。在研究新一代电网调度控制系统分析决策业务运行时特征的基础上,提出了分析决策中心业务多活的技术框架,研发了负载均衡、中心容错、阶段结果数据同步、断点续算和业务单元化等关键技术,并结合原型系统进行了验证测试,实现了各分析决策中心地位均等,同时对外提供服务。确保了单个分析决策中心故障下,其他中心对核心业务或全部业务的快速接管,实现用户对中心故障的"透明无感知"。 展开更多
关键词 电网调度控制系统 分析决策中心 业务多活 中心容错 断点续算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部