期刊文献+

E级高性能计算机系统中监控分系统的挑战与设计 被引量:2

Monitoring subsystem for exascale HPC systems:Challenges and design
下载PDF
导出
摘要 随着E级高性能计算机系统组装密度成倍增加,结点规模不断扩大,监控分系统在可扩展性、可靠性、可服务性和高效运维上面临巨大挑战。针对这些挑战,从架构、网络、功能和运维4个方面介绍了监控分系统的设计思路,并通过原型系统验证了部分设计的可行性与优势,对未来E级系统的构建具有较大的支撑作用。 The High-Performance Computer(HPC)systems built for future Exascale computing require a several-times increase of assembly density,along with the large expansion of node scale.This presents huge challenges for HPC monitoring subsystem in terms of scalability,reliability,serviceability,and maintenance.In response to these challenges,this paper introduces the design ideas of the monitoring subsystem from the four aspects of architecture,network,functionality,and maintenance,and verifies the feasibility and advantages of some designs through the prototype system,which can significantly benefit the construction of future exascale HPC systems.
作者 袁远 李世杰 邢建英 蒋句平 YUAN Yuan;LI Shi-jie;XING Jian-ying;JIANG Ju-ping(College of Computer Science and Technology,National University of Defense Technology,Changsha 410073,China)
出处 《计算机工程与科学》 CSCD 北大核心 2021年第8期1366-1375,共10页 Computer Engineering & Science
基金 国家重点研发计划(2018YFB0204301)。
关键词 E级高性能计算机系统 监控分系统 可扩展性 可靠性 exascale high-performance computer system monitoring subsystem scalability reliability
  • 相关文献

参考文献3

二级参考文献9

共引文献41

同被引文献21

引证文献2

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部