期刊文献+

面向大规模集群的自动化监控系统 被引量:10

An automated monitoring system for large-scale supercomputers
下载PDF
导出
摘要 大规模集群系统结点数量越来越多、内部结构越来越复杂,集群可用性、稳定性的压力也越来越大,为了解决大规模集群可用性、稳定性的问题以及系统管理和系统运维难度大的问题,实现了一套大规模集群自动化监控系统。该自动化监控系统部署在大规模集群系统上,通过收集集群各组件的监控数据,利用微服务的方式处理监控数据,实现对集群各组件的实时监控。 he number of large-scale cluster system nodes is increasing,the internal structure is becoming more and more complex,and the pressure on cluster availability and stability is also increasing.In order to solve the problems of the availability and stability of large-scale clusters and the difficulty of system management,operation and maintenance,an automated monitoring system for large-scale clusters is realized.The automated monitoring system is deployed on a large-scale cluster system.By collecting monitoring data of each cluster component and using microservices to process the monitoring data,the real-time monitoring of the cluster components are realized.
作者 杨杰 曾凌波 彭运勇 蒋迁谦 杜量 YANG Jie;ZENG Ling-bo;PENG Yun-yong;JIANG Qian-qian;DU Liang(National Supercomputing Center in Guangzhou,Sun Yat-Sen University,Guangzhou 510000,China)
出处 《计算机工程与科学》 CSCD 北大核心 2020年第10期1801-1806,共6页 Computer Engineering & Science
关键词 大规模 集群 监控 微服务 large-scale cluster monitor microservices
  • 相关文献

参考文献7

二级参考文献66

共引文献179

同被引文献123

引证文献10

二级引证文献30

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部