期刊文献+

多集群计算环境故障监控管理系统 被引量:2

Fault monitoring and management system for multiple computing clusters
下载PDF
导出
摘要 随着高性能计算集群系统的数量及其节点规模的不断扩大,系统运行维护的难度和工作量也随之加大。介绍的软件系统工作在多套不同软硬件环境的Linux集群系统中,采用命令行脚本程序对各集群中重要的运行状态和指标进行自动监测,并利用socket通信的方式及时将发现的故障信息集中发送到系统管理员Windows终端,切实提高了系统运行维护工作的效率,加快了故障处理响应时间。该系统还利用数据库对故障事件数据进行记录管理,规范了故障处理的流程。 With the increasing number and scale of high performance computing cluster systems, the system maintenance becomes more difficult and the workload is getting larger. The software system we introduce in the paper works in multiple Linux clusters with different hardware and software environ- ment, automatically monitors the important operating states and indexes of clusters by command line scripts and programs, and sends faults messages to the Windows terminal of system administrators in time by means of socket communication. Results demonstrate that this system improves the efficiency of system maintenance and speeds up the response time of faults handling. Using database, it also records and manages faults event data, thus standardizing the process of faults handling.
出处 《计算机工程与科学》 CSCD 北大核心 2013年第11期54-61,共8页 Computer Engineering & Science
关键词 集群 故障 监控 管理 数据库 cluster fault monitor manage database
  • 相关文献

同被引文献6

引证文献2

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部