摘要
本文详细分析了基于VCS集群技术的省级气象通信系统的一次故障实例,描述了本次系统故障中的硬件、软件问题,对重点集群故障问题分别从VCS集群体系架构、集群系统的启动过程、集群故障检查、故障解决方案等方面进行了循序渐进地阐述。省级气象通信系统是部署在各省气象局的气象数据通信传输业务系统,它采用赛门铁克VCS(VERITAS Cluster Server)集群技术完成了气象数据传输、数据处理和系统监视等几大功能,并实现了气象通信系统的高可用性、易扩展性,提升了数据的处理能力与传输能力。文章简单介绍了集群CFS、CVM、HAD、IO Fencing、GAB、LLT等体系架构,根据集群架构、集群系统的启动顺序逐步检查集群心跳状态,端口状态;详细分析了集群故障原因,判断集群GAB中的v,f端口未能正常启动,即Cvm,cfs未能启动;由此提出了该系统故障的解决步骤,首先停止整个集群,再逐步启动集群,分别查看集群端口的启动状态,同时查看磁盘链路的状态,监控导致集群故障的源头--HP阵列主控制器的HBA卡故障,最终通过更换HBA卡,问题得以解决。
出处
《电子世界》
2012年第20期76-77,共2页
Electronics World