摘要
本文系统化地介绍了Hadoop2.0系统中由于复杂大规模Spark工作流引发的系统死锁与其生成机理。并据此提出了切实可行的大数据平台资源分配规则,既依据Spark工作种类与重要程度将平台整体资源划分为不同类型队列的分配原则。再辅以基于Nagios系统的动态监控脚本,运维团队可以对平台系统阻塞与死锁进行实时监控及快速准确的反应排查。最终使系统的可靠性与基于此大数据平台的服务质量都得到切实保证。相较于其他已有资源管理方式与研究,本文介绍的系统资源分配规则与动态监控实现相对简单,对应用环境没有特殊要求,现均已应用于Marin Software(每锐软件)的实际生产环境(MarinOne)并得到了良好反馈。
出处
《电子技术与软件工程》
2021年第5期201-206,共6页
ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING