期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
混部集群资源利用分析 被引量:9
1
作者 葛浙奉 王济伟 +6 位作者 蒋从锋 张纪林 俞俊 林江彬 闫龙川 任祖杰 万健 《计算机学报》 EI CSCD 北大核心 2020年第6期1103-1122,共20页
现代互联网数据中心的规模随应用服务需求的增长而越来越大,但数据中心资源利用率低已逐步成为云计算进一步发展的制约因素.为了提高数据中心的资源利用率,云服务提供商将在线服务和离线批处理作业混合部署到同一个生产集群中.但混合部... 现代互联网数据中心的规模随应用服务需求的增长而越来越大,但数据中心资源利用率低已逐步成为云计算进一步发展的制约因素.为了提高数据中心的资源利用率,云服务提供商将在线服务和离线批处理作业混合部署到同一个生产集群中.但混合部署增加了数据中心管理系统复杂性,对数据中心系统调度和工作负载分配提出了新的挑战.本文从资源使用角度出发,统计分析了阿里巴巴最新发布的包含4034台机器长达8天的混部集群日志数据集,刻画了机器对离线批处理任务与在线服务容器资源分配策略,以及离线批处理作业与在线服务之间的相互干扰.并根据不同的负载特征,以多种方式对机器进行分类,研究机器分工对集群效率提升的意义.通过分析阿里巴巴集群日志数据集,我们发现:(1)集群中43.271%的机器存在容器对CPU核心“超订”现象,而内存不存在“超订”现象;(2)集群中存在“备用节点”,确保集群出现故障时,任务能及时被转移到“备用节点”继续执行;(3)延迟敏感的在线任务的CPU利用率较低,但对内存资源的需求比较高,而离线批处理作业的CPU利用率较高,在线任务和离线任务的资源占用互补;(4)混合部署显著提高了CPU利用率,而内存可能是限制集群性能的主要因素;(5)集群中容器分布存在不平衡性;(6)离线任务的混合部署导致容器内存利用率有所下降,且当在线服务资源需求激增时,调度器缺少一定的容错性和健壮性;(7)离线任务如何部署与容器当前性能紧密相关,尤其是容器CPI指标,与离线任务部署呈现显著相关性.本文对集群负载特性、资源使用及离线和在线任务相互干扰进行研究,有助于其他研究人员对集群系统调度和负载分配分析优化,以提高现代数据中心的资源利用率. 展开更多
关键词 混部集群 资源利用 负载特性 在线服务 批处理作业 调度 服务质量 数据中心
下载PDF
混部数据中心负载特征及其任务调度优化分析 被引量:3
2
作者 王济伟 葛浙奉 +6 位作者 蒋从锋 张纪林 俞俊 林江彬 闫龙川 任祖杰 万健 《计算机工程与科学》 CSCD 北大核心 2020年第1期8-17,共10页
随着现代互联网数据中心的规模越来越大,数据中心面临着能耗、可靠性、可管理性与可扩展性等方面的挑战。同时,数据中心承载的服务多样,既有在线Web服务,也有离线批处理任务。在线任务要求较低的延迟,而离线任务要求较高的吞吐量。为了... 随着现代互联网数据中心的规模越来越大,数据中心面临着能耗、可靠性、可管理性与可扩展性等方面的挑战。同时,数据中心承载的服务多样,既有在线Web服务,也有离线批处理任务。在线任务要求较低的延迟,而离线任务要求较高的吞吐量。为了提高服务器利用率,降低数据中心能耗,当前数据中心往往将在线任务和离线任务混合部署到同一个计算集群中。在混部场景下,如何同时满足在线和离线任务的不同要求,是目前面临的关键挑战。分析了阿里巴巴于2018年发布的含有4034台服务器的混部计算集群在8天内的日志数据(cluster-trace-v2018),从静态配置信息、动态混部运行状态、离线批处理作业DAG依赖结构等出发,揭示其负载特征,包括任务倾斜与容器部署的相关关系等,根据任务依赖关系与关键路径,提出了相应的任务调度优化策略。 展开更多
关键词 混部数据中心 负载特性 在线服务 批处理作业 调度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部