期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Gloo+:利用在网计算技术加速分布式深度学习训练
1
作者 黄泽彪 董德尊 齐星云 《计算机工程与科学》 CSCD 北大核心 2024年第1期28-36,共9页
在分布式深度学习训练中,聚合通信是主要的通信方式。在聚合通信优化的研究中,有软件层面的优化和硬件层面的优化。SHARP是Mellanox提出来的一种聚合通信网络卸载协议,是针对聚合通信在硬件上的优化,其将聚合操作卸载到网络中的交换机,... 在分布式深度学习训练中,聚合通信是主要的通信方式。在聚合通信优化的研究中,有软件层面的优化和硬件层面的优化。SHARP是Mellanox提出来的一种聚合通信网络卸载协议,是针对聚合通信在硬件上的优化,其将聚合操作卸载到网络中的交换机,进而缩短了聚合通信时间。在Gloo的基础上集成了SHARP技术,设计并实现了一个能够利用在网计算技术来加速分布式深度学习训练的聚合通信库——Gloo+。评估并比较了Gloo+、Gloo以及MPI中聚合操作的性能,并将Gloo+应用于分布式深度学习训练中,以此来检验其实战能力。对Gloo+的实验评估结果显示,在基准测试时,在消息大小较小的情况下,Gloo+相对于Gloo的加速比最高能达到100以上;相比于以太网模式下的MPI,其加速比最高也能达到50以上;相比于IB网模式下的MPI,其加速比在10以内。在分布式深度学习训练的实际应用中,Gloo+相比于Gloo加速比最高能达到1.1,相比于以太网模式下的MPI加速比最高有1.3,相比于IB网模式下的MPI加速比最高有0.5。 展开更多
关键词 分布式深度学习 聚合通信 在网计算 gloo SHARP
下载PDF
一种面向分布式深度学习的轻量级聚合通信库 被引量:1
2
作者 王笑雨 董德尊 《计算机工程与科学》 CSCD 北大核心 2022年第7期1191-1198,共8页
聚合通信操作在分布式训练中应用广泛,特别是AllReduce操作被用于同步每个节点上模型的参数。为了获得更高的精度,数据集和神经网络模型的规模越来越大,节点间的通信开销在训练过程中占比很大且已成为训练加速的瓶颈。目前已有许多针对... 聚合通信操作在分布式训练中应用广泛,特别是AllReduce操作被用于同步每个节点上模型的参数。为了获得更高的精度,数据集和神经网络模型的规模越来越大,节点间的通信开销在训练过程中占比很大且已成为训练加速的瓶颈。目前已有许多针对这一场景下聚合操作的优化工作,但都聚焦于操作的合理使用而不是其本身,例如通信调度和梯度量化。事实上,聚合操作与分布式训练应用之间存在许多不相匹配的地方,比如后者不要求所有节点同时同步梯度,而前者却需要。这使得针对分布式训练中聚合通信的研究是有必要的。然而发现目前分布式训练中的通信框架结构复杂、代码量大,对开展相关工作来说是不合适的。为了解决这一问题,设计并实现了一个轻量级的聚合通信库,以方便分析和改进分布式训练中的聚合操作。它支持主流框架和网络,并且架构简洁。这便于研究人员实现自定义通信操作,并能应用到主流的实验环境中以产生较广的影响。在多种情况下分别通过纯聚合操作和分布式深度学习应用来评估所设计的聚合通信库。实验结果显示,该库可以实现与MPI相近的性能,可以作为分析和研究分布式训练中梯度同步的聚合通信库。 展开更多
关键词 分布式深度学习 神经网络 聚合通信 gloo UCX
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部