期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
面向云服务器系统的分布式网络架构与技术研究 被引量:1
1
作者 陈彦灵 吴安 +1 位作者 张斌 石江涛 《电信网技术》 2017年第8期8-11,共4页
服务器网络一体化引擎是构成云服务器网络的基础单元,UNE需要能提供多个Pcie接口连接计算单元、提供多个以太网口做互联或连接外部网络,UNE需要支持连接多个Host和Pcie设备(如GPU、SSD硬盘),UNE需要支持以太网交换功能做互联和虚拟网络... 服务器网络一体化引擎是构成云服务器网络的基础单元,UNE需要能提供多个Pcie接口连接计算单元、提供多个以太网口做互联或连接外部网络,UNE需要支持连接多个Host和Pcie设备(如GPU、SSD硬盘),UNE需要支持以太网交换功能做互联和虚拟网络的硬件卸载功能,UNE需要支持RoCE或iWarp实现低延时业务,同时UNE的转发时延需要较低,UNE还需要支持NVMe over Fabric和GPUDirect技术使最新技术的存储和高性能计算更好的云化。多个UNE可以按需要的拓扑(一次环、二次环或者Mesh)直接互联形成转发阵列,转发阵列的拓扑管理和路径管理可以智能构建也可以通过SDN Controller控制,转发阵列可以依需提供外联带宽。总体来说,局部的服务器网络使用UNE上的Ethernet Switch互联,再大的网络通过数据中心的以太网交换机做互联。 展开更多
关键词 分布式网络架构 multihost hardwareoffloading nvmeoverfabric gpudirect
下载PDF
激光等离子体相互作用模拟的并行和加速研究
2
作者 武海鹏 文敏华 +1 位作者 SEE Simon 林新华 《计算机科学与探索》 CSCD 北大核心 2018年第4期550-558,共9页
随着生成超短激光脉冲技术的不断发展,对这种激光脉冲和等离子体相互作用进行动力学描述也变得越来越重要。PIC(particle-in-cell)是一种在等离子体物理中,研究充能粒子在电磁场中运动轨迹的广泛采用的方法。尽管现在已经有一些在GPU上... 随着生成超短激光脉冲技术的不断发展,对这种激光脉冲和等离子体相互作用进行动力学描述也变得越来越重要。PIC(particle-in-cell)是一种在等离子体物理中,研究充能粒子在电磁场中运动轨迹的广泛采用的方法。尽管现在已经有一些在GPU上的PIC方法的实现,但是基于激光等离子体相互作用模拟的特点,仍然有很多重要问题可以尝试其他解决思路。提出了一种把初始的基于CPU的LPI模拟代码完整移植到GPU上的可行方法。提出了一系列加速初始的GPU版本的方法:动态冗余算法、混合精度算法、粒子排序算法。利用并且评估了GPUDirect RDMA(remote direct memory access)技术,其可以提高MPI的通信性能。实验结果证明,与初始的GPU版本相比,"Scatter"阶段加速比为6.1倍,当MPI传输数据大于3 KB时,通信过程提速了2.8倍。这些研究证明了针对模拟应用和GPU集群的特点进行特殊的优化能对性能带来显著的提升。 展开更多
关键词 激光等离子体相互作用 粒子网格模拟 统一计算设备架构(CUDA) CUDA优化 gpudirect RDMA
下载PDF
分布式AI训练实践
3
作者 宋庆春 朱朋志 郭亮 《中国电信业》 2021年第S01期92-100,共9页
本文基于主流AI模型分布式训练业务的实际情况,提出了AI训练集群系统的优化方法。应用GPUDirect RDMA、网络计算等技术设计了以业务数据为中心的AI集群架构,并提供了参考实践。
关键词 分布式AI训练 网络计算 系统级优化 无损网络 gpudirect RDMA
下载PDF
xCCL:A Survey of Industry-Led Collective Communication Libraries for Deep Learning
4
作者 Adam Weingram 李雨珂 +3 位作者 戚昊 Darren Ng 代柳瑶 鲁小亿 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第1期166-195,共30页
Machine learning techniques have become ubiquitous both in industry and academic applications.Increasing model sizes and training data volumes necessitate fast and efficient distributed training approaches.Collective ... Machine learning techniques have become ubiquitous both in industry and academic applications.Increasing model sizes and training data volumes necessitate fast and efficient distributed training approaches.Collective communications greatly simplify inter-and intra-node data transfer and are an essential part of the distributed training process as information such as gradients must be shared between processing nodes.In this paper,we survey the current state-of-the-art collective communication libraries(namely xCCL,including NCCL,oneCCL,RCCL,MSCCL,ACCL,and Gloo),with a focus on the industry-led ones for deep learning workloads.We investigate the design features of these xCCLs,discuss their use cases in the industry deep learning workloads,compare their performance with industry-made benchmarks(i.e.,NCCL Tests and PARAM),and discuss key take-aways and interesting observations.We believe our survey sheds light on potential research directions of future designs for xCCLs. 展开更多
关键词 COLLECTIVE deep learning distributed training gpudirect RDMA(remote direct memory access)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部