-
题名分布式AI训练实践
- 1
-
-
作者
宋庆春
朱朋志
郭亮
-
机构
NVIDIA技术服务(北京)有限公司网络事业部
中国信息通信研究院云计算与大数据研究所
NVIDIA技术服务(北京)有限公司网络事业部HPC-AI实验室
-
出处
《中国电信业》
2021年第S01期92-100,共9页
-
文摘
本文基于主流AI模型分布式训练业务的实际情况,提出了AI训练集群系统的优化方法。应用GPUDirect RDMA、网络计算等技术设计了以业务数据为中心的AI集群架构,并提供了参考实践。
-
关键词
分布式AI训练
网络计算
系统级优化
无损网络
gpudirect
rdma
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名激光等离子体相互作用模拟的并行和加速研究
- 2
-
-
作者
武海鹏
文敏华
SEE Simon
林新华
-
机构
上海交通大学高性能计算中心
NVIDIA Technology Center
东京工业大学学术国际情报中心
-
出处
《计算机科学与探索》
CSCD
北大核心
2018年第4期550-558,共9页
-
基金
国家重点研发计划(Nos.2016YFB0201400,2016YFB0201800);日本学术振兴会RONPAKU项目
NVIDIA GPU全球卓越中心项目
-
文摘
随着生成超短激光脉冲技术的不断发展,对这种激光脉冲和等离子体相互作用进行动力学描述也变得越来越重要。PIC(particle-in-cell)是一种在等离子体物理中,研究充能粒子在电磁场中运动轨迹的广泛采用的方法。尽管现在已经有一些在GPU上的PIC方法的实现,但是基于激光等离子体相互作用模拟的特点,仍然有很多重要问题可以尝试其他解决思路。提出了一种把初始的基于CPU的LPI模拟代码完整移植到GPU上的可行方法。提出了一系列加速初始的GPU版本的方法:动态冗余算法、混合精度算法、粒子排序算法。利用并且评估了GPUDirect RDMA(remote direct memory access)技术,其可以提高MPI的通信性能。实验结果证明,与初始的GPU版本相比,"Scatter"阶段加速比为6.1倍,当MPI传输数据大于3 KB时,通信过程提速了2.8倍。这些研究证明了针对模拟应用和GPU集群的特点进行特殊的优化能对性能带来显著的提升。
-
关键词
激光等离子体相互作用
粒子网格模拟
统一计算设备架构(CUDA)
CUDA优化
gpudirect
rdma
-
Keywords
laser-plasma-interaction simulation
particle-in-cell(PIC)
compute unified device architecture(CUDA)
CUDA optimization
gpudirect rdma
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-