-
题名基于以太无损网络的智算中心光网络架构研究(特邀)
- 1
-
-
作者
翟锐
李壮志
侯广营
马艺嘉
徐化朗
-
机构
中国联合网络通信有限公司山东省分公司
-
出处
《光通信研究》
北大核心
2024年第5期35-40,共6页
-
基金
国家重点研发计划资助项目(2021YBF2800805)
国家自然科学基金青年资助项目(62301062)
浙江省重点研发计划资助项目(2023C01148)。
-
文摘
【目的】近年来,生成式人工智能(AIGC)掀起了人工智能革命,智算中心(ICC)的网络联接也随之向超高带宽、智能无损和算网融合等方向发展,因此ICC光网络需要降低卡间通信时间,以提升数据访问效率。【方法】文章针对ICC场景光网络的组网架构进行了研究,实现了大带宽、低时延和中央处理器(CPU)效率高的无损网络,满足了ICC的大模型训练和推理需求。文章详细分析了ICC的流量分布特征和人工智能(AI)大模型训练组网场景下的通信流特征,深入研究了基于远程直接内存访问(RDMA)的以太无损传输方案的ICC组网架构,并最终在ICC场景下进行了组网实践和时延测试。【结果】文章提出的基于以太网的RDMA(RoCE)传输方案具备基于优先级的流控制、显示拥塞通知、增强传输选择和数据中心桥能力交换协议(DCBX)等能力,可实现数据中心内基于以太协议的无损传输。测试结果显示,使用RoCE协议的传输时延大约稳定在1μs,并且显著优于互联网广域RDMA协议(iWARP)。【结论】文章基于智算场景下的流量特征分析,深入研究了ICC的无损以太网络关键特性,利用RDMA技术实现了ICC场景下光交换网络传输效率的提升,并提出了一种在ICC大模型推理场景下的无损以太网络方案,为RDMA技术在智算场景下的应用探索出了可行的方向。
-
关键词
长距直接内存访问
以太无损网络
智算中心
光交换
-
Keywords
RDMA
Ethernet lossless network
ICC
optical switching
-
分类号
TN929
[电子电信—通信与信息系统]
-