-
题名可重构OCS技术在大模型预训练中的应用(特邀)
- 1
-
-
作者
朱宸
周谞
王佩龙
-
机构
百度在线网络技术有限公司系统部
-
出处
《光通信研究》
北大核心
2024年第5期25-34,共10页
-
文摘
【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的应用方式,以在训练任务中充分利用OCS的优势。【方法】文章提出在故障快速恢复中采用多个小端口OCS进行网络设备冗余保护的机制,可在机顶(ToR)交换机故障时快速切换不中断训练任务。此外,文章还提出OCS只为数据并行(DP)服务,且仅在任务开始前进行配置。【结果】文章提出了多种可行的光电组网架构,以及在不同AllReduce算法下的具体配置,采用包括集合通信算法和架构设计联合优化的方式达到更优的带宽利用率。【结论】只要充分结合训练任务的流量模型,OCS可以很好地融入现有EPS网络架构,从成本、低功耗、低时延以及高稳定性等各方面对大模型预训练进行优化。
-
关键词
全光电路交换
可重构
光电混合网络架构
大模型预训练
集合通信
并行训练
-
Keywords
OCS
reconfigurable
opto-electro hybrid network architect
large language models pre-training
collective communication
parallel training
-
分类号
TN929
[电子电信—通信与信息系统]
-