期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
分布式AI训练实践
1
作者 宋庆春 朱朋志 郭亮 《中国电信业》 2021年第S01期92-100,共9页
本文基于主流AI模型分布式训练业务的实际情况,提出了AI训练集群系统的优化方法。应用GPUDirect RDMA、网络计算等技术设计了以业务数据为中心的AI集群架构,并提供了参考实践。
关键词 分布式ai训练 网络计算 系统级优化 无损网络 GPUDirect RDMA
下载PDF
面向自动化领域AI模型训练的光交换计算集群系统设计
2
作者 黎泽 彭慧斌 《机电工程技术》 2024年第6期105-108,共4页
针对自动化领域AI模型训练对计算能力要求越来越高的问题,设计了一种光交换计算集群系统,其包含完整的控制与通信流程,可以实现比电交换计算集群更大的带宽、更小的时延。在系统级层面,从AI服务器内部硬件软件开销、网络开销、算法开销... 针对自动化领域AI模型训练对计算能力要求越来越高的问题,设计了一种光交换计算集群系统,其包含完整的控制与通信流程,可以实现比电交换计算集群更大的带宽、更小的时延。在系统级层面,从AI服务器内部硬件软件开销、网络开销、算法开销到通信开销等进行了详细的性能建模,对AI模型训练光交换计算集群系统性能计算进行量化,并开发了一个AI模型训练光交换计算集群系统性能仿真软件。开发的仿真软件在不同的参数设置下的计算结果与理论计算的结果一致,软件仿真平均运行时间为0.432 s。软件通过UI交互界面输入参数,再代入建模公式中计算,并将计算结果显示在界面上。该软件积木式的系统搭建,菜单栏式的参数设置降低了使用者的入门和操作难度,易于对光交换计算集群系统进行性能仿真,可指导整个光交换计算集群系统的设计与优化。 展开更多
关键词 人工智能 光交换 ai分布式训练 系统开发
下载PDF
面向智算中心的新型以太网需求与关键技术
3
作者 段晓东 李婕妤 +3 位作者 程伟强 李晗 王瑞雪 王豪杰 《电信科学》 北大核心 2024年第6期146-159,共14页
AI大模型正引领下一个十年的信息与通信技术(information and communications technology,ICT)产业发展热点。智算中心网络是支撑AI大模型分布式训练的通信底座,是决定AI集群效能的关键要素之一。AI大模型的数据量和参数量不断扩张,给... AI大模型正引领下一个十年的信息与通信技术(information and communications technology,ICT)产业发展热点。智算中心网络是支撑AI大模型分布式训练的通信底座,是决定AI集群效能的关键要素之一。AI大模型的数据量和参数量不断扩张,给智算中心网络带来了严峻的挑战,同时给关键网络技术进行代际性创新带来了机遇。在AI大模型训练和推理过程中,提供数据的高性能和高安全传输是AI业务对智算中心网络的两大核心需求。高效的负载均衡、拥塞控制技术和网络安全协议是其中的关键网络技术。为应对大规模AI业务带来的严峻挑战,提出全调度以太网(global scheduled Ethernet,GSE)作为对应的解决方案,并搭建真实的测试环境对GSE和RoCE(remote direct memory access over converged Ethernet)网络进行性能对比测试。测试结果证明,GSE相较RoCE网络显著改善了任务完成时间(job completion time,JCT)。 展开更多
关键词 ai大模型分布式训练 全调度以太网 负载均衡 拥塞控制 网络安全协议
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部