期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
大规模语言模型的跨云联合训练关键技术 被引量:1
1
作者 潘囿丞 侯永帅 +2 位作者 杨卿 余跃 相洋 《中兴通讯技术》 2023年第4期49-56,共8页
模型参数规模的不断增加使模型训练所需的算力资源变得更加庞大,导致很多情况下单个算力集群难以满足大规模语言模型的训练需求。大规模语言模型的跨云联合训练成为解决这一问题的有效方式。以自然语言处理大模型的跨云预训练和微调为例... 模型参数规模的不断增加使模型训练所需的算力资源变得更加庞大,导致很多情况下单个算力集群难以满足大规模语言模型的训练需求。大规模语言模型的跨云联合训练成为解决这一问题的有效方式。以自然语言处理大模型的跨云预训练和微调为例,介绍了大规模语言模型跨云训练的主要挑战和关键技术,并探讨了这些技术在跨云训练过程中的具体应用、实际效果和未来场景。这些技术将为智能化应用和人机交互等提供有力支持。 展开更多
关键词 大规模语言模型 算力资源 跨云训练 自然语言处理
下载PDF
Cloudless-Training:基于serverless的高效跨地域分布式ML训练框架
2
作者 谭文婷 吕存驰 +1 位作者 史骁 赵晓芳 《高技术通讯》 CAS 北大核心 2024年第3期219-232,共14页
跨地域分布式机器学习(ML)训练能够联合多区域的云资源协作训练,可满足许多新兴ML场景(比如大型模型训练、联邦学习)的训练需求。但其训练效率仍受2方面挑战的制约。首先,多区域云资源缺乏有效的弹性调度,这会影响训练的资源利用率和性... 跨地域分布式机器学习(ML)训练能够联合多区域的云资源协作训练,可满足许多新兴ML场景(比如大型模型训练、联邦学习)的训练需求。但其训练效率仍受2方面挑战的制约。首先,多区域云资源缺乏有效的弹性调度,这会影响训练的资源利用率和性能;其次,模型跨地域同步需要在广域网(WAN)上高频通信,受WAN的低带宽和高波动的影响,会产生巨大通信开销。本文提出Cloudless-Training,从3个方面实现高效的跨地域分布式ML训练。首先,它基于serverless计算模式实现,使用控制层和训练执行层的2层架构,支持多云区域的弹性调度和通信。其次,它提供一种弹性调度策略,根据可用云资源的异构性和训练数据集的分布自适应地部署训练工作流。最后,它提供了2种高效的跨云同步策略,包括基于梯度累积的异步随机梯度下降(ASGD-GA)和跨云参数服务器(PS)间的模型平均(MA)。Cloudless-Training是基于OpenFaaS实现的,并被部署在腾讯云上评估,实验结果表明Cloudless-Training可显著地提高跨地域分布式ML训练的资源利用率(训练成本降低了9.2%~24.0%)和同步效率(训练速度最多比基线快1.7倍),并能保证模型的收敛精度。 展开更多
关键词 地域分布式机器学习(ML)训练 ML训练 分布式训练框架 serverless 模型同步
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部