基于混合并行的分布式训练优化研究

Study on Distributed Training Optimization Based on Hybrid Parallel

下载PDF

导出

摘要大型神经网络训练是深度学习领域的一个热点话题,而分布式训练是基于多节点实现大型神经网络训练的最佳方法之一。分布式训练通常包含数据并行、层间并行和层内并行3种并行方法。然而现有的框架在层间并行时只能对模型进行手动切分,增加了模型设计的抽象复杂度,对此提出了节点约束关系搜索算法,实现了模型的自动切分。另外,在传统的数据并行和层间并行中,由于模型的复杂约束关系和通信操作的需要,计算和通信往往受到严格的序列化限制,为此引入了同步优化算法,实现了计算和通信的重叠,有效提高了整体训练的效率。实验对不同规模的GPT-2,AlexNet,VGG16和ResNet50模型进行训练,使用同步优化算法在6节点条件下可以将GPT2-XL,GPT2-LARGE和GPT2-MEDIUM模型的训练性能分别提升1.14倍、1.18倍和1.23倍,在1节点条件下将AlexNet,VGG16和ResNet50模型的训练性能分别提升1.31倍、1.14倍和1.03倍。实验结果表明,同步优化算法能够提升混合并行中的训练效率。 complexity of model design.To address this issue,we propose a node-constrained relationship search algorithm that automates the model partitioning process.Moreover,in traditional data parallelism and inter-layer parallelism,strict serialization limits the overlap of computation and communication due to complex model constraints and the need for communication operations.To overcome this challenge,we introduce a synchronous optimization algorithm,enabling the overlap of computation and communication and effectively enhancing the overall training efficiency.The experiments involve training GPT-2 of different sizes,AlexNet,VGG16,and ResNet50 models.Using the synchronous optimization algorithm under a 6-node configuration,the training performance of GPT2-XL,GPT2-LARGE,and GPT2-MEDIUM models is improved,achieving speed-ups of 1.14,1.18,and 1.23,respectively.Under 1-node configuration,performance enhancements are also observed for AlexNet,VGG16,and ResNet50 models,with speed-ups of 1.31,1.14,and 1.03,respectively.The experimental results indicate that the synchronous optimization algorithm effectively enhances the training efficiency in mixed parallelism.

作者徐金龙李鹏飞李嘉楠陈飙元高伟韩林 XU Jinlong;LI Pengfei;LI Jianan;CHEN Biaoyuan;GAO Wei;HAN Lin(National Supercomputing Center in Zhengzhou(Zhengzhou University),Zhengzhou 450000,China;School of Computer and Artificial Intelligence,Zhengzhou University,Zhengzhou 450000,China;Strategic Support Force Information Engineering University,Zhengzhou 450000,China)

机构地区国家超级计算郑州中心(郑州大学) 郑州大学计算机与人工智能学院战略支援部队信息工程大学

出处《计算机科学》 CSCD 北大核心 2024年第12期120-128,共9页 Computer Science

基金河南省重大科技专项(221100210600)。

关键词分布式训练混合并行自动切分通信优化梯度同步 Distributed learning Hybrid parallel Automatic segmentation Communication optimization Gradient synchronization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1彭梓倩,杨贝.企业ESG表现对融资约束的影响——基于内部控制的视角[J].商业会计,2024(22):63-68.
2贾雯斐,杨懋,闫中江,李波.一种面向WLAN的分布式分层并行仿真方法[J].西北工业大学学报,2024,42(5):895-902.
3魏嘉,张兴军,王龙翔,赵明强,董小社.面向深度神经网络大规模分布式数据并行训练的MC^(2)能耗模型[J].计算机研究与发展,2024,61(12):2985-3004.
4赵海燕,易庆奥,汤敬华,钱诗友,曹健.分布式模型训练中的通信优化方法:现状及展望[J].小型微型计算机系统,2024,45(12):2964-2978.
5洪俊武,李伟,岳皓,孟德虹,孙岩.超大规模结构网格CFD数值模拟初步研究[J].航空学报,2024,45(20):207-228.
6赵磊,俞一波,高丽敏,李瑞宇,王可鑫.叶轮机械大规模CFD并行计算方法应用验证[J].推进技术,2024,45(11):13-23.
7刘伯阳,张浩然,郭天润,王丽平,党儒鸽.无人机辅助多MEC服务器的任务完成率最大化方案[J].西安邮电大学学报,2024,29(5):19-29.
8苏泽林,张文芳,王小敏.支持策略更新和即时密文验证的外包属性基加密方案[J].计算机研究与发展,2024,61(12):3088-3097.
9李云丰,汤广福,贺之渊,杨杰,孔明,李强,许杰锋.柔性直流输电系统高频稳定性分析及抑制策略(三):有源阻尼分频协调抑制策略[J].中国电机工程学报,2024,44(23):9392-9408.
10沈英,林烨,陈海涛,吴靖,黄峰.空间约束下异源图像误匹配特征点剔除算法[J].光学学报,2024,44(20):208-219.

计算机科学

2024年第12期

浏览历史

内容加载中请稍等...

基于混合并行的分布式训练优化研究

相关作者

相关机构

相关主题

浏览历史