降低分布式训练通信的梯度稀疏压缩方法被引量：2

Gradient sparsification compression approach to reducing communication in distributed training

下载PDF

导出

摘要针对现有的梯度稀疏压缩技术在实际应用中面临时间开销大的问题,基于分布式训练中残差梯度压缩算法提出低复杂度、能快速选取top-k稀疏梯度通信集的方法.采用Wasserstein距离确定梯度分布特征符合Laplacian分布;利用Laplacian分布曲线面积关系确定关键点,并通过最大似然估计简化特征参数;估计稀疏梯度top-k阈值,并结合二分搜索对阈值修正.该方法避免了现有随机抽样方法的不稳定性和数据排序之类的复杂操作.为了评估所提方法的有效性,在图形处理器(GPU)平台采用CIFAR-10和CIFAR-100数据集对图像分类深度神经网络进行训练.结果显示,与radixSelect和层级选择方法相比,在达到相同训练精度的情况下,本研究方法最高分别实现了1.62、1.30倍的加速. The existing gradient sparsification compression technology still has the problem of large time consumption in practical applications.To solve this problem,a low-complex and high-speed approach based on the residual gradient compression algorithm in distributed training was proposed,to select the communication-set of the top-k sparse gradient.Firstly,the Wasserstein distance was used to determine that the characteristics of the gradient distribution conformed to the Laplacian distribution.Secondly,the key points were determined by the area relationship of the Laplacian distribution curve,and the feature parameters were simplified by maximum likelihood estimation.Finally,the sparse gradient top-k threshold was estimated and corrected by the binary search algorithm.The proposed approach avoided the instability of random sampling methods and some complex operations like data sorting.The CIFAR-10 and CIFAR-100 datasets were used to train the deep neural network for image classification on GPU platform in order to evaluate the effectiveness of the proposed approach.Results show that this approach accelerated the training process up to 1.62 and 1.3 times,compared with the radixSelect and the hierarchical selection methods under the same training accuracy.

作者陈世达刘强韩亮 CHEN Shi-da;LIU Qiang;HAN Liang(School of Microelectronics,Tianjin University,Tianjin 300072,China;Tianjin Key Laboratory of Imaging and Sensing Microelectronic Technology,Tianjin 300072,China;Alibaba Group,Sunnyvale 94085,USA)

机构地区天津大学微电子学院天津市成像与感知微电子技术重点实验室阿里巴巴集团

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2021年第2期386-394,共9页 Journal of Zhejiang University：Engineering Science

基金国家自然科学基金资助项目(61974102) 阿里巴巴创新研究项目。

关键词深度神经网络分布式训练残差梯度压缩 top-k阈值分布估计二分搜索 deep neural network distributed training residual gradient compression top-k threshold distribution estimation binary search

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献18

1代翱,张海剑,孙洪.联合时域和时频域特征的数字调制信号自动分类[J].信号处理,2016,32(11):1283-1292. 被引量：5
2张玉清,周威,彭安妮.物联网安全综述[J].计算机研究与发展,2017,54(10):2130-2143. 被引量：117
3朱虎明,李佩,焦李成,杨淑媛,侯彪.深度神经网络并行化研究综述[J].计算机学报,2018,41(8):1861-1881. 被引量：56
4彭安妮,周威,贾岩,张玉清.物联网操作系统安全研究综述[J].通信学报,2018,39(3):22-34. 被引量：36
5桂冠,王禹,黄浩.基于深度学习的物理层无线通信技术:机遇与挑战[J].通信学报,2019,40(2):19-23. 被引量：36
6吴艳霞,梁楷,刘颖,崔慧敏.深度学习FPGA加速器的进展与趋势[J].计算机学报,2019,42(11):2461-2480. 被引量：58
7赵羽,杨洁,刘淼,孙金龙,桂冠.面向视频监控基于联邦学习的智能边缘计算技术[J].通信学报,2020,41(10):109-115. 被引量：23
8朱泓睿,元国军,姚成吉,谭光明,王展,户忠哲,张晓扬,安学军.分布式深度学习训练网络综述[J].计算机研究与发展,2021,58(1):98-115. 被引量：15
9张立志,冉浙江,赖志权,刘锋.分布式深度学习通信架构的性能分析[J].计算机工程与科学,2021,43(3):416-425. 被引量：3
10梁浩然,伍军,赵程程,李建华.基于博弈优化边缘学习的物联网入侵检测研究[J].物联网学报,2021,5(2):37-47. 被引量：3

引证文献2

1杨洁,董标,付雪,王禹,桂冠.基于轻量化分布式学习的自动调制分类方法[J].通信学报,2022,43(7):134-142. 被引量：1
2巨涛,康贺廷,刘帅,火久元.深度神经网络动态分层梯度稀疏化及梯度合并优化方法[J].西安交通大学学报,2024,58(9):105-116.

二级引证文献1

1魏国峰,丁国如,焦雨涛,徐以涛,郭道省,汤鹏.面向无线电数字孪生的多感知节点卷积融合身份识别算法[J].通信学报,2023,44(11):13-24.

1芦效峰,廖钰盈,Pietro Lio,Pan Hui.一种面向边缘计算的高效异步联邦学习机制[J].计算机研究与发展,2020,57(12):2571-2582. 被引量：19
2成科扬,孙爽,詹永照.基于背景复杂度自适应距离阈值的修正SuBSENSE算法[J].山东大学学报（工学版）,2020,50(3):38-44. 被引量：1
3任楚岚,孙佳楠,张阳.基于AlexNet的注意力机制网络研究[J].网络安全技术与应用,2021(1):16-18. 被引量：2
4丁滢,董海萍,滕录葆.针对平坦地形的WT大气稳定度快速选取方法探究[J].风能,2021(1):72-87. 被引量：1
5林媛.数据挖掘技术的心理障碍预测模型研究[J].现代电子技术,2021,44(5):109-113. 被引量：2
6闫茂德,张建国,左磊.未知时变区域内的移动传感器网络控制[J].控制工程,2021,28(2):299-305. 被引量：1
7马东群,李宝林,王秋月,何先波.一种基于桥梁横向裂缝的病害识别方法[J].计算机与现代化,2021(1):43-49. 被引量：3
8张毅,方国伟,杨秀霞.基于图Laplacian的多机编队目标跟踪方法[J].系统工程与电子技术,2021,43(3):796-805. 被引量：1
9张卫,古林燕,刘嘉.基于区域分解的快速卷积神经网络学习策略研究[J].集成技术,2020,9(6):48-58. 被引量：2
10郑德重,杨媛媛,谢哲,倪扬帆,李文涛.基于Gaussian混合的距离度量学习数据划分方法[J].上海交通大学学报,2021,55(2):131-140. 被引量：1

浙江大学学报（工学版）

2021年第2期

浏览历史

内容加载中请稍等...

降低分布式训练通信的梯度稀疏压缩方法被引量：2

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

降低分布式训练通信的梯度稀疏压缩方法 被引量：2

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

降低分布式训练通信的梯度稀疏压缩方法被引量：2