面向联邦学习的高效分布式训练框架被引量：1

Efficient Distributed Training Framework for Federated Learning

下载PDF

导出

摘要联邦学习有效解决了数据孤岛问题,但仍然存在一些挑战。首先,联邦学习的训练节点具有较大的硬件异构性,对训练速度和模型性能存在影响,现有工作主要集中于联邦优化,但多数方法没有解决同步通信模式下各节点计算时间难以协调导致资源浪费的问题;此外,联邦学习中多数训练节点为移动设备,网络环境差,通信开销高,导致了更严重的网络瓶颈。已有方法通过对训练节点上传的梯度进行压缩来降低通信开销,但不可避免地带来了模型性能损失,难以达到较好的质量和效率的平衡。针对上述难题,在计算阶段,提出了自适应梯度聚合(Adaptive Federated Averaging,AFA),根据各个节点的硬件性能自适应协调本地训练的迭代周期,使得等待全局梯度下载的空闲时间整体最小化,提高了联邦学习的计算效率。在通信阶段,提出双重稀疏化(Double Sparsification,DS),通过在训练节点端和参数服务器端进行梯度稀疏化来最大化降低通信开销。此外,各个训练节点根据本地梯度信息和全局梯度信息的丢失值进行误差补偿,以较小的模型性能损失换取较大的通信开销降低。在图像分类数据集和时序预测数据集上进行实验,结果证明,所提方案有效提高了联邦学习训练的加速比,对模型性能也有一定提升。 Federated learning effectively solves the problem of isolated data island,but there are some challenges.Firstly,the training nodes of federated learning have a large hardware heterogeneity,which has an impact on the training speed and model performance.The existing researches mainly focus on federated optimization,but most methods do not solve the problem of resource waste caused by the different computing time of each node in synchronous communication mode.In addition,most of the training nodes in federated learning are mobile devices,so the poor network environment leads to high communication overhead and serious network bottlenecks.Existing methods reduce the communication overhead by compressing the gradient uploaded by the training nodes,but inevitably bring the loss of model performance and it is difficult to achieve a good balance between quality and speed.To solve these problems,at the computing stage,this paper proposes adap-tive federated averaging(AFA),which adaptatively coordinates the local iteration according to the hardware performance of each node,minimizes the idle time of waiting for global gradient download and improves the computational efficiency of federated learning.In the communication stage,it proposes double sparsification(DS)to minimize the communication overhead by gradient sparsification on the training node and parameter server.In addition,each training node compensates the error according to the lost value of the local gradient and the global gra-dient,and reduces the communication cost greatly in exchange for lower model performance loss.Experimental results on the image classification dataset and the spatio-temporal prediction dataset prove that the proposed method can effectively improve the training acceleration ratio,and is also helpful to the model performance.

作者冯晨顾晶晶 FENG Chen;GU Jingjing(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2023年第11期317-326,共10页 Computer Science

基金国家自然科学基金(62072235)。

关键词联邦学习分布式机器学习并行计算参数同步稀疏表示 Federated learning Distributed machine learning Parallel computing Parameter synchronization Sparse representation

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘艳,王田,彭绍亮,王国军,贾维嘉.基于边缘的联邦学习模型清洗和设备聚类方法[J].计算机学报,2021,44(12):2515-2528. 被引量：14
2张鹏程,魏芯淼,金惠颖.移动边缘计算下基于联邦学习的动态QoS优化[J].计算机学报,2021,44(12):2431-2446. 被引量：7

二级参考文献8

1肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
2施巍松,孙辉,曹杰,张权,刘伟.边缘计算:万物互联时代新型计算模型[J].计算机研究与发展,2017,54(5):907-924. 被引量：498
3张开元,桂小林,任德旺,李敬,吴杰,任东胜.移动边缘网络中计算迁移与内容缓存研究综述[J].软件学报,2019,30(8):2491-2516. 被引量：56
4梁玉珠,梅雅欣,杨毅,马樱,贾维嘉,王田.一种基于边缘计算的传感云低耦合方法[J].计算机研究与发展,2020,57(3):639-648. 被引量：8
5任杰,高岭,于佳龙,袁璐.面向边缘设备的高能效深度学习任务调度策略[J].计算机学报,2020,43(3):440-452. 被引量：16
6张鹏程,金惠颖.一种移动边缘环境下面向隐私保护QoS预测方法[J].计算机学报,2020,43(8):1555-1571. 被引量：7
7Shiming He,Zhuozhou Li,Yangning Tang,Zhuofan Liao,Feng Li,Se-Jung Lim.Parameters Compressing in Deep Learning[J].Computers, Materials & Continua,2020(1):321-336. 被引量：9
8Jin Wang,Yu Gao,Chang Zhou,R.Simon Sherratt,Lei Wang.Optimal Coverage Multi-Path Scheduling Scheme with Multiple Mobile Sinks for WSNs[J].Computers, Materials & Continua,2020(2):695-711. 被引量：10

共引文献17

1郭桂娟,田晖,王田,贾维嘉.一种基于背景优化的高效联邦学习方案[J].计算机科学,2022,49(12):40-45.
2张宇,江海峰,杨浩文,肖硕.移动群智感知中基于联邦学习的参与者选择机制[J].计算机应用研究,2023,40(4):1172-1177.
3王永康,翟弟华,夏元清.联邦学习中抵抗大量后门客户端的鲁棒聚合算法[J].计算机学报,2023,46(6):1302-1314. 被引量：1
4张利峰,杨贵华.基于交互局部性的网络通信数据存储加密方法[J].数字通信世界,2023(6):82-84. 被引量：1
5王书海,孙林夫,邹益胜.面向多服务价值链的业务资源推荐算法[J].计算机集成制造系统,2023,29(7):2397-2410.
6于佳,宁宝玲,谭思行,苏新渺,李文博,刘成瑞,刘文静.面向异构场景的智能运维联邦学习算法[J].空间控制技术与应用,2023,49(4):106-118.
7郭迎亚,王丽娟,耿海军.基于谱聚类的边缘服务器放置算法[J].计算机科学,2023,50(10):248-257.
8郭桂娟,田晖,皮慧娟,贾维嘉,彭绍亮,王田.面向非独立同分布数据的联邦学习研究进展[J].小型微型计算机系统,2023,44(11):2442-2449. 被引量：3
9蒋伟进,韩裕清,吴玉庭,周为,陈艺琳,王海娟.基于边缘计算的环境监测自适应联邦学习算法[J].电子学报,2023,51(11):3061-3069. 被引量：1
10梁志宇,王宏志.智能物联网时序数据分析关键技术研究综述[J].智能计算机与应用,2023,13(12):1-8. 被引量：2

引证文献1

1于凯,韩涛,刘强,吉俊峰.“搜推一体”的智能推荐系统在青岛广电新媒体平台的应用[J].现代电视技术,2024(3):48-52.

1刘光远,曹晶仪,庞紫园,黄书翠.一种低时延虚拟网络功能映射及调度优化算法[J].西安交通大学学报,2023,57(2):121-130. 被引量：3
2葛青,陈欣.一种多模式自适应可变车道控制[J].产业科技创新,2023,5(5):60-62.
3陆晓.一种提高联邦学习准确度的算法[J].信息技术与信息化,2023(8):180-183.
4毛飞龙,焦义文,马宏,张宇翔,聂欣林,高泽夫.基于GPU的并行相位解卷绕算法[J].中国空间科学技术,2023,43(5):119-131.
5宋中山,彭丹,郑禄,帖军,龙吕佳.基于改进密集连接网络的遥感图像场景分类[J].激光杂志,2023,44(10):71-78.
6杜瑞忠,蒋浩宇,李明月.云边端环境下可验证的轻量化可搜索加密[J].石河子大学学报（自然科学版）,2023,41(4):507-518.
7康守强,杨加伟,王玉静,王庆岩,谢金宝.基于联邦多表示域适应的不同工况下滚动轴承故障诊断方法[J].仪器仪表学报,2023,44(6):165-176. 被引量：1
8伉沛喆,张承志,吴浩,姚佳蓉,曹喻旻,唐克双.基于电警数据的干线自适应协调控制优化方法[J].中国公路学报,2023,36(10):251-268.
9莫尚丰,周振芬,胡勇华,徐敏敏,毛春献,袁钰迪.基于FT-M7002的复数域行向量矩阵乘法移植与优化[J].计算机科学,2023,50(S02):827-832. 被引量：1
10丁越,徐传福,邱昊中,戴未希,汪青松,林拥真,王正华.基于SYCL的多相流LBM模拟跨平台异构并行计算研究[J].计算机科学,2023,50(11):32-40. 被引量：1

计算机科学

2023年第11期

浏览历史

内容加载中请稍等...

面向联邦学习的高效分布式训练框架被引量：1

参考文献2

二级参考文献8

共引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向联邦学习的高效分布式训练框架 被引量：1

参考文献2

二级参考文献8

共引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向联邦学习的高效分布式训练框架被引量：1