期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
分布式机器学习网络通信优化技术 被引量:2
1
作者 张汉钢 邓鑫源 +3 位作者 宋晔 薛旭伟 郭秉礼 黄善国 《邮电设计技术》 2024年第2期27-30,共4页
Ring all-reduce算法被广泛应用在分布式机器学习之中,其同步过程会受到慢节点的影响进而降低整个系统的效率。对Ring all-reduce中的Reduce_Scatter和Allgather 2个阶段进行分析,针对Reduce_Scatter数据汇总过程提出优化策略,其主要思... Ring all-reduce算法被广泛应用在分布式机器学习之中,其同步过程会受到慢节点的影响进而降低整个系统的效率。对Ring all-reduce中的Reduce_Scatter和Allgather 2个阶段进行分析,针对Reduce_Scatter数据汇总过程提出优化策略,其主要思想是将慢节点多出的计算时间与通信时间进行重叠。使用OMNet++对Ring all-reduce和优化策略进行对比仿真,仿真结果与理论分析相一致,该策略相比Ring all-reduce算法最高能缩短25.3%的训练时间。 展开更多
关键词 ring all-reduce算法 分布式机器学习 ring all-reduce优化策略
下载PDF
基于文件流行度的无结构P2P网络搜索机制
2
作者 吴功宜 刘乾 +2 位作者 王珺 杨阳 徐敬东 《计算机工程》 CAS CSCD 北大核心 2009年第12期84-86,共3页
针对无结构P2P文件共享系统对不同流行度的文件使用相同的搜索策略从而导致大量网络资源的浪费问题,在研究Gnutella协议的基础上,提出一种基于LogLog算法的文件流行度判定机制,将它与Expanding Ring算法结合,给出一种基于流行度的搜索... 针对无结构P2P文件共享系统对不同流行度的文件使用相同的搜索策略从而导致大量网络资源的浪费问题,在研究Gnutella协议的基础上,提出一种基于LogLog算法的文件流行度判定机制,将它与Expanding Ring算法结合,给出一种基于流行度的搜索机制。与Expanding Ring相比,该搜索机制在一定程度上减少网络开销和响应时间,特别是稀缺文件的响应时间。 展开更多
关键词 无结构P2P网络 洪泛 EXPANDING ring算法 LogLog算法
下载PDF
面向深度学习图像分类的GPU并行方法研究 被引量:1
3
作者 韩彦岭 沈思扬 +3 位作者 徐利军 王静 张云 周汝雁 《计算机工程》 CAS CSCD 北大核心 2023年第1期191-200,共10页
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加... 针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。 展开更多
关键词 GPU并行 ring All Reduce算法 数据并行 模型并行 深度学习 图像分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部