基于多GPU的并行BP算法及优化被引量：3

Parallel BP Algorithm and Optimization Based on Multiple GPU

下载PDF

导出

摘要在语音识别领域,基于深度神经网络(Deep Neural Network,DNN)的声学模型与传统的基于高斯混合模型的声学模型相比具有更出色的识别效果.DNN模型主要使用误差反向传播(Back Propagation,BP)算法进行训练.由于DNN参数规模非常庞大,使用BP算法对其训练是一个异常耗时的过程.目前主要通过高性能的GPU设备对DNN模型的训练训练进行加速.本文探究了BP训练算法在多GPU设备上并行化时所存在的收敛性和带宽问题,并结合NVIDIA Kepler架构的硬件特性提出一种并行优化策略.实验结果表明优化后的算法可以有效增加小mini-batch下的GPU利用率,同时减少数据传输的开销.在相同的mini-batch尺寸下,优化后的算法在4块NVIDIA Tesla K20m设备上与单个NVIDIA Tesla K20m设备相比可以取得高达3.89倍的加速比. In the field of speech recognition,deep neural network（ DNN） has achieved a remarkable result compared with conventional GHH-HM M.The training of DNN model using backward propagation（ BP） algorithm costs immense time due to the huge network model.It has been a state of art method to accelerate BP training on modern GPU device.This paper investigates the problems faced with parallel BP training on multiple GPU devices,and proposes a parallel optimizing strategy using the hardware features provided by NVIDIA Kepler architecture.Experimental results showthat the optimized algorithm can effectively increase the utilization of GPU on small mini-batch,while reducing the overhead of data transmission.At the same mini-batch size,the optimized algorithm can achieve a3.89 times speedup on 4 NVIDIA Tesla K20 m devices than the single one.

作者吕亚飞于振华张致江赵增顾乃杰

机构地区中国科学与技术大学计算机科学与技术学院中国科学技术大学中国科学院沈阳计算所网络与通信联合实验室科大讯飞股份有限公司

出处《小型微型计算机系统》 CSCD 北大核心 2016年第4期748-752,共5页 Journal of Chinese Computer Systems

基金安徽省自然科学基金项目(1408085MKL06)资助

关键词深度神经网络并行 GPU利用率传输开销 DNN parallel GPU utilization transfer cost

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1田绪红,江敏杰.GPU加速的神经网络BP算法[J].计算机应用研究,2009,26(5):1679-1681. 被引量：6

二级参考文献9

1吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
2张庆丹,戴正华,冯圣中,孙凝晖.基于GPU的串匹配算法研究[J].计算机应用,2006,26(7):1735-1737. 被引量：15
3李建明,万单领,迟忠先,胡祥培.一种基于GPU加速的细粒度并行粒子群算法[J].哈尔滨工业大学学报,2006,38(12):2162-2166. 被引量：8
4Pharr M.GPU精粹2[M].龚敏敏,译.北京:清华大学出版社,2007:201-219.
5MAGOULAS G D, VRAHATIS M N, ANDEROULAKIS G S. Effective back-propagation training with variable stepwise [ J ]. Neural Networks, 1997,10( 1 ) :69-82.
6YU Xiao-hu, CHEN Guo-an. Efficient back-propagation learning using optimal learning rate and momentum [ J ]. Neural Networks, 1997,10(3) :517-527.
7MARTIN F M. A scaled conjugate gradient algorithm for fast supervised learning[ J ]. Neural Networks, 1993,6(3 ) :525-533.
8JEFF B, LAN F. Sparse matrix solvers on the GPU : conjugate gradients and multigrid[J]. ACM Trans on Graphics, 2003, 22(3) : 917-924.
9HILLESLAND K, MOLNOV S, GRZEDSZCZUK R. Nonlinear optimization framework for image-based modeling on programmable gra-phics hardware[J]. ACM Trans on Graphics, 2003,22(3) :925-934.

共引文献5

1李存岑,杨明.基于BP神经网络的矩形压电振子振动模态区分[J].计算机应用研究,2010,27(5):1746-1748. 被引量：1
2刘丹,赵广辉,夏红霞,胡磊.GPU加速分子动力学模拟的热力学量提取[J].计算机应用研究,2010,27(5):1820-1822. 被引量：1
3夏春林,周德云,张堃.AES算法的CUDA高效实现方法[J].计算机应用研究,2013,30(6):1907-1909. 被引量：8
4孙香玉,冯百明,杨鹏斐.基于CUDA的BP算法并行化与实例验证[J].计算机工程与应用,2013,49(23):31-34.
5黄磊,王凡,吴素萍.BP算法的多核并行研究及其在枣无损检测的应用[J].计算机工程与设计,2016,37(9):2502-2506. 被引量：1

同被引文献20

1田志强,宋琦,潘金山,杨菊花.铁路突发事件应急救援设备调度优化研究[J].铁道科学与工程学报,2015,12(1):171-176. 被引量：15
2顾乃杰,赵增,吕亚飞,张致江.基于多GPU的深度神经网络训练算法[J].小型微型计算机系统,2015,36(5):1042-1046. 被引量：8
3李抵非,田地,胡雄伟.基于分布式内存计算的深度学习方法[J].吉林大学学报（工学版）,2015,45(3):921-925. 被引量：6
4杨宁.基于多GPU并行框架的DNN语音识别研究[J].微电子学与计算机,2015,32(7):6-10. 被引量：1
5陈波,温增平.考虑目标谱不确定性及谱形的实际地震动记录优化选取和调整方法[J].建筑结构学报,2015,36(11):99-108. 被引量：9
6杨东华,李宁宁,王宏志,李建中,高宏.基于任务合并的并行大数据清洗过程优化[J].计算机学报,2016,39(1):97-108. 被引量：47
7杨天青,杨波,席楠,张维佳.地震应急救援差异性查询平台设计与实现[J].震灾防御技术,2016,11(1):125-131. 被引量：7
8李世雄,朱华桂.基于受灾者关键期自救的应急救援物资结构研究——以地震灾害为例[J].震灾防御技术,2016,11(1):153-164. 被引量：4
9吴帮,申波,马克俭,王泽曦,赵庆阳,张晓辉,吴俊杨.U形钢板-混凝土组合空腹夹层板在多遇地震作用下的抗震性能分析[J].贵州大学学报（自然科学版）,2016,33(2):117-122. 被引量：9
10杨旭瑜,张铮,张为华.深度学习加速技术研究[J].计算机系统应用,2016,25(9):1-9. 被引量：4

引证文献3

1李相桥,李晨,田丽华,张玉龙.卷积神经网络并行训练的优化研究[J].计算机技术与发展,2018,28(8):12-16.
2刘航.考虑不确定性的地震灾害应急救援设备并行优化设计[J].地震工程学报,2018,40(5):1118-1123. 被引量：9
3朱光宇,谢在鹏,朱跃龙.一种基于差分进化改进的深度神经网络并行化方法[J].小型微型计算机系统,2020,41(11):2249-2255. 被引量：4

二级引证文献13

1陈湉,林勇.大数据分析背景下地震后紧急物流资源调度模型设计[J].地震工程学报,2018,40(6):1343-1349. 被引量：5
2李海霞,吴苏怡.基于主成分分析方法的海量地震数据属性降维优化[J].地震工程学报,2019,41(3):757-762. 被引量：5
3吴红亚,郇战,顾卫杰,王云良.物联网技术在地震受困人员应急搜救中的应用研究[J].地震工程学报,2019,41(3):788-792. 被引量：6
4李欢,谢青青,李梦媛,金文珺,曹迎东.应对突发自然灾害的紧急护理方法研究[J].灾害学,2020,35(1):172-174. 被引量：2
5王勐,郭正阳.基于人文关怀下的应急救援设备产品设计策略[J].区域治理,2020,0(2):233-235. 被引量：1
6李星开,吴明堂,房云峰,张克燮,杨建元.基于动态地形模型的重大地质灾害仿真研究[J].信息技术,2021,45(4):30-34.
7李海,李谊骏,陈诗果,杨谋.苹果树病虫害智能识别系统设计与实现[J].科学技术与工程,2021,21(25):10639-10645. 被引量：6
8刘鹏飞,张伟峰,何克晶.差分进化算法优化的图注意力网络集成研究[J].云南大学学报（自然科学版）,2022,44(1):41-48.
9杨彤,王卫玉,张培,侯凯,郑阳,陈启卷.基于CEEMDAN和混合灰狼算法优化SVM的水电机组故障诊断方法[J].水电能源科学,2022,40(3):195-198. 被引量：13
10李付星.面向突发事件的应急救援装备设计方法研究[J].包装工程,2022,43(14):66-81. 被引量：4

1刘红,任坤,陈文楷.神经网络的BP训练算法和遗传优化训练算法的对比研究[J].北京工业职业技术学院学报,2008,7(2):30-34. 被引量：5
2高曙.基于机群的并行BP算法的设计与实现[J].武汉理工大学学报（交通科学与工程版）,2002,26(5):589-591. 被引量：3
3海量显存盈通GTX760-4096GD5游戏高手显卡[J].电脑迷,2014(5):16-16.
4李隆.索泰GTX Titan隆重登场[J].电脑爱好者,2013(6):73-73.
5晶合实验室,魔之左手.魔术双风扇——微星N650 Power Edition显卡[J].大众软件,2012(21):10-11.
6全新7系列旗舰震撼来袭[J].电脑迷,2013(6):24-24.
7王阔.欢迎移动版Kepler“GTX”! NVIDIA GeForce GTX 660M现身[J].微型计算机,2012(19):127-127.
8张夷捷.修改BIOS、提升超频性能KePler显卡“软改”实战[J].微型计算机,2013(3):140-148.
9radinlove.NVIDIA Kepler GPU 性能预测与分析[J].微型计算机,2012(4):105-108.
10墨汁做寿.效率为先显卡的盛宴开始[J].大众软件,2012(8):65-66.

小型微型计算机系统

2016年第4期

浏览历史

内容加载中请稍等...

基于多GPU的并行BP算法及优化被引量：3

参考文献1

二级参考文献9

共引文献5

同被引文献20

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多GPU的并行BP算法及优化 被引量：3

参考文献1

二级参考文献9

共引文献5

同被引文献20

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多GPU的并行BP算法及优化被引量：3