期刊文献+

基于多GPU的并行BP算法及优化 被引量:3

Parallel BP Algorithm and Optimization Based on Multiple GPU
下载PDF
导出
摘要 在语音识别领域,基于深度神经网络(Deep Neural Network,DNN)的声学模型与传统的基于高斯混合模型的声学模型相比具有更出色的识别效果.DNN模型主要使用误差反向传播(Back Propagation,BP)算法进行训练.由于DNN参数规模非常庞大,使用BP算法对其训练是一个异常耗时的过程.目前主要通过高性能的GPU设备对DNN模型的训练训练进行加速.本文探究了BP训练算法在多GPU设备上并行化时所存在的收敛性和带宽问题,并结合NVIDIA Kepler架构的硬件特性提出一种并行优化策略.实验结果表明优化后的算法可以有效增加小mini-batch下的GPU利用率,同时减少数据传输的开销.在相同的mini-batch尺寸下,优化后的算法在4块NVIDIA Tesla K20m设备上与单个NVIDIA Tesla K20m设备相比可以取得高达3.89倍的加速比. In the field of speech recognition,deep neural network( DNN) has achieved a remarkable result compared with conventional GHH-HM M.The training of DNN model using backward propagation( BP) algorithm costs immense time due to the huge network model.It has been a state of art method to accelerate BP training on modern GPU device.This paper investigates the problems faced with parallel BP training on multiple GPU devices,and proposes a parallel optimizing strategy using the hardware features provided by NVIDIA Kepler architecture.Experimental results showthat the optimized algorithm can effectively increase the utilization of GPU on small mini-batch,while reducing the overhead of data transmission.At the same mini-batch size,the optimized algorithm can achieve a3.89 times speedup on 4 NVIDIA Tesla K20 m devices than the single one.
出处 《小型微型计算机系统》 CSCD 北大核心 2016年第4期748-752,共5页 Journal of Chinese Computer Systems
基金 安徽省自然科学基金项目(1408085MKL06)资助
关键词 深度神经网络 并行 GPU利用率 传输开销 DNN parallel GPU utilization transfer cost
  • 相关文献

参考文献1

二级参考文献9

  • 1吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量:141
  • 2张庆丹,戴正华,冯圣中,孙凝晖.基于GPU的串匹配算法研究[J].计算机应用,2006,26(7):1735-1737. 被引量:15
  • 3李建明,万单领,迟忠先,胡祥培.一种基于GPU加速的细粒度并行粒子群算法[J].哈尔滨工业大学学报,2006,38(12):2162-2166. 被引量:8
  • 4Pharr M.GPU精粹2[M].龚敏敏,译.北京:清华大学出版社,2007:201-219.
  • 5MAGOULAS G D, VRAHATIS M N, ANDEROULAKIS G S. Effective back-propagation training with variable stepwise [ J ]. Neural Networks, 1997,10( 1 ) :69-82.
  • 6YU Xiao-hu, CHEN Guo-an. Efficient back-propagation learning using optimal learning rate and momentum [ J ]. Neural Networks, 1997,10(3) :517-527.
  • 7MARTIN F M. A scaled conjugate gradient algorithm for fast supervised learning[ J ]. Neural Networks, 1993,6(3 ) :525-533.
  • 8JEFF B, LAN F. Sparse matrix solvers on the GPU : conjugate gradients and multigrid[J]. ACM Trans on Graphics, 2003, 22(3) : 917-924.
  • 9HILLESLAND K, MOLNOV S, GRZEDSZCZUK R. Nonlinear optimization framework for image-based modeling on programmable gra-phics hardware[J]. ACM Trans on Graphics, 2003,22(3) :925-934.

共引文献5

同被引文献20

引证文献3

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部