卷积神经网络训练访存优化被引量：3

Optimization of memory access for the convolutional neural network training

下载PDF

导出

摘要虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通过分析训练时批归一化层的数据依赖、访存特征及模型训练时的访存特征,分析访存瓶颈的关键因素;其次,使用“计算换访存”思想,提出融合“卷积层+批归一化层+激活层”结构的方法,并基于批归一化层的计算访存特征,将其重构为两个子层,分别与相邻层融合,进一步减少训练时对主存的读写,并构建了训练时的访存量模型与计算量模型。实验结果表明,使用NVIDIA TESLA V100 GPU训练ResNet-50、Inception V3及DenseNet模型时,同原始训练方法相比,其访存数据量分别降低了33%,22%及31%,V100的实际计算效率分别提升了20.5%,18.5%以及18.1%。这种优化方法利用了网络结构与模型训练时的访存特点,可与其他访存优化方法协同使用,进一步降低模型训练时的访存量。 Batch Normalization(BN)can effectively speed up deep neural network training,while its complex data dependence leads to the serious"memory wall"bottleneck.Aiming at the"memory wall"bottleneck for the training of the convolutional neural network(CNN)with BN layers,an effective memory access optimization method is proposed through BN reconstruction and fused-layers computation.First,through detailed analysis of BN’s data dependence and memory access features during training,some key factors for large amounts of memory access are identified.Second,the“Convolution+BN+ReLU(Rectified Linear Unit)”block is fused as a computational block to reduce memory access with re-computing strategy in training.Besides,the BN layer is split into two sub-layers which are respectively fused with its adjacent layers,and this approach further reduces memory access during training and effectively improves the accelerator’s computational efficiency.Experimental results show that the amount of memory access is decreased by 33%,22% and 31% respectively,and the actual computing efficiency of the V100 is improved by 20.5%,18.5% and 18.1% respectively when the ResNet-50,Inception V3 and DenseNet are trained on the NVIDIA TELSA V100 GPU with the optimization method.The proposed method exploits the characteristics of memory access during training,and can be used in conjunction with other optimization methods to further reduce the amount of memory access during training.

作者王吉军郝子宇李宏亮 WANG Jijun;HAO Ziyu;LI Hongliang(Jiangnan Institute of Computing Technology,Wuxi 214083,China)

机构地区江南计算技术研究所

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 2020年第2期98-107,共10页 Journal of Xidian University

基金国家核高基重点专项面向数据中心(云平台)与集群计算的智能计算单元(2018ZX01028-102)。

关键词深度卷积神经网络模型训练多层融合批归一化重构访存优化 deep convolutional neural networks model training fused-layers batch normalization reconstruction off-chip memory access optimization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1乔瑞秀,陈刚,龚国良,鲁华祥.一种高性能可重构深度卷积神经网络加速器[J].西安电子科技大学学报,2019,46(3):130-139. 被引量：6

二级参考文献2

1王康康,王柯俨,李云松.采用卷积神经网络的小幅文本图像重聚焦算法[J].西安电子科技大学学报,2018,45(4):80-85. 被引量：1
2赵博然,张犁,石光明,黄蓉,徐欣冉.传输触发架构的可编程神经网络处理器设计[J].西安电子科技大学学报,2018,45(4):92-98. 被引量：1

共引文献5

1周国飞.一种支持稀疏卷积的深度神经网络加速器的设计[J].电子技术与软件工程,2020(4):109-112.
2孔鑫,陈刚,龚国良,鲁华祥,毛文宇.一种面向卷积神经网络加速器的高性能乘累加器[J].西安电子科技大学学报,2020,47(4):55-63. 被引量：3
3李倍,闵丰,杨军,梁科,李国峰.一种基于深度学习的目标跟踪加速器[J].微电子学与计算机,2021,38(8):53-58. 被引量：1
4王莹,王晶,高岚,吕旭,张伟功.一种注意力机制优化方法及硬件加速设计[J].电子学报,2023,51(4):1021-1029. 被引量：1
5韦雪明,周立昕,尹仁川,许仕海,蒋丽,李建华.一种高精度8TSRAM存储阵列存内计算电路[J].桂林电子科技大学学报,2023,43(6):465-472.

同被引文献35

1徐志钮,律方成.多神经网络方法在变压器油色谱故障诊断中的应用[J].高压电器,2005,41(3):206-208. 被引量：8
2杨大雷,万年红,宋杰峰.交流电机故障特征提取方法及装置研制[J].机床与液压,2008,36(8):175-177. 被引量：1
3杜华强,葛宏立,范文义,金伟,周宇峰,李进.马尾松针叶光谱特征与其叶绿素含量间关系研究[J].光谱学与光谱分析,2009,29(11):3033-3037. 被引量：36
4胡青,孙才新,杜林,李剑.核主成分分析与随机森林相结合的变压器故障诊断方法[J].高电压技术,2010,36(7):1725-1729. 被引量：46
5马鸿雁,孙凯,魏庆,黄立培.PWM逆变器相电流重构研究与误差分析[J].电工技术学报,2011,26(1):108-114. 被引量：24
6吴长山,项月琴,郑兰芬,童庆禧.利用高光谱数据对作物群体叶绿素密度估算的研究[J].遥感学报,2000,4(3):228-232. 被引量：162
7张国庆,黄楠,宋茜,莫红.基于叶绿素含量的玉米长势遥感监测的研究[J].黑龙江科技信息,2013(19):6-6. 被引量：3
8靳彦华,熊黑钢,王莉峰,张芳.天山北坡不同坡向旱地春小麦叶片叶绿素含量高光谱遥感监测研究[J].新疆农业科学,2014,51(2):205-212. 被引量：1
9石鑫,朱永利.深度学习神经网络在电力变压器故障诊断中的应用[J].电力建设,2015,36(12):116-122. 被引量：52
10史丽萍,汤家升,王攀攀,韩丽,张晓蕾.采用最优小波树和改进BP神经网络的感应电动机定子故障诊断[J].电工技术学报,2015,30(24):38-45. 被引量：39

引证文献3

1王浩楠,蓝益鹏.基于卷积神经网络的直线同步电动机电枢绕组故障诊断[J].电机与控制应用,2021,48(11):72-79. 被引量：2
2曲怡铃,唐燕,周忠生,颜芳,王聚中,徐怀兴,胡璐璐,徐小军.基于无人机可见光影像的毛竹相对叶绿素含量反演研究[J].江西农业大学学报,2022,44(1):139-150. 被引量：6
3马向南,杨涛,王云龙,袁虎强,刘志坚,何蔚.基于轻量化神经网络及模型压缩的变压器油色谱故障诊断方法[J].供用电,2023,40(5):84-91. 被引量：8

二级引证文献16

1刘星科,董浩,杨莎,王超,冯美臣,肖璐洁,宋晓彦,张美俊,杨武德.基于图像处理技术的多角度冬小麦氮素营养诊断[J].山西农业科学,2023,51(4):450-455.
2刘小杰,宋凌寒,张仓皓,刘健,余坤勇,郭孝玉,王帆.毛竹叶片叶绿素含量估算模型对比研究[J].北京林业大学学报,2023,45(10):70-80.
3周超.变压器油介电强度测试装置的量值溯源方法的研究[J].中国仪器仪表,2023(12):73-76.
4唐智健,邱志斌,廖才波,周银彪,蔡木良,郝钰.外置式散热模块对配电变压器热点温升的影响[J].高压电器,2024,60(3):135-143. 被引量：1
5李旭,王文森,郭丽,王雪.基于多传感器融合的电力变压器内部放电定位与辨识技术[J].电网与清洁能源,2024,40(3):22-31. 被引量：1
6陈兆中,段少坤,岳云开,李焕群,吴霞,陈建福,王小卉,李绪孟.基于无人机航拍图像的水稻叶片SPAD值反演[J].杂交水稻,2024,39(2):14-22.
7程林,周盟,郭家旭,罗传仙,张静,黄勤清,闫晨光.特高压换流变压器压力释放阀布置方式[J].电网与清洁能源,2024,40(4):44-53. 被引量：1
8张帝,宋兴荣,唐海国,李泽文,孙健,彭维馨.基于自适应VMD和WVD的配电网故障行波检测方法[J].电力科学与技术学报,2024,39(2):80-90.
9李龙杰,史勇,刘彦岑,郭俊先.基于RGB图像处理预测哈密瓜叶片叶绿素研究[J].中国农机化学报,2024,45(6):149-155.
10刘志坚,孟欣雨,刘航,罗灵琳,张德春.基于改进ResNet34网络的变电站设备巡检图像分类识别的方法[J].电机与控制应用,2024,51(5):50-60. 被引量：1

1刘银萍,尹明,陈平,曾奕秋.基于深度学习的疟疾检测[J].实验技术与管理,2020,37(2):67-71. 被引量：2
2周立君,刘宇,白璐,刘飞,王亚伟.使用TensorRT进行深度学习推理[J].应用光学,2020,41(2):337-341. 被引量：24
3韦伟,李小娟.基于相似论文增广的深度学习专利质量评估[J].计算机应用,2020,40(4):966-971. 被引量：1
4龚扣林,周宇,丁笠,王永超.基于BiLSTM模型的漏洞检测[J].计算机科学,2020,47(5):295-300. 被引量：3
5曹坤,蔡双宁,陈维敏.区域影像中心建设及应用研究[J].医院管理论坛,2019,36(10):74-75. 被引量：1
6王志慧,丁新华,贾尊尊,付开赟,吐尔逊·阿合买提,何江,郭文超.基于增效剂与杀虫剂协同作用的玉米螟超低量喷雾防治技术[J].新疆农业科学,2020,57(2):311-318. 被引量：10
7贾宇霞,樊帅昌,易晓梅.基于显著性增强和迁移学习的鱼类识别研究[J].渔业现代化,2020,47(1):38-46. 被引量：11
8黄月颖,田蕾,陈忠菊.何氏育麟方联合中药督脉熏蒸对肾虚血瘀型反复着床失败患者临床疗效的研究[J].中华全科医学,2020,18(3):484-487. 被引量：8
9苑丹丹,阎相伊,路丹丹,李宁.基于R-FCN深层卷积神经网络的金属冲压件表面缺陷检测[J].工程机械,2020,51(1):23-30. 被引量：3
10李平.船舶轮廓图像三维重构技术研究[J].舰船科学技术,2019,41(20):19-21. 被引量：2

西安电子科技大学学报

2020年第2期

浏览历史

内容加载中请稍等...

卷积神经网络训练访存优化被引量：3

参考文献1

二级参考文献2

共引文献5

同被引文献35

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

卷积神经网络训练访存优化 被引量：3

参考文献1

二级参考文献2

共引文献5

同被引文献35

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

卷积神经网络训练访存优化被引量：3