-
题名基于层间融合的神经网络访存密集型层加速
被引量:2
- 1
-
-
作者
杨灿
王重熙
章隆兵
-
机构
处理器芯片国家重点实验室(中国科学院计算技术研究所)
中国科学院计算技术研究所
中国科学院大学
-
出处
《高技术通讯》
CAS
2023年第8期823-835,共13页
-
基金
中国科学院战略性先导科技专项(XDC05020100)资助项目。
-
文摘
近年来,随着深度神经网络在各领域的广泛应用,针对不同的应用场景,都需要对神经网络模型进行训练以获得更优的参数,于是对训练速度的需求不断提升。然而,现有的研究通常只关注了计算密集型层的加速,忽略了访存密集型层的加速。访存密集型层的操作主要由访存带宽决定执行效率,单独提升运算速度对性能影响不大。本文从执行顺序的角度出发,提出了将访存密集型层与其前后的计算密集型层融合为一个新层执行的方式,将访存密集型层的操作作为对融合新层中输入数据的前处理或输出数据的后处理进行,大幅减少了访存密集型层在训练过程中对片外内存的访问,提升了性能;并针对该融合执行方案,设计实现了一个面向训练的加速器,采用了暂存前处理结果、后处理操作与计算密集型层操作并行执行的优化策略,进一步提升了融合新层的训练性能。实验结果显示,在面积增加6.4%、功耗增加10.3%的开销下,训练的前向阶段、反向阶段的性能分别实现了67.7%、77.6%的提升。
-
关键词
神经网络
训练
加速器
卷积神经网络(CNN)
访存密集型层
批归一化(BN)层
-
Keywords
neural network
training
accelerator
convolutional neural network(CNN)
memory intensive layer
batch normalization(BN)layer
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-