基于FPGA的递归神经网络加速器的研究进展被引量：3

Survey of FPGA based recurrent neural network accelerator

下载PDF

导出

摘要递归神经网络(RNN)近些年来被越来越多地应用在机器学习领域,尤其是在处理序列学习任务中,相比CNN等神经网络性能更为优异。但是RNN及其变体,如LSTM、GRU等全连接网络的计算及存储复杂性较高,导致其推理计算慢,很难被应用在产品中。一方面,传统的计算平台CPU不适合处理RNN的大规模矩阵运算;另一方面,硬件加速平台GPU的共享内存和全局内存使基于GPU的RNN加速器的功耗比较高。FPGA由于其并行计算及低功耗的特性,近些年来被越来越多地用来做RNN加速器的硬件平台。对近些年基于FPGA的RNN加速器进行了研究,将其中用到的数据优化算法及硬件架构设计技术进行了总结介绍,并进一步提出了未来研究的方向。 Recurrent neural network(RNN) has been used wildly used in machine learning field in recent years, especially in dealing with sequential learning tasks compared with other neural network like CNN. However, RNN and its variants, such as LSTM, GRU and other fully connected networks, have high computational and storage complexity, which makes its inference calculation slow and difficult to be applied in products. On the one hand, traditional computing platforms such as CPU are not suitable for large-scale matrix operation of RNN. On the other hand, the shared memory and global memory of hardware acceleration platform GPU make the power consumption of GPU-based RNN accelerator higher. More and more research has been done on the RNN accelerator of the FPGA in recent years because of its parallel computing and low power consumption performance. An overview of the researches on RNN accelerator based on FPGA in recent years is given. The optimization algorithm of software level and the architecture design of hardware level used in these accelerator are summarized and some future research directions are proposed.

作者高琛张帆 GAO Chen;ZHANG Fan(National Digital Switching System Engineering and Technological Research Center, Zhengzhou 450002, China)

机构地区国家数字交换系统工程技术研究中心

出处《网络与信息安全学报》 2019年第4期1-13,共13页 Chinese Journal of Network and Information Security

基金国家自然科学基金资助项目（No.61572520）国家自然科学基金创新研究群体资助项目(No.61521003)~~

关键词递归神经网络 FGPA 加速器 recurrent neural network FPGA accelerator

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1田翔,周凡,陈耀武,刘莉,陈耀.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报（工学版）,2008,42(9):1611-1615. 被引量：21

二级参考文献11

1UNDERWOOD K. FPGAs vs. CPUs: trends in peak floating-point performance [C] // Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM , 2004: 171- 180.
2UNDERWOOD K, HEMMERT K. Closing the gap: CPU and FPGA trends in sustainable floating-point BLAS performance [C]//Proceedings of the 12th Annual IEEE Symposium on Field-Programmable Custom Computing Machines (FCCM '04). Washington: IEEE, 2004: 219 - 228.
3AMIRA A, BENSAALI F. An FPGA based parametrisable system for matrix product implementation [C] // Proceedings of the IEEE Workshop on Signal Processing Systems Design and Implementation (SIPS2002). San Diego: IEEE, 2002: 75-79.
4JANG J, CHOI S, PRASANNA V K. Area and time efficient implementation of matrix multiplication on FPGAs [C]//Proeeedings of IEEE International Conference on Field Programmable Technology. [S. I. ]: IEEE, 2002:93 - 100.
5ZHUO L, PRASANNA V K. Scalable and modular algorithms for floating-point matrix multiplication on FPGAs [C]// Proceedings of the 18th International Parallel and Distributed Processing Symposium (IPDPS ' 04). [S. l. ]: IEEE, 2004: 92.
6DOU Y, VASSILIADIS S, KUZMANOV G K, et al. 64-bit floating-point FPGA matrix multiplication [C]// Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM, 2005: 86 - 95.
7CAMPBELL S J, KHATRI S P. Resource and delay efficient matrix multiplication using newer FPGA devices [C] // Proceedings of the 16th ACM Great Lakes Symposium on VLSI. Philadelphia: ACM, 2006:308 - 311.
8ZHUO L, PRASANNA V K. Sparse matrix-vector multiplication on FPGAs [C]//Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM, 2005:63 - 74.
9DE LORIMIER M, DE HON A. Floating-point sparse matrix-vector multiply for FPGAs [C] // Proceedings of the International Symposium on Field Programmable Gate Arrays. Monterey: ACM, 2005:75-85.
10IEEE. IEEE Std 754-1985, IEEE standard for binary floating-point arithmetic [S]. New York: IEEE, 1985.

共引文献20

1许芳,席毅,陈虹,靳伟伟.基于FPGA/Nios-Ⅱ的矩阵运算硬件加速器设计[J].电子测量与仪器学报,2011,25(4):377-383. 被引量：32
2肖宇,王建业,张伟.基于IP核的数选式浮点矩阵相乘设计[J].电子技术应用,2011,37(6):52-55. 被引量：1
3刘冬冬,张天宏,黄向华,陈建.基于FPGA的航空发动机电子控制器设计技术研究[J].测控技术,2012,31(1):57-61. 被引量：6
4张国礼,王建业,肖宇.浮点矩阵相乘IP核并行改进的设计与实现[J].电子技术应用,2012,38(2):43-46. 被引量：1
5刘沛华,鲁华祥,龚国良,刘文鹏.基于FPGA的全流水双精度浮点矩阵乘法器设计[J].智能系统学报,2012,7(4):302-306. 被引量：8
6沈俊,沈海斌,虞玉龙.一种低延迟高吞吐率的浮点整型乘累加单元[J].计算机工程,2013,39(6):91-94. 被引量：1
7马邺晨,李醒飞.用于导航解算的矩阵运算硬件加速器设计[J].计算机工程,2014,40(8):259-263. 被引量：2
8王阳,陶华敏,肖山竹,戴华东.基于脉动阵列的矩阵乘法器硬件加速技术研究[J].微电子学与计算机,2015,32(11):120-124. 被引量：6
9乔瑞秀,鲁华祥,龚国良,陈刚.并行可配置浮点矩阵乘法IP核设计[J].网络新媒体技术,2015,4(6):31-36. 被引量：1
10刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23

同被引文献16

1周燕艳.改进的Q学习算法及在其RoboCup中的应用[J].四川理工学院学报（自然科学版）,2011,24(4):417-421. 被引量：2
2张航,陈向东.基于FPGA的电子鼻中Sigmoid函数分区间线性逼近实现[J].计算机应用,2014,34(A02):352-353. 被引量：3
3方睿,刘加贺,薛志辉,杨广文.卷积神经网络的FPGA并行加速方案设计[J].计算机工程与应用,2015,51(8):32-36. 被引量：27
4沈阳靖,沈君成,叶俊,马琪.基于FPGA的脉冲神经网络加速器设计[J].电子科技,2017,30(10):89-92. 被引量：3
5刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：446
6王巍,周凯利,王伊昌,王广,杨正琳,袁军.卷积神经网络(CNN)算法的FPGA并行结构设计[J].微电子学与计算机,2019,36(4):57-62. 被引量：13
7廖勇,花远肖,姚海梅,杨馨怡.高速移动环境下基于深度学习的信道估计方法[J].电子学报,2019,47(8):1701-1707. 被引量：26
8江其洲,曾碧.基于深度强化学习的移动机器人导航策略研究[J].计算机测量与控制,2019,27(8):217-221. 被引量：11
9解谦,张睿,刘红.移动智能终端基于神经网络的人工智能技术与应用[J].信息通信技术与政策,2019,0(12):45-50. 被引量：1
10陈家敏,陈向东,丁星,李皋,陈一健.动态可重构神经网络的FPGA实现及其在燃爆状态监测中的应用[J].电子设计工程,2020,28(1):1-5. 被引量：3

引证文献3

1吴宇尘,陈向东,丁星,陈欣鹏,李皋,陈一健.基于长短时记忆神经网络硬件加速的燃爆状态监测应用[J].物联网技术,2021,11(10):4-9. 被引量：2
2凤雷,王宾涛,刘冰,李喜鹏.基于FPGA的深度强化学习硬件加速技术研究[J].计算机测量与控制,2022,30(6):242-247. 被引量：3
3相博镪,凌味未,李蠡,邹金成.基于FPGA的RNN硬件加速架构[J].成都信息工程大学学报,2022,37(4):374-378.

二级引证文献5

1王硕,张景璐,裴春梅.基于ZYNQ的随机森林分类器实现[J].今日制造与升级,2023(2):17-19.
2刘小飞,陈向东,丁星,周龙.基于LightGBM Stacking模型融合的多传感器甲烷检测系统[J].单片机与嵌入式系统应用,2023,23(6):65-69.
3张立博,李昌伟,齐伟,王刚,戚鲁凤.神经网络训练处理器的浮点运算优化架构[J].计算机测量与控制,2023,31(6):176-182.
4江逸斐,陈忠华,兰志超,王少禹,张乐.基于 LSTM-ICNN的烟草包装机传动系统滚动轴承状态预测研究[J].机械设计与制造工程,2024,53(3):97-101.
5刘峥嵘.基于FPGA的深度强化学习硬件加速技术分析[J].集成电路应用,2024,41(2):22-25.

1Imagination发布PowerVR Series3NX神经网络加速器,为嵌入式人工智能市场带来多核可扩展性[J].世界电子元器件,2018(12):4-5.
2Imagination.Imagination 发布PowerVR Series3NX 神经网络加速器[J].中国集成电路,2019,28(1):5-5.
3张平(文/图).新图形、新AI解析Imagination新一代GPU及神经网络加速器[J].微型计算机,2019,0(1):89-92.
4刘梦雅,毛剑琳.一种改进池化模型对卷积神经网络性能影响的研究[J].电子测量技术,2019,42(5):34-38. 被引量：10
5胡俊杰,陈仕川.基于FPGA的多路复用采样率变换器的设计与实现[J].通信对抗,2017,36(4):21-24.
6编者按[J].中国科学：信息科学,2019,49(3):245-246.
7程陶然,李阳.面向航空应用的神经网络轻量化设计[J].电脑知识与技术,2019,15(4Z):191-192.
8刘鹤,季宇,韩建辉,张悠慧,郑纬民.面向阻变存储器的长短期记忆网络加速器的训练和软件仿真[J].计算机研究与发展,2019,56(6):1182-1191. 被引量：4
9张成,丁华.大范围远距离的车载主动式红外成像系统[J].江苏科技信息,2019,36(10):36-38.
10高强,姜忠昊.基于GAN等效模型的小样本库扩增研究[J].电测与仪表,2019,56(6):76-81. 被引量：9

网络与信息安全学报

2019年第4期

浏览历史

内容加载中请稍等...

基于FPGA的递归神经网络加速器的研究进展被引量：3

参考文献1

二级参考文献11

共引文献20

同被引文献16

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于FPGA的递归神经网络加速器的研究进展 被引量：3

参考文献1

二级参考文献11

共引文献20

同被引文献16

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于FPGA的递归神经网络加速器的研究进展被引量：3