一种基于FPGA的卷积神经网络加速器设计与实现被引量：11

Design and Implementation of a Convolutional Neural Network Accelerator Based on FPGA

下载PDF

导出

摘要针对卷积神经网络模型ZynqNet现有FPGA实现版本中卷积运算单元并行度低,存储结构过度依赖片外存储等问题,提出一种针对ZynqNet的FPGA优化设计.设计了双缓冲结构将中间运算结果放到片内以减少片外存储访问;将数据位宽从32位降为16位;设计了具有64个卷积运算单元的并行结构.实验结果表明,在ImageNet测试准确度相同的情况下,本文所提出的设计工作频率可达200 MHz,运算速率峰值达到1.85GMAC/s,是原ZynqNet实现的10倍,相比i5-5200UCPU可实现20倍加速.同时,其计算能效达到了NVIDIA GTX 970GPU的5.4倍. In the hardware design of ZynqNet implemented on FPGA,the parallelism of convolution unit is low and the storage structure is almost dependent on off-chip memory.A FPGA accelerator optimization is proposed based on ZynqNet and it is easy to apply in other CNN models.The double buffering stores intermediate result of the network into the chip to reduce off-chip access;The data precision is changed from 32 bits to 16 bits,thus a parallel structure of64 convolution operation units is designed to improve computing parallelism.The ImageNet results show that the optimized accelerator based on FPGA can achieve peak performance of 1.85 GMAC/s under 200 MHz,it is 10 times speedup compared to the original ZynqNet and 20 times speedup compared to i5-5200 UCPU.In terms of performance power ratio,the FPGA accelerator is 5.4 times of NVIDIA GTX 970 GPU version.

作者仇越马文涛柴志雷 QIU Yue;MA Wen-tao;CHAI Zhi-lei(School of Internet of Things,Jiangnan University,Wuxi 214122,China;State Key Laboratory of Mathematical Engineering and Advanced Computing,Wuxi 214125,)

机构地区江南大学物联网工程学院数学工程与先进计算国家重点实验室

出处《微电子学与计算机》 CSCD 北大核心 2018年第8期68-72,77,共6页 Microelectronics & Computer

基金数学工程与先进计算国家重点实验室开放基金(2015A07)

关键词卷积神经网络现场可编程门阵列(FPGA) ZynqNet 并行计算加速 convolutional Neutral Network （CNN） field-programmable gate Array（FPGA） ZynqNet parallelismcomputing acceleration

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1余萍,赵继生.基于线性叠加特征和CNNs的图像分类方法[J].微电子学与计算机,2015,32(10):36-40. 被引量：6

二级参考文献18

1LeCun Y, Bottou I., Bengio Y, et al. Gradient-based learning applied to document recognition [J]. the IEEE, 1998,86(11) ~2278-2324.
2Abdel-Hamid O, MohamedA R, Hui J, et al. Convolu- tional neural networks for speech recognition [J]. IEEE-ACM Transactions on Audio Speech and Lan- guage Processing, 2014,22 (10) : 1533-1545.
3Cheung B. Convolutional neural networks applied to human face classification[C]//llth International Con- ference on Machine Learning and Applications. Boca Raton: IEEE, 2012(2) : 580-583.
4Wu Yihui. Traffic sign detection based on convolutional neural networks[C]//The 2013 International Joint Confer- ence on Neural Networks. Dallas:IEEE,2013:1-7.
5Jerry CLL, Moshe E. Convolutional neural networks for eye detection in remote gaze estimation systems[C] //International Multiconference of Engineers and Com- puter Scientists. Hong Kong; IEEE, 2008 ~ 601-606.
6Ji Shuiwang, Xu Wei, Yang Ming, et al. 3D convolu- tional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Ma- chine Intelligence, 2013,35(1) : 221-231.
7Julien Mairal, Piotr Koniusz, Zaid Harchaoui, et al. Convolutional kernel networks [C] // Neural Informa- tion Processing Systems. Montreal, Canada, 2014.
8LeCun Y. Generalization and network design strategies [R]. Pfeifer: Connectionist Research Group, 1989.
9LeCun Y,Bottou L, Orr G B, et al. Efficient baekProp [M]. Berlin, Heidelberg: Spring-Verlag, 1998 : 9-50.
10Tivive F H C, Bouzerdoum A. Efficient training algo- rithms for a class of shunting inhibitory convolutional neural networks[J]. IEEE Transactions on Neural Net- work, 2005,16(3) : 541-556.

共引文献5

1邓江洪,赵领.多特征筛选与支持向量机相融合的图像分类模型[J].吉林大学学报（理学版）,2016,54(4):862-866. 被引量：6
2黄金国.基于云计算的图像分类算法[J].现代电子技术,2017,40(5):63-65.
3张慧娜,李裕梅,傅莺莺.基于Haar-CNN模型的自然场景图像分类的研究[J].四川师范大学学报（自然科学版）,2017,40(1):119-126. 被引量：11
4王慧,宋淑蕴.基于KCPA提取特征和RVM的图像分类[J].吉林大学学报（理学版）,2017,55(2):357-362. 被引量：4
5梁万杰,曹宏鑫.基于卷积神经网络的水稻虫害识别[J].江苏农业科学,2017,45(20):241-243. 被引量：34

同被引文献38

1周瑛,张铃.模糊集方法在检索评价系统中的应用[J].计算机技术与发展,2007,17(1):111-113. 被引量：4
2郭求是,史峥,张培勇.基于Faster R-CNN的光刻热点检测[J].微电子学,2018,48(6):834-838. 被引量：4
3方睿,刘加贺,薛志辉,杨广文.卷积神经网络的FPGA并行加速方案设计[J].计算机工程与应用,2015,51(8):32-36. 被引量：27
4张朝柱,韩吉南,燕慧智.高速高精度固定角度旋转CORDIC算法的设计与实现[J].电子学报,2016,44(2):485-490. 被引量：23
5余子健,马德,严晓浪,沈君成.基于FPGA的卷积神经网络加速器[J].计算机工程,2017,43(1):109-114. 被引量：36
6张榜,来金梅.一种基于FPGA的卷积神经网络加速器的设计与实现[J].复旦学报（自然科学版）,2018,57(2):236-242. 被引量：15
7杨一晨,张国和,梁峰,何平,吴斌,高震霆.一种基于可编程逻辑器件的卷积神经网络协处理器设计[J].西安交通大学学报,2018,52(7):153-159. 被引量：7
8肖皓,祝永新,汪宁,田犁,汪辉.面向卷积神经网络的FPGA硬件加速器设计[J].工业控制计算机,2018,31(6):99-101. 被引量：2
9王开宇,生梦林,韩睿,李伯轩,刘晨阳,申人升.卷积神经网络的FPGA实现及优化[J].实验室科学,2018,21(4):79-84. 被引量：2
10陈煌,祝永新,田犁,汪辉,封松林.基于FPGA的卷积神经网络卷积层并行加速结构设计[J].微电子学与计算机,2018,35(10):85-88. 被引量：6

引证文献11

1陈卓,陈羿多,田春生,邱培熠,邸志雄.一种面向ZynqNet硬件加速器的缓存优化结构设计[J].微电子学,2023,53(5):841-845.
2曾宇航,李子聪,胡湘宏,熊晓明.用FPGA实现卷积神经网络的人脸检测系统[J].单片机与嵌入式系统应用,2019,19(3):53-58.
3蒋佩卿,吴丽君.基于FPGA的改进二值化卷积层设计[J].电气开关,2019,57(6):8-13. 被引量：2
4孙磊,肖金球,夏禹,顾敏明.改进的基于嵌入式SoC卷积神经网络识别模型[J].计算机应用与软件,2020,37(3):257-260. 被引量：5
5张卫,刘宇红,张荣芬.可实现时分复用的CNN卷积层和池化层IP核设计[J].计算机工程与应用,2020,56(24):66-71. 被引量：9
6李沛杰,张丽,夏云飞,许立明.基于软件定义的可重构卷积神经网络架构设计[J].网络与信息安全学报,2021,7(3):29-36.
7邓良,陈章进,乔栋,屠程力.基于FPGA的指令集架构神经网络协处理器的设计与验证[J].小型微型计算机系统,2021,42(6):1129-1135. 被引量：6
8许庚林,冉峰,郭爱英,李娇.基于FPGA的可配置卷积结构的神经网络协处理器设计[J].复旦学报（自然科学版）,2021,60(4):482-491. 被引量：2
9许杰,张子恒,王新宇,佟诚,梅青,肖建.一种基于Zynq的CNN加速器设计与实现[J].计算机技术与发展,2021,31(11):108-113. 被引量：4
10孟浩,刘强.基于FPGA的卷积神经网络训练加速器设计[J].南京大学学报（自然科学版）,2021,57(6):1075-1082. 被引量：3

二级引证文献31

1李聪,毛剑琳,李大焱,马昭,罗楦皓.一种面向轻量型卷积神经网络的嵌入式图像识别系统[J].自动化与仪器仪表,2021(1):152-155. 被引量：6
2吕浩,张盛兵,王佳,刘硕,景德胜.卷积神经网络SIP微系统实现[J].计算机工程与应用,2021,57(5):216-221. 被引量：7
3安国臣,袁宏拓,韩秀璐,王晓君,侯雨佳.基于FPGA的通用卷积层IP核设计[J].河北科技大学学报,2021,42(3):241-247. 被引量：3
4曾庆祝,李新海,尹雁和,夏曼,廖伟全,梁景明.使用深度分离卷积网络实现继保压板状态识别[J].电气开关,2021,59(5):13-17.
5满涛,郭子豪,曲志坚.卷积神经网络的FPGA并行加速设计与实现[J].电讯技术,2021,61(11):1438-1445. 被引量：9
6杜煜章,潘家华,宗容,粟炜,王威廉.基于硬件加速的轻量级网络心音分类器[J].计算机工程与应用,2021,57(23):263-269. 被引量：1
7赵凡,白雪,杨涛,赵不贿,徐雷钧.基于FPGA的通用卷积神经网络识别系统研究[J].自动化仪表,2022,43(1):42-47. 被引量：2
8王慧,蒋朝根.基于深度学习的智能垃圾分拣车系统[J].电子技术应用,2022,48(1):71-75. 被引量：4
9蔡晓军,栾峻峰,申兆岩,赵梦莹,于东晓,李永明,贾智平.面向冯·诺依曼计算机的指令执行虚拟仿真设计与探讨[J].实验技术与管理,2022,39(5):89-93. 被引量：4
10冯帆.基于贝叶斯网络的车用空气弹簧智能测量与数值分析技术[J].电子设计工程,2022,30(14):34-38. 被引量：1

1杨啸宇,高敬坤,邓彬,王宏强,秦玉亮.基于GPU的毫米波雷达近场阵列成像技术研究[J].电子测量技术,2018,41(11):15-19. 被引量：5
2卢兵.雷神911M星耀版换“芯”之后更加强大[J].计算机与网络,2018,44(12):22-23.
3骆铸.云资源池安全技术探讨[J].通讯世界,2018,25(2):47-48. 被引量：5
4王颖,李郑梅,李毅强,吕玉冰.单粒子效应在线检测系统设计与实现[J].电子技术与软件工程,2018(13):53-54. 被引量：1
5张子龙,谷龙,李堪勃.通信卫星在轨测试自动化方案[J].报刊荟萃（下）,2018,0(6):91-91.
6林跃杉,林郁,尹韬,黄志洪,杨海钢.FIR基于FPGA的高并行度DA结构[J].太赫兹科学与电子信息学报,2018,16(1):170-175. 被引量：4
7赵峰华,程晨,范丽俊,郭宏,顾少顺.煤中氮同位素测试方法对比[J].矿业科学学报,2018,3(2):99-105. 被引量：1
8韩旭.基于多路并行结构的宽带波形产生方案设计[J].信息技术与信息化,2018(5):79-80. 被引量：1
9蒋林,王喜娟,刘镇弢,谢晓燕,衡茜.基于FPGA的卷积神经网络设计与实现[J].微电子学与计算机,2018,35(8):132-136. 被引量：7
10兆易创新推出多款GD32E103系列Cortex—M4 MCU[J].中国集成电路,2018,27(6):1-1.

微电子学与计算机

2018年第8期

浏览历史

内容加载中请稍等...

一种基于FPGA的卷积神经网络加速器设计与实现被引量：11

参考文献1

二级参考文献18

共引文献5

同被引文献38

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

一种基于FPGA的卷积神经网络加速器设计与实现 被引量：11

参考文献1

二级参考文献18

共引文献5

同被引文献38

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

一种基于FPGA的卷积神经网络加速器设计与实现被引量：11