一种基于Zynq的CNN加速器设计与实现被引量：4

Design and Implementation of CNN Accelerator Based on Zynq

下载PDF

导出

摘要卷积神经网络是一种前馈神经网络,它的人工神经元可以响应部分覆盖范围内的临近单元,对于大型图像处理有出色表现。文中设计了一种基于Zynq芯片的CNN加速器,以期在资源和功耗受限的FPGA中实现运算性能加速。该加速器采用数据量化的方式将网络参数从64位双精度浮点数转化为16位定点数;针对CNN不同层的特性和要求,设计了不同的网络结构和优化策略。卷积层和全连接层采用循环分块、循环流水及循环展开等方法进一步改进,而池化层采用流水线的优化方式。亦设计了FPGA和外部存储器的缓存策略,减少FPGA和外部存储器的数据传输量。以CIFAR-10数据集下的图像识别为例,在Zynq7020实验平台上进行板级测试,实验结果表明,100 MHz的工作频率下,平均识别时间为15.5 ms,相对于单核CPU方案实现了144倍的加速。 Convolutional neural network is a feed-forward neural network whose artificial neurons can respond to neighboring units within partial coverage and perform well in large-scale image processing.A CNN accelerator based on the Zynq chip is designed to accelerate the computing performance in the FPGA with limited resources and power consumption.The accelerator uses data quantization to quantify network parameters from 64-bit double-precision floating-point numbers to 16-bit fixed-point numbers.According to the characteristics and requirements of different layers of CNN,different network structures and optimization strategies are designed.The convolutional layer and the fully connected layer are further improved by the methods of loop tiling,loop pipeline and loop unrolling,and the pooling layer uses the pipeline optimization method.A cache strategy for FPGA and external memory is designed to reduce the amount of data transfer between FPGA and external memory.Taking image recognition under the CIFAR-10 data set as an example,a board-level test was performed on the Zynq7020 experimental platform.The experiment shows that the average recognition time is 15.5 ms at a working frequency of 100 MHz,which is 144 times faster than the single-core CPU solution.

作者许杰张子恒王新宇佟诚梅青肖建 XU Jie;ZHANG Zi-heng;WANG Xin-yu;TONG Cheng;MEI Qing;XIAO Jian(School of Electronic and Optical Engineering,School of Microelectronics,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学电子与光学工程学院、微电子学院

出处《计算机技术与发展》 2021年第11期108-113,121,共7页 Computer Technology and Development

基金国家自然科学基金面上项目(61974073)。

关键词 Zynq 卷积神经网络硬件加速现场可编程逻辑门阵列数据量化 CIFAR-10 Zynq convolutional neural network hardware acceleration FPGA data quantification CIFAR-10

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1龚安,郭文婷.基于卷积神经网络的皮肤癌识别方法[J].计算机技术与发展,2020,30(10):167-172. 被引量：6
2李欣,张童,厚佳琪,张子昊.基于深度学习的多角度人脸检测方法研究[J].计算机技术与发展,2020,30(9):12-17. 被引量：3
3仇越,马文涛,柴志雷.一种基于FPGA的卷积神经网络加速器设计与实现[J].微电子学与计算机,2018,35(8):68-72. 被引量：11
4窦阳,卿粼波,何小海,廖海鹏.基于FPGA的CNN加速器设计与实现[J].信息技术与网络安全,2019,38(11):96-101. 被引量：5
5张榜,来金梅.一种基于FPGA的卷积神经网络加速器的设计与实现[J].复旦学报（自然科学版）,2018,57(2):236-242. 被引量：15

二级参考文献13

1余萍,赵继生.基于线性叠加特征和CNNs的图像分类方法[J].微电子学与计算机,2015,32(10):36-40. 被引量：6
2高菲,辛琳琳.恶性黑色素瘤的皮肤镜特征研究进展[J].山东医药,2018,58(1):109-112. 被引量：9
3李航,余镇,倪东,雷柏英,汪天富.基于深度残差网络的皮肤镜图像黑色素瘤的识别[J].中国生物医学工程学报,2018,37(3):274-282. 被引量：30
4张杰,赵惠军,李贤威,法振宗,王亚林.基于深度学习方法检测皮肤镜图像中黑色素瘤的研究进展与展望[J].医疗卫生装备,2018,39(11):90-95. 被引量：16
5黄继鹏,史颖欢,高阳.面向小目标的多尺度Faster-RCNN检测算法[J].计算机研究与发展,2019,56(2):319-327. 被引量：89
6刘晨.基于机器人视觉系统的人脸检测技术研究[J].电子设计工程,2019,27(5):109-112. 被引量：6
7秦岚群,邹征云.恶性黑色素瘤化疗研究进展[J].实用肿瘤学杂志,2019,33(2):167-172. 被引量：13
8常思远,李有乘,孙培岩,朱永杰,谢党恩.一种基于MTCNN的视频人脸检测及识别方法[J].许昌学院学报,2019,38(2):149-152. 被引量：6
9刘博,王胜正,赵建森,李明峰.基于Darknet网络和YOLOv3算法的船舶跟踪识别[J].计算机应用,2019,39(6):1663-1668. 被引量：51
10钟熙,孙祥娥.基于Kmeans++聚类的朴素贝叶斯集成方法研究[J].计算机科学,2019,46(B06):439-441. 被引量：26

共引文献33

1李莉,陈心宇,高文斌.一种基于FPGA的卷积神经网络加速器实现方案[J].北京电子科技学院学报,2022,30(4):96-104. 被引量：1
2陈卓,陈羿多,田春生,邱培熠,邸志雄.一种面向ZynqNet硬件加速器的缓存优化结构设计[J].微电子学,2023,53(5):841-845.
3任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
4王昆,周骅.基于深度学习的实时识别硬件系统框架设计[J].电子技术应用,2018,44(10):11-14. 被引量：3
5曾宇航,李子聪,胡湘宏,熊晓明.用FPGA实现卷积神经网络的人脸检测系统[J].单片机与嵌入式系统应用,2019,19(3):53-58.
6蒋佩卿,吴丽君.基于FPGA的改进二值化卷积层设计[J].电气开关,2019,57(6):8-13. 被引量：2
7孙磊,肖金球,夏禹,顾敏明.改进的基于嵌入式SoC卷积神经网络识别模型[J].计算机应用与软件,2020,37(3):257-260. 被引量：5
8林志文,林志贤,郭太良,林珊玲.基于FPGA加速的卷积神经网络识别系统[J].电子技术应用,2020,46(2):24-27. 被引量：4
9赵子龙,赵毅强,叶茂.基于FPGA的多卷积神经网络任务实时切换方法[J].南京大学学报（自然科学版）,2020,56(2):167-174. 被引量：1
10吴进,张伟华,席萌,代巍.高性能人脸识别加速器优化设计及FPGA实现[J].计算机工程与应用,2020,56(22):48-54. 被引量：3

同被引文献35

1李依肖,张方.基于牛顿迭代法的时域动载荷识别SISO修正算法[J].国外电子测量技术,2022,41(3):52-55. 被引量：1
2潘新祥,胡习霜,韩立宏.软硬件协同设计分析[J].指挥控制与仿真,2008,30(3):117-119. 被引量：9
3魏武,杨靓.图像处理中数据复用及存储层次设计的研究[J].计算机技术与发展,2012,22(12):43-46. 被引量：1
4夏宏,李笑盈,王攻本.浮点开方运算单元的电路设计[J].计算机工程与应用,2001,37(11):39-41. 被引量：6
5王秀青,侯增广,潘世英,谭民,王永吉,曾慧.基于多超声传感器信息和NeuCube的移动机器人走廊场景识别[J].计算机应用,2015,35(10):2833-2837. 被引量：4
6Juncheng SHEN,De MA,Zonghua GU,Ming ZHANG,Xiaolei ZHU,Xiaoqiang XU,Qi XU,Yangjing SHEN,Gang PAN.Darwin:a neuromorphic hardware co-processor based on Spiking Neural Networks[J].Science China(Information Sciences),2016,59(2):228-232. 被引量：23
7李玉波.基于ARM体系看嵌入式处理器的发展[J].电子技术与软件工程,2016(11):213-213. 被引量：3
8张盛仕,胡湘宏,熊晓明.基于国密算法SM2软硬件协同系统的FPGA架构[J].单片机与嵌入式系统应用,2019,19(7):15-19. 被引量：4
9方轶,丛林虎,邓建球,陈泽宇.基于FPGA的SM3算法快速实现方案[J].计算机应用与软件,2020,37(6):259-262. 被引量：9
10张慧明.基于多核的卷积神经网络加速方法与系统实现[J].集成电路应用,2020,37(5):10-13. 被引量：2

引证文献4

1汪静,何乐生,李忠红,李路迟,杨航.物联网轻量级认证加密算法ASCON的软硬件协同设计[J].物联网学报,2022,6(4):139-148. 被引量：1
2张立博,李昌伟,齐伟,王刚,戚鲁凤.神经网络训练处理器的浮点运算优化架构[J].计算机测量与控制,2023,31(6):176-182.
3何增,朱国权,岳克强.面向神经网络池化层的灵活高效硬件设计[J].计算机工程与应用,2023,59(22):315-321.
4王睿轶,王秀青,刘万明,王永吉,叶晓雅.基于FPGA的移动机器人SNNs走廊场景分类器[J].计算机技术与发展,2023,33(12):32-40.

二级引证文献1

1张立新,张俊,马静,郭晓旭,阚希.超高清显示接口芯片的软件及认证算法设计[J].电子设计工程,2024,32(11):146-150.

1陈子龙,张欢,程传同,毛旭瑞,黄北举.基于光电器件的神经形态类脑芯片研究进展[J].微纳电子与智能制造,2021,3(1):174-180. 被引量：1
2张立伟.道路桥梁沥青混合料拌和质量检测优化策略[J].科技资讯,2021,19(25):35-37. 被引量：2
3闻江,陈征宇.甘为企业孺子牛--记中建二局三公司全国五一劳动奖章获得者刘令春[J].建筑,2021(21):64-65.
4中国科技闪耀东京奥运会[J].发明与创新（大科技）,2021(9):12-15.
5丁发军,刘义平,孙琪,安思曈.优化神经网络算法在航空发动机故障诊断中的应用研究[J].机械工程师,2021(11):4-7. 被引量：2
6耿山.一种针对卷材生产线的自动化包装方法的探讨[J].现代制造技术与装备,2021,57(10):163-166. 被引量：1
7田子兰.高职院校网站群的建设研究[J].电子技术与软件工程,2021(20):256-258. 被引量：1
8杨奇峰,邓浩江,王玲芳.信息中心网络中基于流量负载控制的缓存策略[J].网络新媒体技术,2021,10(5):17-22.
9范双龙,赵志强,余红梅,王蕾,郑楚楚,黄雪倩,阳桢寰,邢蒙,吕庆,罗艳虹.基于概率校准的弥漫性大B细胞淋巴瘤患者死亡风险预测[J].中国卫生统计,2021,38(5):670-674. 被引量：4
10田一辛,黄琼.建筑性能多目标优化设计方法及其应用--以遗传算法为例[J].新建筑,2021(5):84-89. 被引量：9

计算机技术与发展

2021年第11期

浏览历史

内容加载中请稍等...

一种基于Zynq的CNN加速器设计与实现被引量：4

参考文献5

二级参考文献13

共引文献33

同被引文献35

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于Zynq的CNN加速器设计与实现 被引量：4

参考文献5

二级参考文献13

共引文献33

同被引文献35

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于Zynq的CNN加速器设计与实现被引量：4