基于FPGA的低功耗YOLO加速器设计被引量：3

Design of low-power YOLO accelerator based on FPGA

下载PDF

导出

摘要为了降低在边缘计算端部署YOLO网络的功耗和硬件资源消耗,基于现场可编程门阵列(FPGA)提出了一种低功耗Tiny YOLOv3网络加速器。在卷积层IP设计中,采用了通道交错方法加速传统卷积计算,使用16位定点数优化数据位宽,同时利用层分组方法来降低数据传输延迟,通过输入输出通道折叠的方法来降低硬件资源的消耗。在系统实现阶段,通过在Vivado SDK中设置不同拓扑参数对Tiny YOLOv3网络进参数配置。实验结果表明,当工作频率为100 MHz时,与Intel CPU以及ARM CPU相比,分别加速了17倍和289倍。与基于GPU及其他FPGA的YOLO实现相比,该系统可以显著降低硬件资源消耗以及功耗。 To reduce the power consumption and hardware resource consumption of deploying YOLO network at the edge computing end,this paper proposes a low-power Tiny YOLOv3 network accelerator based on Field Programmable Gate Array(FPGA). In the convolution layer IP design,it uses channel interleaving method to accelerate traditional convolution calculation,and it uses 16 bit fixed-point number to optimize data width. At the same time,layer grouping technology is used to reduce the delay of data transmission. In order to reduce the consumption of hardware resources,the system adopts channel folding method. In the system implementation,different topology parameters are set in Vivado SDK to configure Tiny YOLOv3 network. Experimental results show that the system is 17 times faster than Intel CPU and 289 times faster than ARM CPU under the working frequency of 100 MHz. Compared with the YOLO implementation based on GPU and other FPGA designs, it can significantly reduce the consumption of hardware resources and power.

作者李钦祚肖灯军 LI Qinzuo;XIAO Dengjun(Aerospace Information Research Institute(AIR),Chinese Academy of Sciences(CAS),Beijing 100190,China;School of Electronic,Electrical and Communication Engineering,University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院空天信息创新研究院中国科学院大学电子电气与通信工程学院

出处《电子设计工程》 2022年第20期6-12,共7页 Electronic Design Engineering

基金国家自然科学基金青年基金(61901442)。

关键词 YOLO算法现场可编程门阵列低功耗并行加速器可动态配置卷积神经网络 You Only Look Once(YOLO)algorithm Field Programmable Gate Array(FPGA) low power parallel accelerator dynamic configuration Convolutional Neural Network(CNN)

分类号 TN492 [电子电信—微电子学与固体电子学]

引文网络
相关文献

参考文献4

1夏冰洁,王琴.基于FPGA的SoC接口在CNN加速器中的研究[J].电子设计工程,2021,29(12):6-8. 被引量：4
2王炳辉,何小海,卿粼波,熊淑华.基于FPGA的DMA数据传输系统设计[J].电子设计工程,2020,28(8):20-24. 被引量：21
3刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23
4狄新凯,杨海钢.基于FPGA的稀疏化卷积神经网络加速器[J].计算机工程,2021,47(7):189-195. 被引量：4

二级参考文献33

1田翔,周凡,陈耀武,刘莉,陈耀.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报（工学版）,2008,42(9):1611-1615. 被引量：21
2赵会彬,马卫平,梁晓英.基于PCIE点对点传输的FPGA系统[J].计算机系统应用,2014,23(4):201-204. 被引量：3
3张彪,宋红军,刘霖,胡骁,李洋.基于PCIE接口的高速数据传输系统设计[J].电子测量技术,2015,38(10):113-117. 被引量：27
4曾毅,刘成林,谭铁牛.类脑智能研究的回顾与展望[J].计算机学报,2016,39(1):212-222. 被引量：124
5刘喜梅,陈亚斐,覃庆良.基于DSP和FPGA的LVDS高速串行通信方案设计[J].电子测量技术,2016,39(7):178-182. 被引量：8
6常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：429
7刘敬辉,简献忠,肖儿良,姜冠祥,蔡留美,郑照平.基于WinDriver的高速PCI卡驱动开发[J].电子科技,2017,30(4):40-43. 被引量：4
8杨亚涛,张松涛,李子臣,张明舵,曹广灿.基于Zynq平台PCIE高速数据接口的设计与实现[J].电子科技大学学报,2017,46(3):522-528. 被引量：14
9徐带娣,谭红.基于fpga以太网及串口数据传输系统分析[J].信息通信,2017,30(10):229-231. 被引量：4
10王之光,高清运.基于FPGA的PCIe总线接口的DMA控制器的设计[J].电子技术应用,2018,44(1):9-12. 被引量：22

共引文献48

1甄国涌,苏慧思,陈建军,赵清琳.基于FPGA的PCIe接口的数据传输设计与实现[J].国外电子测量技术,2021,40(12):72-76. 被引量：21
2张庭略.基于硬件的神经网络加速[J].通讯世界,2018,0(8):77-79. 被引量：1
3任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
4刘勤让,刘崇阳,周俊,王孝龙.基于线性脉动阵列的卷积神经网络计算优化与性能分析[J].网络与信息安全学报,2018,4(12):16-24. 被引量：3
5江鹏.基于卷积神经网络的大学生就业推荐算法研究与设计[J].数码设计,2019,8(14):23-24.
6陈朋,陈庆清,王海霞,张怡龙,刘义鹏,梁荣华.基于改进动态配置的FPGA卷积神经网络加速器的优化方法[J].高技术通讯,2020,30(3):240-247. 被引量：4
7杨浩,王越男.点对点通信原语并行转换方法仿真研究[J].计算机仿真,2020,37(4):173-177.
8王超,王腾,马翔,周学海.基于FPGA的机器学习硬件加速研究进展[J].计算机学报,2020,43(6):1161-1182. 被引量：15
9乔延婷,陈万培,张涛.基于SSD的轻量级车辆检测网络[J].无线电工程,2020,50(11):926-931. 被引量：9
10黄兆伟,王连明.基于FPGA的可配置浮点向量乘法单元设计实现[J].计算机应用研究,2020,37(9):2762-2765. 被引量：4

同被引文献17

1赵永强,饶元,董世鹏,张君毅.深度学习目标检测方法综述[J].中国图象图形学报,2020,25(4):629-654. 被引量：231
2张帆.图像卷积实时计算的FPGA实现[J].电子设计工程,2021,29(1):132-137. 被引量：4
3杨金颖,高文炜,罗雪,王波.基于VPX平台的国产BMC设计与实现[J].微电子学与计算机,2021,38(8):80-86. 被引量：5
4孙浩,陈进,雷琳,计科峰,匡纲要.深度卷积神经网络图像识别模型对抗鲁棒性技术综述[J].雷达学报（中英文）,2021,10(4):571-594. 被引量：24
5许杰,张子恒,王新宇,佟诚,梅青,肖建.一种基于Zynq的CNN加速器设计与实现[J].计算机技术与发展,2021,31(11):108-113. 被引量：5
6李华君,陈婧,林悦,周元.一种基于国产化的雷达模拟演训系统设计与实现[J].雷达与对抗,2021,41(4):59-64. 被引量：1
7王锡志.基于国产化通用VPX的信号处理板设计[J].计算机与网络,2022,48(1):52-55. 被引量：3
8焦李成,孙其功,杨育婷,冯雨歆,李秀芳.深度神经网络FPGA设计进展、实现与展望[J].计算机学报,2022,45(3):441-471. 被引量：15
9龚豪杰,周海,冯水春.基于FPGA的卷积神经网络并行加速设计[J].计算机工程与设计,2022,43(7):1872-1878. 被引量：7
10裴颂文,汪显荣.YOLO检测网络的FPGA加速计算模型的研究[J].小型微型计算机系统,2022,43(8):1681-1686. 被引量：4

引证文献3

1赖嘉伟,魏洪健,孙科学,王艳.一种基于PYNQ的神经网络加速系统[J].电子设计工程,2024,32(17):16-21.
2叶亚峰,张宁,寇金桥,王昕.基于FPGA的VPX型智能加速模块的设计与实现[J].计算机技术与发展,2024,34(10):8-15.
3魏行健,孙泽宇,王正斌.一种基于PYNQ的神经网络模型加速设计[J].智能计算机与应用,2025,15(1):69-74.

1王婷,陈斌岳,张福海.基于FPGA的卷积神经网络并行加速器设计[J].电子技术应用,2021,47(2):81-84. 被引量：4
2胡琼.基于深度学习的智慧城市关键目标识别研究[J].贵阳学院学报（自然科学版）,2021,16(2):30-34. 被引量：1
3狄新凯,杨海钢.基于FPGA的稀疏化卷积神经网络加速器[J].计算机工程,2021,47(7):189-195. 被引量：4
4林力韬,陈汉华,金海.FJoin:一种基于FPGA的流连接并行加速器[J].中国科学：信息科学,2022,52(2):314-333.
5宋新开,支天,孔维浩,杜子东.针对图神经网络加速器性能评估的标准测试集[J].高技术通讯,2022,32(7):663-673.
6滕珍珍,扎·道力格尔苏荣,赛汉.“广州何仙姑传说”非遗文化IP设计的可行性研究[J].绿色包装,2022(9):143-146.
7王生,傅世年,屈化民,张旌,马力,董海义,董岚,金大鹏,康玲,康文,刘华昌,李健,李晓,欧阳华甫,齐欣,孙虹,沈莉,唐靖宇,王庆斌,徐韬光.中国散裂中子源强流质子加速器设计、研制及调试运行[J].原子能科学技术,2022,56(9):1747-1759. 被引量：3
8陈少毅,汤心溢,王健,黄静思,李争.一种用于红外目标检测的高效流水线式FPGA加速器[J].红外与毫米波学报,2022,41(5):914-922.
9郭子博,刘凯,胡航天,李奕铎,璩泽旭.一种微指令序列调度数据流的星载卷积神经网络FPGA加速器[J].计算机学报,2022,45(10):2047-2064. 被引量：1

电子设计工程

2022年第20期

浏览历史

内容加载中请稍等...

基于FPGA的低功耗YOLO加速器设计被引量：3

参考文献4

二级参考文献33

共引文献48

同被引文献17

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于FPGA的低功耗YOLO加速器设计 被引量：3

参考文献4

二级参考文献33

共引文献48

同被引文献17

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于FPGA的低功耗YOLO加速器设计被引量：3