UltraAcc:基于FPGA流水架构的低功耗高性能CNN加速器定制设计被引量：1

UltraAcc:A Customized Low Power and High Performance CNN Accelerator with Dataflow on FPGAs

下载PDF

导出

摘要近年来,卷积神经网络(Convolutional Neural Network,CNN)在目标检测、场景分割、图片分类等领域的应用中取得了举世瞩目的成绩,然而随着应用对精度要求的不断提升、模型参数量不断增加、所需计算量不断增大,这使得在“边”“端”侧资源有限的平台上部署低延时应用极具挑战.虽然采用GPU可以完成CNN模型加速计算的理论验证,但受限于GPU定制改造成本以及其自身功耗,无法在实际低功耗系统中应用.相比而言,作为低功耗高性能系统,FPGA平台具备高性能计算能力以及硬件可重构的特点,适于完成CNN加速.当前利用FPGA可重构性的定制计算技术虽然可整合加速器以应对多变的CNN应用场景,调整加速器结构以适配应用计算保证功耗效率.然而,现有卷积神经网络FPGA加速器的瓶颈在于卷积神经网络算法适配性不佳,由此会导致计算间隙大、时延浪费、计算资源使用率低的问题.本文针对CNN算法因局部参数共享所导致的计算密集的特点,重新组织数据流结构以适应并行运算.针对资源有限制的FPGA板卡,本文自底向上定制了矩阵乘法、卷积计算、池化计算等单元,最终组成Ultra加速器(Ultra Accelerator,UltraAcc);同时,本文设计了评估模型进行超参数调优,从底层单元到计算层单元再到整个计算链都做了对存储资源、计算资源、运行时延的评估,再配合神经网络训练的精度,从而实现在软件硬件两个方面平衡优化整个应用系统.Ultra加速器在Ultra96板卡上平均吞吐量可以达到126.72 GOPs,是IEEE/ACM DAC-SDC’19冠军方法的5.47倍.采用Ultra加速器本团队参与了DAC-SDC’20低功耗目标检测的比赛,最终以精度IoU 0.65、速度FPS 212.73、消耗能量1.64kJ夺得2020年该赛项冠军. Convolutional Neural Network(CNN)has remarkable application effect in object detection,semantic segmentation and image classification in recent years.In order to meet the requirements of high precision,CNN models with deep layers need to be constructed.Due to the large number of parameters of the CNN and its intensive computational demands,it is a great challenge to the deployment of CNN applications with low latency requirements on edge devices which are resource-limited.Although GPU can be used to complete theoretical verification of accelerated computation of CNN model.Due to the limitation of GPU customization cost and power consumption,it cannot be applied in the actual low-power system.In contrast,as a low power consumption and high performance system,FPGA has the characteristics of high performance computing capability and reconfigurability,which are suitable for customized computing of CNNs.The method to solve the acceleration problem is to use the customized computing technology with FPGA reconfigurability.We can use the composable accelerator to deal with various CNN application scenarios and adjust the accelerator structure to suit the application to ensure power consumption efficiency.The bottleneck of the existing CNN accelerator on FPGA lies in the poor adaptation of CNN algorithm,which leads to the problems of large computing gap,the waste of latency and low utilization of computing resources.In this paper,we reorganize the dataflow structure to adapt to CNN parallel operation.According to the limited FPGA resources,the matrix multiplication,convolution calculation,pooling calculation and other units were customized from the bottom up to top,and the Ultra accelerator(UltraAcc)is proposed.An evaluation model is designed for hyperparameter tuning.From the bottom unit to the computing layer unit and then to the whole computing chain,storage resources,computing resources and latency are evaluated.With the precision result of CNN training,the whole application system is balanced and optimized from both software and hardware.The UltraAcc can achieve an average throughput of 126.72 GOPs on the Ultra96v2,5.47 times higher than the first place method in IEEE/ACM DAC-SDC’19 on the same platform.The UltraAcc was used to participate in the DAC-SDC’20.And we won the first prize with accuracy of IoU 0.65,speed of FPS 212.73 and energy consumption of 1.64 kJ.

作者包振山郭俊南张文博党鸿博 BAO Zhen-Shan;GUO Jun-Nan;ZHANG Wen-Bo;DANG Hong-Bo(Faulty of Information Technology,Beijing University of Technology,Beijing 100024)

机构地区北京工业大学信息学部

出处《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1139-1155,共17页 Chinese Journal of Computers

基金国家自然科学基金(62072016)资助。

关键词加速器卷积神经网络现场可编程门阵列数据流水技术软硬件协同 accelerator CNN FPGA dataflow hardware-software co-design

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1卢冶,陈瑶,李涛,蔡瑞初,宫晓利.面向边缘计算的嵌入式FPGA卷积神经网络构建方法[J].计算机研究与发展,2018,55(3):551-562. 被引量：47
2吴艳霞,梁楷,刘颖,崔慧敏.深度学习FPGA加速器的进展与趋势[J].计算机学报,2019,42(11):2461-2480. 被引量：58
3王超,王腾,马翔,周学海.基于FPGA的机器学习硬件加速研究进展[J].计算机学报,2020,43(6):1161-1182. 被引量：15

二级参考文献10

1黄山,王波涛,王国仁,于戈,李佳佳.MapReduce优化技术综述[J].计算机科学与探索,2013,7(10):865-885. 被引量：30
2刘颖,吕方,王蕾,陈莉,崔慧敏,冯晓兵.异构并行编程模型研究与进展[J].软件学报,2014,25(7):1459-1475. 被引量：13
3马久跃,余子濠,包云岗,孙凝晖.体系结构内可编程数据平面方法[J].计算机研究与发展,2017,54(1):123-133. 被引量：2
4施巍松,孙辉,曹杰,张权,刘伟.边缘计算:万物互联时代新型计算模型[J].计算机研究与发展,2017,54(5):907-924. 被引量：499
5夏辉,于佳,秦尧,程相国,陈仁海,潘振宽.嵌入式领域ECC专用指令处理器的研究[J].计算机学报,2017,40(5):1092-1108. 被引量：6
6周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1726
7刘勤让,刘崇阳.利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计[J].电子与信息学报,2018,40(6):1368-1374. 被引量：23
8朱虎明,李佩,焦李成,杨淑媛,侯彪.深度神经网络并行化研究综述[J].计算机学报,2018,41(8):1861-1881. 被引量：56
9陈桂林,马胜,郭阳.硬件加速神经网络综述[J].计算机研究与发展,2019,56(2):240-253. 被引量：17
10Erdal Oruklu,Richard Hanley,Semih Aslan,Christophe Desmouliers,Fernando M. Vallina,Jafar Saniie.System-on-Chip Design Using High-Level Synthesis Tools[J].Circuits and Systems,2012,3(1):1-9. 被引量：7

共引文献104

1丁祥海,王志会.边缘计算在计算机科学方向的进展研究[J].信息与管理研究,2019,0(6):73-83.
2杜忠文,李庚霖,蒋菡,褚江恒,伍俊.基于次级缓存的SDRAM调度策略的研究[J].电子测量技术,2023,46(14):37-42. 被引量：1
3张舰.父亲(外一首)[J].岁月,2000(7):60-60.
4邓向武,齐龙,马旭,蒋郁,陈学深,刘海云,陈伟烽.基于多特征融合和深度置信网络的稻田苗期杂草识别[J].农业工程学报,2018,34(14):165-172. 被引量：51
5张庭略.基于硬件的神经网络加速[J].通讯世界,2018,0(8):77-79. 被引量：1
6任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
7宋铁.基于卷积神经网络的GFW加速调度算法[J].软件,2019,40(3):217-221.
8袁柳,李皓,李勐,涂吉.基于PCIe高速通信接口的图像处理系统设计[J].科学技术与工程,2019,19(22):235-240. 被引量：6
9陈辰,柴志雷,夏珺.基于Zynq7000 FPGA异构平台的YOLOv2加速器设计与实现[J].计算机科学与探索,2019,13(10):1677-1693. 被引量：20
10张立立,王力.新一代人工智能交通信号控制器架构研究[J].重庆交通大学学报（自然科学版）,2019,38(11):6-13. 被引量：9

同被引文献2

1蹇强,张培勇,王雪洁.一种可配置的CNN协加速器的FPGA实现方法[J].电子学报,2019,47(7):1525-1531. 被引量：20
2杨春,张睿尧,黄泷,遆书童,林金辉,董志伟,陈松路,刘艳,殷绪成.深度神经网络模型量化方法综述[J].工程科学学报,2023,45(10):1613-1629. 被引量：2

引证文献1

1画芊昊,李博,杜宸罡.基于FPGA的深度可分离卷积加速器研究[J].计算机测量与控制,2024,32(5):267-273.

1龙泽凯,陈聪飞,郝东来.基于CNN的手势识别[J].电脑编程技巧与维护,2023(5):104-106.
2吴建新,潘晓明,陈任.FPGA支付系统的指纹识别模块设计与实现[J].实验室科学,2023,26(2):49-52. 被引量：1
3张凤莲.基于计算思维的大学计算机基础改革探究[J].中文科技期刊数据库（引文版）教育科学,2021(9):203-204.
4汤诺辉,林志坚,陈平平,郭里婷.实时车牌识别边缘系统设计及FPGA实现[J].福州大学学报（自然科学版）,2023,51(3):333-339. 被引量：2
5马金龙,于宗光,赵桂林,朱岱寅.一种适用于反熔丝FPGA的高效电荷泵电路[J].半导体技术,2023,48(5):397-402.
6郭向东.初中英语阅读教学路径分析[J].试题与研究,2023(11):22-24.
7张帆(翻译).绿色村庄印度尼西亚巴厘岛[J].建筑创作,2022(6):82-143.
8张泽宇,李杰,胡陈君,孙宁,宋金昊.多量程弹道测量系统设计与标定方法[J].传感器与微系统,2023,42(6):104-107.
9魏定进.面向智能制造的商用汽车发动机装配线平衡优化实验研究[J].自动化应用,2023,64(7):26-29. 被引量：1
10罗鹏,张清亮,王轲,丁祝顺.结合Kalman滤波的改进MOSSE跟踪算法设计[J].导航与控制,2023,22(1):61-67.

计算机学报

2023年第6期

浏览历史

内容加载中请稍等...

UltraAcc:基于FPGA流水架构的低功耗高性能CNN加速器定制设计被引量：1

参考文献3

二级参考文献10

共引文献104

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

UltraAcc:基于FPGA流水架构的低功耗高性能CNN加速器定制设计 被引量：1

参考文献3

二级参考文献10

共引文献104

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

UltraAcc:基于FPGA流水架构的低功耗高性能CNN加速器定制设计被引量：1