期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
UltraAcc:基于FPGA流水架构的低功耗高性能CNN加速器定制设计
被引量:
1
1
作者
包振山
郭俊南
+1 位作者
张文博
党鸿博
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第6期1139-1155,共17页
近年来,卷积神经网络(Convolutional Neural Network,CNN)在目标检测、场景分割、图片分类等领域的应用中取得了举世瞩目的成绩,然而随着应用对精度要求的不断提升、模型参数量不断增加、所需计算量不断增大,这使得在“边”“端”侧资...
近年来,卷积神经网络(Convolutional Neural Network,CNN)在目标检测、场景分割、图片分类等领域的应用中取得了举世瞩目的成绩,然而随着应用对精度要求的不断提升、模型参数量不断增加、所需计算量不断增大,这使得在“边”“端”侧资源有限的平台上部署低延时应用极具挑战.虽然采用GPU可以完成CNN模型加速计算的理论验证,但受限于GPU定制改造成本以及其自身功耗,无法在实际低功耗系统中应用.相比而言,作为低功耗高性能系统,FPGA平台具备高性能计算能力以及硬件可重构的特点,适于完成CNN加速.当前利用FPGA可重构性的定制计算技术虽然可整合加速器以应对多变的CNN应用场景,调整加速器结构以适配应用计算保证功耗效率.然而,现有卷积神经网络FPGA加速器的瓶颈在于卷积神经网络算法适配性不佳,由此会导致计算间隙大、时延浪费、计算资源使用率低的问题.本文针对CNN算法因局部参数共享所导致的计算密集的特点,重新组织数据流结构以适应并行运算.针对资源有限制的FPGA板卡,本文自底向上定制了矩阵乘法、卷积计算、池化计算等单元,最终组成Ultra加速器(Ultra Accelerator,UltraAcc);同时,本文设计了评估模型进行超参数调优,从底层单元到计算层单元再到整个计算链都做了对存储资源、计算资源、运行时延的评估,再配合神经网络训练的精度,从而实现在软件硬件两个方面平衡优化整个应用系统.Ultra加速器在Ultra96板卡上平均吞吐量可以达到126.72 GOPs,是IEEE/ACM DAC-SDC’19冠军方法的5.47倍.采用Ultra加速器本团队参与了DAC-SDC’20低功耗目标检测的比赛,最终以精度IoU 0.65、速度FPS 212.73、消耗能量1.64kJ夺得2020年该赛项冠军.
展开更多
关键词
加速器
卷积神经网络
现场可编程门阵列
数据流水技术
软硬件协同
下载PDF
职称材料
题名
UltraAcc:基于FPGA流水架构的低功耗高性能CNN加速器定制设计
被引量:
1
1
作者
包振山
郭俊南
张文博
党鸿博
机构
北京工业大学信息学部
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第6期1139-1155,共17页
基金
国家自然科学基金(62072016)资助。
文摘
近年来,卷积神经网络(Convolutional Neural Network,CNN)在目标检测、场景分割、图片分类等领域的应用中取得了举世瞩目的成绩,然而随着应用对精度要求的不断提升、模型参数量不断增加、所需计算量不断增大,这使得在“边”“端”侧资源有限的平台上部署低延时应用极具挑战.虽然采用GPU可以完成CNN模型加速计算的理论验证,但受限于GPU定制改造成本以及其自身功耗,无法在实际低功耗系统中应用.相比而言,作为低功耗高性能系统,FPGA平台具备高性能计算能力以及硬件可重构的特点,适于完成CNN加速.当前利用FPGA可重构性的定制计算技术虽然可整合加速器以应对多变的CNN应用场景,调整加速器结构以适配应用计算保证功耗效率.然而,现有卷积神经网络FPGA加速器的瓶颈在于卷积神经网络算法适配性不佳,由此会导致计算间隙大、时延浪费、计算资源使用率低的问题.本文针对CNN算法因局部参数共享所导致的计算密集的特点,重新组织数据流结构以适应并行运算.针对资源有限制的FPGA板卡,本文自底向上定制了矩阵乘法、卷积计算、池化计算等单元,最终组成Ultra加速器(Ultra Accelerator,UltraAcc);同时,本文设计了评估模型进行超参数调优,从底层单元到计算层单元再到整个计算链都做了对存储资源、计算资源、运行时延的评估,再配合神经网络训练的精度,从而实现在软件硬件两个方面平衡优化整个应用系统.Ultra加速器在Ultra96板卡上平均吞吐量可以达到126.72 GOPs,是IEEE/ACM DAC-SDC’19冠军方法的5.47倍.采用Ultra加速器本团队参与了DAC-SDC’20低功耗目标检测的比赛,最终以精度IoU 0.65、速度FPS 212.73、消耗能量1.64kJ夺得2020年该赛项冠军.
关键词
加速器
卷积神经网络
现场可编程门阵列
数据流水技术
软硬件协同
Keywords
accelerator
CNN
FPGA
dataflow
hardware-software co-design
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
UltraAcc:基于FPGA流水架构的低功耗高性能CNN加速器定制设计
包振山
郭俊南
张文博
党鸿博
《计算机学报》
EI
CAS
CSCD
北大核心
2023
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部