期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架
被引量:
2
1
作者
谢坤鹏
仪德智
+4 位作者
刘义情
刘航
赫鑫宇
龚成
卢冶
《计算机研究与发展》
EI
CSCD
北大核心
2023年第5期1053-1072,共20页
传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(...
传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network, SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-CNN加速器可分别实现76.3GOPS与494.3GOPS的计算性能.与多核CPU相比,SAF-CNN在进行SSD_MobileNetV1目标模型检测时,可实现3.5倍与2.2倍的性能提升,模型推理速度高达26.5fps.
展开更多
关键词
卷积神经网络
模型压缩
计算图
加速器设计
推理框架
下载PDF
职称材料
爸爸戒烟
2
作者
仪德智
王月春
《小学生阅读与写作(五年级版)》
2011年第5期1-2,共2页
爸爸开始戒烟。起初,他闻着空烟盒勉强过得去。后来,烟瘾犯了,他只好大口喝水。妈妈见他实在可怜,从烟盒抽出一支烟递给他。爸爸眼睛一亮,刚要去接,又把手缩回去,装着毫不在乎地说:
关键词
戒烟
烟盒
烟瘾
原文传递
题名
SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架
被引量:
2
1
作者
谢坤鹏
仪德智
刘义情
刘航
赫鑫宇
龚成
卢冶
机构
南开大学计算机学院
南开大学网络空间安全学院
南开大学软件学院
天津市网络与数据安全技术重点实验室(南开大学)
处理器芯片全国重点实验室(中国科学院计算技术研究所)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第5期1053-1072,共20页
基金
国家自然科学基金项目(62002175)
计算机体系结构国家重点实验室(中国科学院计算技术研究所)开放课题(CARCHB202016)
+2 种基金
天津市企业优秀科技特派员项目(21YDTPJC00380)
中国民航大学信息安全测评中心开放基金项目(ISECCA-202102)
CCF-华为胡杨林基金项目(CCF-HuaweiTC2022005)。
文摘
传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network, SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-CNN加速器可分别实现76.3GOPS与494.3GOPS的计算性能.与多核CPU相比,SAF-CNN在进行SSD_MobileNetV1目标模型检测时,可实现3.5倍与2.2倍的性能提升,模型推理速度高达26.5fps.
关键词
卷积神经网络
模型压缩
计算图
加速器设计
推理框架
Keywords
convolutional neural network
model compression
computational graph
accelerator design
inference framework
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
爸爸戒烟
2
作者
仪德智
王月春
机构
和龙市文化小学五年(
出处
《小学生阅读与写作(五年级版)》
2011年第5期1-2,共2页
文摘
爸爸开始戒烟。起初,他闻着空烟盒勉强过得去。后来,烟瘾犯了,他只好大口喝水。妈妈见他实在可怜,从烟盒抽出一支烟递给他。爸爸眼睛一亮,刚要去接,又把手缩回去,装着毫不在乎地说:
关键词
戒烟
烟盒
烟瘾
分类号
F713.8 [经济管理—广告]
原文传递
题名
作者
出处
发文年
被引量
操作
1
SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架
谢坤鹏
仪德智
刘义情
刘航
赫鑫宇
龚成
卢冶
《计算机研究与发展》
EI
CSCD
北大核心
2023
2
下载PDF
职称材料
2
爸爸戒烟
仪德智
王月春
《小学生阅读与写作(五年级版)》
2011
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部