期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
MRNDA:一种基于资源受限片上网络的深度神经网络加速器组播机制研究
1
作者 欧阳一鸣 王奇 +2 位作者 汤飞扬 周武 李建华 《电子学报》 EI CAS CSCD 北大核心 2024年第3期872-884,共13页
片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访... 片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访问从而减少加速器的分类延迟和功耗.但是,若采用传统的单播NoC,大量的一对多数据包会极大的提高加速器的通信延迟.并且,目前的深度神经网络规模往往非常庞大,而NoC的核心数量是有限的.因此,文中提出了一种针对资源受限的NoC的组播方案.该方案利用有限数量的处理单元(Processor Element,PE)来计算大型的DNN,并且利用特殊的树形组播加速网络来减少加速器的通信延迟.仿真结果表明,和基准情况相比,本文提出的组播机制使加速器的分类延迟最高降低了86.7%,通信延迟最高降低了88.8%,而它的路由器面积和功耗仅占基准路由器的9.5%和10.3%. 展开更多
关键词 片上网络 深度神经网络加速 组播 路由器架构 多物理网络
下载PDF
动态深度神经网络的硬件加速设计及FPGA实现
2
作者 王鹏 任轶群 +1 位作者 范毓洋 张嘉诚 《电讯技术》 北大核心 2024年第3期358-365,共8页
基于现场可编程门阵列(Field Programmable Gate Array,FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提... 基于现场可编程门阵列(Field Programmable Gate Array,FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提出了动态深度神经网络的实现方法。通过引入模型定点压缩技术和并行的卷积分块方法,并结合低延迟的数据调度策略,实现了高效卷积计算。同时对神经网络动态退出机制中引入的交叉熵损失函数,提出便于硬件实现的简化方法,设计专用的加速电路。根据所提方法,在Xilinx xc7z030平台部署了具有动态深度的ResNet110网络,平台最高可完成2.78×104 MOPS(Million Operations per Second)的乘积累加运算,并支持1.25 MOPS的自然指数运算和0.125 MOPS的对数运算,相较于i7-5960x处理器加速比达到287%,相较于NVIDIA TITAN X处理器加速比达到145%。 展开更多
关键词 边缘设备 动态深度神经网络 动态退出机制 硬件加速 加速电路
下载PDF
深度神经网络在线训练硬件加速器的数据量化综述
3
作者 汪航 李宝婷 +3 位作者 张旭翀 李红光 杜明超 孙宏滨 《微电子学与计算机》 2024年第3期1-11,共11页
随着算法和数据的爆炸式增长,深度神经网络(Deep Neural Network, DNN)逐渐在实际应用中扮演愈发重要的角色。然而,真实场景中的数据与线下训练数据之间往往并不满足独立同分布假设,导致预训练DNN模型在实际应用中性能严重下降。所以,... 随着算法和数据的爆炸式增长,深度神经网络(Deep Neural Network, DNN)逐渐在实际应用中扮演愈发重要的角色。然而,真实场景中的数据与线下训练数据之间往往并不满足独立同分布假设,导致预训练DNN模型在实际应用中性能严重下降。所以,在资源供给相对有限的平台上进行DNN模型在线训练成为其有效应用的保证。为了满足真实场景对DNN模型质量与速度的多维度性能要求,如何在保证算法精度的同时显著降低计算复杂度是在此类应用中部署DNN的关键。数据量化是降低计算复杂度的主流优化技术之一,能够通过降低模型参数、中间值等数据的位宽来减少硬件加速器的资源耗费。因此,从软件和硬件两个方面对深度神经网络训练加速器中关于数据量化的研究进行总结。对国内外最新发表的相关文献进行归纳总结。首先,从软件的角度总结了不同的量化方法,包括简单映射数据量化和复杂映射数据量化;其次,从硬件的角度总结了DNN加速器对网络在线训练各计算步骤的量化支持;再次,阐述了数据量化对加速器设计的影响,包括存储单元和计算单元;最后,对本领域的研究进行总结,并展望了未来本领域的发展方向。文章提出的分类方法有助于对之前的DNN加速器在数据量化方面的工作进行分类。 展开更多
关键词 深度神经网络 在线训练 加速 数据量化
下载PDF
基于RISC-Ⅴ的深度可分离卷积神经网络加速器
4
作者 曹希彧 陈鑫 魏同权 《计算机学报》 EI CAS CSCD 北大核心 2024年第11期2536-2551,共16页
人工智能时代,RISC-Ⅴ作为一种新兴的开源精简指令集架构,因其低功耗、模块化、开放性和灵活性等优势,使之成为一种能够适应不断发展的深度学习模型和算法的新平台.但是在硬件资源及功耗受限环境下,基础的RISC-Ⅴ处理器架构无法满足卷... 人工智能时代,RISC-Ⅴ作为一种新兴的开源精简指令集架构,因其低功耗、模块化、开放性和灵活性等优势,使之成为一种能够适应不断发展的深度学习模型和算法的新平台.但是在硬件资源及功耗受限环境下,基础的RISC-Ⅴ处理器架构无法满足卷积神经网络对高性能计算的需求.为了解决这一问题,本文设计了一个基于RISC-Ⅴ的轻量化深度可分离卷积神经网络加速器,旨在弥补RISC-Ⅴ处理器的卷积计算能力的不足.该加速器支持深度可分离卷积中的两个关键算子,即深度卷积和点卷积,并能够通过共享硬件结构提高资源利用效率.深度卷积计算流水线采用了高效的Winograd卷积算法,并使用2×2数据块组合拼接成4×4数据片的方式来减少传输数据冗余.同时,通过拓展RISC-Ⅴ处理器端指令,使得加速器能够实现更灵活的配置和调用.实验结果表明,相较于基础的RISC-Ⅴ处理器,调用加速器后的点卷积和深度卷积计算取得了显著的加速效果,其中点卷积加速了104.40倍,深度卷积加速了123.63倍.与此同时,加速器的性能功耗比达到了8.7GOPS/W.本文的RISC-Ⅴ处理器结合加速器为资源受限环境下卷积神经网络的部署提供了一个高效可行的选择. 展开更多
关键词 神经网络 深度可分离卷积 RISC-Ⅴ Winograd快速卷积 硬件加速
下载PDF
基于卷积神经网络的荷载大小与位置同步识别
5
作者 翁顺 郭街震 +3 位作者 于虹 陈志丹 颜永逸 赵丹阳 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期110-116,共7页
结构健康监测和状态评估中现有大多数研究均需要精确的荷载作用位置或详细的荷载时程,为了同时获得荷载大小和位置,构建并训练了同时具备分类和回归能力的两分支卷积神经网络,建立了融合分类问题和回归问题的损失函数,提取结构响应与荷... 结构健康监测和状态评估中现有大多数研究均需要精确的荷载作用位置或详细的荷载时程,为了同时获得荷载大小和位置,构建并训练了同时具备分类和回归能力的两分支卷积神经网络,建立了融合分类问题和回归问题的损失函数,提取结构响应与荷载大小、结构响应与荷载位置间的映射关系.通过数值简支梁算例和三层试验框架验证了该方法识别结构荷载大小和位置的精度.结果表明:噪声条件下数值模型的荷载识别误差在8%以内,荷载位置识别准确率在95%以上;实际结构的荷载识别误差在18%以内,荷载位置识别准确率为100%.两分支卷积神经网络可以很好地同时识别荷载大小和位置. 展开更多
关键词 荷载识别 加速度响应 深度学习 卷积神经网络
下载PDF
基于张量虚拟机的深度神经网络模型加速方法 被引量:1
6
作者 申云飞 申飞 +1 位作者 李芳 张俊 《计算机应用》 CSCD 北大核心 2023年第9期2836-2844,共9页
随着人工智能(AI)技术的蓬勃发展,深度神经网络(DNN)模型被大规模应用到各类移动端与边缘端。然而,边缘端算力低、内存容量小,且实现模型加速需要深入掌握边缘端硬件知识,这增加了模型的部署难度,也限制了模型的推广应用。因此,基于张... 随着人工智能(AI)技术的蓬勃发展,深度神经网络(DNN)模型被大规模应用到各类移动端与边缘端。然而,边缘端算力低、内存容量小,且实现模型加速需要深入掌握边缘端硬件知识,这增加了模型的部署难度,也限制了模型的推广应用。因此,基于张量虚拟机(TVM)提出一种DNN加速与部署方法,从而实现卷积神经网络(CNN)模型在现场可编程门阵列(FPGA)上的加速,并在分心驾驶分类应用场景下验证了所提方法的可行性。通过计算图优化方法减小了模型的访存和计算开销,通过模型量化方法减小了模型尺寸,通过计算图打包方法将卷积计算卸载到FPGA上执行以提高模型推理速度。与微处理器(MPU)相比,所提方法可使ResNet50和ResNet18在MPU+FPGA上的推理时间分别减少88.63%和77.53%;而在AUC(American University in Cairo)数据集上,相较于MPU,两个模型在MPU+FPGA上的top1推理精度仅下降了0.26和0.16个百分点。可见,所提方法可以降低不同模型在FPGA上的部署难度。 展开更多
关键词 张量虚拟机 深度神经网络 现场可编程门阵列 边缘设备 模型部署 模型加速
下载PDF
基于多段插值拟合的深度神经网络非线性层加速方法 被引量:1
7
作者 黄一凡 张欣 +3 位作者 支天 张蕊 张曦珊 周学海 《高技术通讯》 CAS 2023年第3期280-291,共12页
针对传统量化算法无法应用于非线性运算层的问题,本文提出了一种基于多段插值拟合的非线性层加速方法,利用插值表存储插值函数的参数,通过查表来计算得到非线性层的输出结果。使用本方法,可以在对非线性层进行有效加速的同时实现拟合误... 针对传统量化算法无法应用于非线性运算层的问题,本文提出了一种基于多段插值拟合的非线性层加速方法,利用插值表存储插值函数的参数,通过查表来计算得到非线性层的输出结果。使用本方法,可以在对非线性层进行有效加速的同时实现拟合误差可控。此外在硬件部署时,仅需要基础硬件指令支持,在边缘端和服务器都可以部署。实验结果表明,使用本文提出的多段插值方法拟合多种非线性层,可以取得平均1.44倍的加速效果。这种非线性层可以方便快捷地部署在图像分类、自然语言处理和机器翻译等多种任务模型上,并且每个模型对拟合精度有不同需求的情况下,均可以保证推理和训练精度损失小于0.5%。 展开更多
关键词 深度神经网络(DNN) 量化 非线性层加速 多段插值拟合
下载PDF
文本阅读理解的快速多粒度推断深度神经网络
8
作者 王思语 程兵 《智能计算机与应用》 2023年第4期27-32,共6页
机器阅读理解任务(MRC)是自然语言处理领域的重要研究方向,通过深度学习网络来进行机器阅读理解课题研究已成为目前的主流方法。考虑到深度网络中的计算冗余与同质性现象,本文提出了一个快速多粒度推断深度神经网络(FMG)。FMG模型在纵... 机器阅读理解任务(MRC)是自然语言处理领域的重要研究方向,通过深度学习网络来进行机器阅读理解课题研究已成为目前的主流方法。考虑到深度网络中的计算冗余与同质性现象,本文提出了一个快速多粒度推断深度神经网络(FMG)。FMG模型在纵向上以卷积神经网络和注意力机制为基本底层架构,横向上以多粒度的文章文本表征与问题表征分层交互融合,共同实现答案的推断。实验结果表明,多粒度推断机制在提高模型表现上具有一定的有效性,且相比于经典循环神经网络,模型实现了训练速度上的进一步提升。 展开更多
关键词 机器阅读理解 深度学习 多粒度推断 卷积神经网络
下载PDF
深度神经网络模型量化方法综述 被引量:2
9
作者 杨春 张睿尧 +6 位作者 黄泷 遆书童 林金辉 董志伟 陈松路 刘艳 殷绪成 《工程科学学报》 EI CSCD 北大核心 2023年第10期1613-1629,共17页
近年来,利用大型预训练模型来提高深度神经网络在计算机视觉以及自然语言处理等具体任务下的泛化能力和性能,逐渐成为基于深度学习的人工智能技术与应用的发展趋势.虽然这些深度神经网络模型表现优异,但是由于模型的结构复杂、参数量庞... 近年来,利用大型预训练模型来提高深度神经网络在计算机视觉以及自然语言处理等具体任务下的泛化能力和性能,逐渐成为基于深度学习的人工智能技术与应用的发展趋势.虽然这些深度神经网络模型表现优异,但是由于模型的结构复杂、参数量庞大与计算成本极高,使得它们仍然难以被部署在如家电或智能手机等资源受限的边缘及端侧硬件平台上,这很大程度上阻碍了人工智能技术的应用.因此,模型压缩与加速技术一直都是深度神经网络模型大规模商业化应用推广的关键问题之一.当前在多种模型压缩与加速方案中,模型量化是其中主要的有效方法之一.模型量化技术可以通过减少深度神经网络模型参数的位宽和中间过程特征图的位宽,从而达到压缩加速深度神经网络的目的,使量化后的网络能够部署在资源有限的边缘设备上,然而,由于量化会导致信息的大量丢失,如何在保证模型任务精度条件下实现模型量化已经成为热点问题.另外,因硬件设备以及应用场景的不同,模型量化技术已经发展成为一个多分支的研究问题.通过全面地调研不同角度下模型量化相关技术现状,并且深入地总结归纳不同方法的优缺点,可以发现量化技术目前仍然存在的问题,并为未来可能的发展指明方向. 展开更多
关键词 深度神经网络 模型压缩与加速 模型量化 量化感知训练 后训练量化 混合精度量化
下载PDF
面向高能效加速器的二值化神经网络设计和训练方法
10
作者 李佳骏 许浩博 +4 位作者 王郁杰 肖航 王颖 韩银和 李晓维 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2023年第6期961-969,共9页
针对二值化神经网络加速器计算溢出和乘法器依赖的问题,提出一套二值化神经网络设计及其训练方法.首先设计能够模拟溢出的矩阵乘法,保证模型部署后不丢失准确率;然后优化卷积层和激活函数,缓解溢出总量;再设计移位批标准化层,使二值化... 针对二值化神经网络加速器计算溢出和乘法器依赖的问题,提出一套二值化神经网络设计及其训练方法.首先设计能够模拟溢出的矩阵乘法,保证模型部署后不丢失准确率;然后优化卷积层和激活函数,缓解溢出总量;再设计移位批标准化层,使二值化神经网络摆脱对乘法运算的依赖,并有效地降低访存;最后针对改进的模型提出基于溢出启发的协同训练框架,确保模型训练能够收敛.实验结果表明,与10个主流的关键词激活方法相比,在准确率无明显损失的情况下,所提方法使片上计算规模减少超过49.1%,并为加速器带来至少21.0%的速度提升. 展开更多
关键词 二值化神经网络 深度学习 模型训练 神经网络加速
下载PDF
深度神经网络压缩与加速综述 被引量:55
11
作者 纪荣嵘 林绍辉 +2 位作者 晁飞 吴永坚 黄飞跃 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1871-1888,共18页
深度神经网络在人工智能的应用中,包括计算机视觉、语音识别、自然语言处理方面,取得了巨大成功.但这些深度神经网络需要巨大的计算开销和内存存储,阻碍了在资源有限环境下的使用,如移动或嵌入式设备端.为解决此问题,在近年来产生大量... 深度神经网络在人工智能的应用中,包括计算机视觉、语音识别、自然语言处理方面,取得了巨大成功.但这些深度神经网络需要巨大的计算开销和内存存储,阻碍了在资源有限环境下的使用,如移动或嵌入式设备端.为解决此问题,在近年来产生大量关于深度神经网络压缩与加速的研究工作.对现有代表性的深度神经网络压缩与加速方法进行回顾与总结,这些方法包括了参数剪枝、参数共享、低秩分解、紧性滤波设计及知识蒸馏.具体地,将概述一些经典深度神经网络模型,详细描述深度神经网络压缩与加速方法,并强调这些方法的特性及优缺点.此外,总结了深度神经网络压缩与加速的评测方法及广泛使用的数据集,同时讨论分析一些代表性方法的性能表现.最后,根据不同任务的需要,讨论了如何选择不同的压缩与加速方法,并对压缩与加速方法未来发展趋势进行展望. 展开更多
关键词 深度神经网络压缩 深度神经网络加速 参数剪枝 参数共享 低秩分解 知识蒸馏
下载PDF
面向深度神经网络加速芯片的高效硬件优化策略 被引量:4
12
作者 张萌 张经纬 +2 位作者 李国庆 吴瑞霞 曾晓洋 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1510-1517,共8页
轻量级神经网络部署在低功耗平台上的解决方案可有效用于无人机(UAV)检测、自动驾驶等人工智能(AI)、物联网(IOT)领域,但在资源有限情况下,同时兼顾高精度和低延时来构建深度神经网络(DNN)加速器是非常有挑战性的。该文针对此问题提出... 轻量级神经网络部署在低功耗平台上的解决方案可有效用于无人机(UAV)检测、自动驾驶等人工智能(AI)、物联网(IOT)领域,但在资源有限情况下,同时兼顾高精度和低延时来构建深度神经网络(DNN)加速器是非常有挑战性的。该文针对此问题提出一系列高效的硬件优化策略,包括构建可堆叠共享计算引擎(PE)以平衡不同卷积中数据重用和内存访问模式的不一致;提出了可调的循环次数和通道增强方法,有效扩展加速器与外部存储器之间的访问带宽,提高DNN浅层网络计算效率;优化了预加载工作流,从整体上提高了异构系统的并行度。经Xilinx Ultra96 V2板卡验证,该文的硬件优化策略有效地改进了iSmart3-SkyNet和SkrSkr-SkyNet类的DNN加速芯片设计。结果显示,优化后的加速器每秒处理78.576帧图像,每幅图像的功耗为0.068 J。 展开更多
关键词 深度神经网络 目标检测 神经网络加速 低功耗 硬件优化
下载PDF
基于RISC-V的神经网络加速器硬件实现 被引量:1
13
作者 鞠虎 高营 +1 位作者 田青 周颖 《电子与封装》 2023年第2期68-73,共6页
针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(SoC)架构。采用开源项目搭建So C架构;基... 针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(SoC)架构。采用开源项目搭建So C架构;基于可变张量加速器(VTA)架构,完成深度神经网络加速器指令集设计;通过高级可扩展接口(AXI)连接处理器与VTA,并采用共享内存的方式进行数据传输;基于深度学习编译栈实现卷积运算和神经网络部署。试验结果表明,所设计的架构可灵活实现多种主流的深度神经网络推理任务,乘法累加单元(MAC)数目可以达到1024,量化长度为有符号8位整数(INT8),编译栈支持主流神经网络编译,实现了修正后的ZFNet和ResNet20神经网络图像分类演示,在现场可编程逻辑门阵列(FPGA)电路上整体准确率分别达到78.95%和84.81%。 展开更多
关键词 RISC-V 神经网络 可变张量加速 通用矩阵乘 深度学习编译器
下载PDF
基于国产众核处理器的深度神经网络算子加速库优化 被引量:5
14
作者 高捷 刘沙 +3 位作者 黄则强 郑天宇 刘鑫 漆锋滨 《计算机科学》 CSCD 北大核心 2022年第5期355-362,共8页
基于不同硬件设备的算子加速库已经成为深度学习框架不可或缺的一部分,能够为大规模训练或者推理任务提供数倍的性能加速。当前的主流算子库都是基于GPU架构开发的,与其他异构设计并不兼容;SWDNN算子库是基于申威26010开发的,无法充分... 基于不同硬件设备的算子加速库已经成为深度学习框架不可或缺的一部分,能够为大规模训练或者推理任务提供数倍的性能加速。当前的主流算子库都是基于GPU架构开发的,与其他异构设计并不兼容;SWDNN算子库是基于申威26010开发的,无法充分发挥升级后的申威26010 pro处理器的性能,也不能满足当前GPT-3等大型神经网络模型对大容量内存和高访存带宽的需求。文中面向申威26010 pro处理器体系结构的特点和大型神经网络模型的训练需求,提出了基于多核组的三级并行和神经网络算子任务调度方案,在满足大型模型训练内存需求的同时,提高了并行效率和整体计算性能;提出了三级异步流水机制和计算访存重叠的访存优化方法,显著缓解了神经网络算子的访存性能瓶颈。基于以上方法,文中构建了基于申威26010 pro处理器的SWTensor多核组算子加速库,在自然语言处理模型GPT-2上进行了实验,结果表明,其典型计算密集型算子和访存密集型算子在单精度浮点计算性能和访存带宽上分别达到了理论峰值的90.4%和88.7%。 展开更多
关键词 深度神经网络 算子加速 负载均衡 异步流水 双缓冲
下载PDF
一种高性能可重构深度卷积神经网络加速器 被引量:6
15
作者 乔瑞秀 陈刚 +1 位作者 龚国良 鲁华祥 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第3期130-139,共10页
由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应... 由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应对不同通道规模。设计了3种卷积计算映射,可以应对不同卷积核大小;实现了局部存储区数据的高效复用,可大量减少数据搬移,提高了计算性能。分别以目标分类和目标检测网络进行测试,该加速器的计算性能分别达498.6×10^9次/秒和571.3×10^9次/秒;能效分别为582.0×10^9次/(秒·瓦)和651.7×10^9次/(秒·瓦)。 展开更多
关键词 深度神经网络 加速 可重构结构 高性能 超大规模集成电路
下载PDF
深度神经网络压缩与加速综述 被引量:13
16
作者 曾焕强 胡浩麟 +2 位作者 林向伟 侯军辉 蔡灿辉 《信号处理》 CSCD 北大核心 2022年第1期183-194,共12页
近年来,随着图形处理器性能的飞速提升,深度神经网络取得了巨大的发展成就,在许多人工智能任务中屡创佳绩。然而,主流的深度学习网络模型由于存在计算复杂度高、内存占用较大、耗时长等缺陷,难以部署在计算资源受限的移动设备或时延要... 近年来,随着图形处理器性能的飞速提升,深度神经网络取得了巨大的发展成就,在许多人工智能任务中屡创佳绩。然而,主流的深度学习网络模型由于存在计算复杂度高、内存占用较大、耗时长等缺陷,难以部署在计算资源受限的移动设备或时延要求严格的应用中。因此,在不显著影响模型精度的前提下,通过对深度神经网络进行压缩和加速来轻量化模型逐渐引起研究者们的重视。本文回顾了近年来的深度神经网络压缩和加速技术。这些技术分为四类:参数量化、模型剪枝、轻量型卷积核设计和知识蒸馏。对于每个技术类别,本文首先分析了各自的性能及存在的缺陷。另外,本文总结了模型压缩与加速的性能评估方法。最后,讨论了模型压缩与加速领域存在的挑战和未来研究的可能方向。 展开更多
关键词 深度神经网络压缩与加速 深度学习 模型剪枝 知识蒸馏 参数量化
下载PDF
FPGA加速器深度卷积神经网络优化计算方法 被引量:2
17
作者 梁修壮 倪伟 《计算机仿真》 北大核心 2022年第5期314-318,共5页
传统方法在进行深度卷积神经网络优化时,存在计算能力能力不佳、加速器加速效果不明显的问题。为此设计一种FPGA加速器深度卷积神经网络优化计算方法。通过AlexNet模型分析深度卷积神经网络结构,确定深度卷积神经网络参数;引入FPGA设计... 传统方法在进行深度卷积神经网络优化时,存在计算能力能力不佳、加速器加速效果不明显的问题。为此设计一种FPGA加速器深度卷积神经网络优化计算方法。通过AlexNet模型分析深度卷积神经网络结构,确定深度卷积神经网络参数;引入FPGA设计加速器,利用拆分计算实现更细粒度卷积分解的并行计算;通过流水线处理计算所有的卷积层,分别对卷积计算模块中的卷积处理单元、线性缓存单元、池化单元与激活单元进行优化加速处理,提升FPGA加速器的卷积计算速度,利用FPGA加速器实现优化计算。实验结果表明,设计的方法能够有效提升加速效果,降低资源消耗率,MAC效率较高,适合大力推广使用。 展开更多
关键词 加速 深度卷积神经网络 拆分计算
下载PDF
基于ZYNQ的深度学习卷积神经网络加速平台设计 被引量:3
18
作者 刘之禹 李述 王英鹤 《计算机测量与控制》 2022年第12期264-269,共6页
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习... 针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习加速器的平台采用ZYNQ系列的ZCU104开发板,采用软硬件协同设计的思想,将开源的英伟达深度学习加速器(NVDLA)映射到可编程逻辑门阵列(FPGA)上,与ARM处理器构成SoC系统;NVDLA整体架构规范,包含软硬件设计,采用Tengine工具链代替原来官方的编译工具链;之后在搭建好的NVDLA平台上实现lenet-5和resnet-18的网络加速,完成了mnist和cifar-10的数据集图像分类任务;实验结果表明,采用Tengine工具链要比NVDLA官方的编译工具链推理速度快2.5倍,并且量化工具使用方便,网络模型部署高效。 展开更多
关键词 深度学习加速 NVDLA 卷积神经网络 FPGA 硬件加速
下载PDF
卷积神经网络的FPGA并行加速方案设计 被引量:27
19
作者 方睿 刘加贺 +1 位作者 薛志辉 杨广文 《计算机工程与应用》 CSCD 北大核心 2015年第8期32-36,共5页
根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网... 根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。 展开更多
关键词 卷积神经网络 现场可编程门阵列(FPGA) 深度流水 加速
下载PDF
基于FPGA的卷积神经网络硬件加速器设计 被引量:16
20
作者 秦华标 曹钦平 《电子与信息学报》 EI CSCD 北大核心 2019年第11期2599-2605,共7页
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以... 针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。 展开更多
关键词 卷积神经网络 硬件加速 现场可编程逻辑门阵列 计算并行 深度流水
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部