期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于卷积网络加速器的FPGA数据处理研究 被引量:1
1
作者 李政清 穆继亮 《计算机仿真》 北大核心 2022年第3期244-248,共5页
在FPGA数据处理应用场合中,引入神经网络能够提高数据特征的学习能力。但是基于非嵌入式的神经网络在运算过程中通常具有显著的复杂性和稀疏性,难以直接应用于FPGA上。于是,为了提高FPGA在数据处理时的并行性和高效性,设计了基于卷积网... 在FPGA数据处理应用场合中,引入神经网络能够提高数据特征的学习能力。但是基于非嵌入式的神经网络在运算过程中通常具有显著的复杂性和稀疏性,难以直接应用于FPGA上。于是,为了提高FPGA在数据处理时的并行性和高效性,设计了基于卷积网络加速器的FPGA数据处理架构。首先对卷积网络的层进行优化设计,采用ReLU函数来加速卷积层的收敛,同时采用平均池化方案增强网络适应性,通过卷积的尺度变换对特征图采取压缩,达到在一个层中并行计算的目的。然后对FPGA的处理模块和缓存模块进行优化设计,判定器对有效数据的权值索引和计数等参数采取验证,将大量的乘加操作递交给FPGA的DSP来处理;对特征图及其中间变量采取BRAM缓存,根据横向、纵向,以及深度分别采取分配。最后,对加速器执行过程中FPGA的资源利用和执行时间进行分析,通过资源和时间因素对加速器执行过程采取调整。实验结果表明,基于卷积网络加速器的FPGA数据处理方案提高了FPGA的资源利用率和有效算力,无论是在不同平台或是不同加速器的对比情况下,都能够获得更为优秀的数据处理性能。 展开更多
关键词 卷积网络加速器 特征权值 并行计算 数据处理
下载PDF
基于FPGA的卷积神经网络硬件加速器设计空间探索研究 被引量:2
2
作者 郭谦 贺光辉 《微电子学与计算机》 北大核心 2020年第8期66-71,共6页
为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调B... 为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调BRAM和DDR带宽资源;3)利用深度可分解卷积替换部分卷积层,减少网络整体计算量.为了验证提出的设计空间探索方法,在ZC-706FPGA上实现了YOLO2-tiny网络,结果表明与同类设计相比,本设计的吞吐率与能效比高,整体延时低. 展开更多
关键词 卷积神经网络硬件加速器 设计空间探索 细粒度流水线
下载PDF
基于帧间相似性的目标检测FPGA加速器设计
3
作者 李晟召 王琴 《计算机工程与设计》 北大核心 2023年第6期1885-1892,共8页
为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷... 为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷积算法增加并行计算资源的利用效率。实验结果表明,加速器算力约为238 GOP/s,增量计算以及快速卷积算法为加速器分别提供1.31倍与2.11倍的加速比,相较于同类网络加速器,DSP效率上有1.90倍到5.43倍的提升。 展开更多
关键词 卷积网络加速器 视频目标检测 连续输入相似性 并行计算 增量计算 快速卷积算法 高计算资源效率
下载PDF
面向舰船检测的神经网络加速器设计
4
作者 肖奇 程利甫 +2 位作者 蒋仁兴 柳宜川 王琴 《制导与引信》 2020年第3期11-17,45,共8页
针对卫星遥感图像的舰船目标检测需求,设计了基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的卷积神经网络(Convolution Neural Network,CNN)加速器。运算单元采用多层次并行化结构,底层采用乘法器级并行结构,使用行缓存... 针对卫星遥感图像的舰船目标检测需求,设计了基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的卷积神经网络(Convolution Neural Network,CNN)加速器。运算单元采用多层次并行化结构,底层采用乘法器级并行结构,使用行缓存单元优化数据流;顶层采用模块级并行结构,可灵活调整输出通道的并行度。针对片外数据访问延时高的问题,提出了基于FPGA块随机存储器(Block Random Access Memory,BRAM)的阵列式片上数据缓存单元,保证数据的实时读取和数据流的灵活分配。实验结果表明:加速器移植到Xilinx KC705开发平台,工作频率达100 MHz,平均吞吐率为217 GOPS,能效比为86.8 GOPS/W,对连续遥感舰船图像的检测速率可达105帧/秒。 展开更多
关键词 舰船目标检测 卷积神经网络加速器 现场可编程门阵列 并行计算
下载PDF
基于BP算法的片上学习CNN硬件加速器 被引量:2
5
作者 王飞 张多利 +2 位作者 汪杨 王泽中 宋宇鲲 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第8期1059-1064,共6页
为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交... 为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交互,提高CNN运算的并行度,提升训练和推理过程的效率。该架构包含1组二维运算阵列和激活函数运算模块,以及相应的数据分配器和指令存储器;以1个16单元的CNN加速器设计为例,验证了所设计CNN加速器架构运行多种CNN模型时的性能和运算准确性。实验结果表明,文中提出的加速器架构与Intel9400F CPU相比,最大误差为8.0437×10^(-6),识别精度下降0.63%,运行速度提高7.67倍。 展开更多
关键词 卷积神经网络(CNN)加速器 片上学习 现场可编程门阵列(FPGA) TOEPLITZ矩阵
下载PDF
相变材料辅助的光子卷积神经网络加速器 被引量:1
6
作者 郭鹏星 刘志远 +1 位作者 侯维刚 郭磊 《光学学报》 EI CAS CSCD 北大核心 2023年第4期128-137,共10页
由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的... 由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的需求。作为一种替代方案,提出了一种低能耗存算一体光子CNN加速器结构。该结构采用微环谐振器和非易失性相变材料Ge_(2)Sb_(2)Te_(5)构成无源光学矩阵乘法器来实现存内计算,从而减小了权重数据读取的能耗。利用Ansys Lumerical仿真平台验证了10 Gb/s与20 Gb/s速率下4×4规模的光学矩阵乘法的运算。与传统的基于电光微环谐振器的光子CNN加速器数字电子与模拟光子(DEAP)相比,所提加速器结构在保持原运算速率的情况下减少了48.75%的功耗,并且在矩阵运算处的面积能够减少49.75%。此外,基于MNIST与notMNIST数据集对所提加速器的推理效果进行了仿真验证,识别精度分别为97.80%和92.45%。 展开更多
关键词 机器视觉 光子卷积神经网络加速器 微环谐振器 相变材料 存算一体
原文传递
面向混合量化CNNs的可重构处理器设计 被引量:1
7
作者 常立博 张盛兵 《西北工业大学学报》 EI CAS CSCD 北大核心 2022年第2期344-351,共8页
为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,... 为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,采用了可根据CNN模型结构的重构多核结构以提高计算资源利用率,采用弹性存储结构以及基于Tile的动态缓存划分策略以提高片上数据复用率,采用可有效表达混合精度CNN模型计算和可重构处理器特性的宏数据流指令集以降低映射策略的复杂度。在Ultra96-V2平台上实现VGG-16和ResNet-50的计算性能达到216.6和214 GOPS,计算效率达到0.63和0.64 GOPS/DSP。同时,在ZCU102平台上实现ResNet-50的计算性能可达931.8 GOPS,计算效率可达0.40 GOPS/DSP,相较于其他类似CNN加速器,计算性能和计算效率分别提高了55.4%和100%。 展开更多
关键词 混合精度量化 卷积神经网络加速器 可重构计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部