期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
申威26010众核处理器上Winograd卷积算法的研究与优化
1
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 winograd卷积 高性能计算 并行算法 申威处理器
下载PDF
基于FPGA的Winograd算法卷积神经网络加速器设计与实现
2
作者 牛朝旭 孙海江 《液晶与显示》 CAS CSCD 北大核心 2023年第11期1521-1530,共10页
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传... 为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。 展开更多
关键词 卷积神经网络 现场可编程门阵列 winograd算法 流水线 并行计算
下载PDF
Design and Optimization of Winograd Convolution on Array Accelerator 被引量:1
3
作者 Ji Lai Lixin Yang +4 位作者 Dejian Li Chongfei Shen Xi Feng Jizeng Wei Yu Liu 《Journal of Beijing Institute of Technology》 EI CAS 2023年第1期69-81,共13页
With the rapid development and popularization of artificial intelligence technology,convolutional neural network(CNN)is applied in many fields,and begins to replace most traditional algorithms and gradually deploys to... With the rapid development and popularization of artificial intelligence technology,convolutional neural network(CNN)is applied in many fields,and begins to replace most traditional algorithms and gradually deploys to terminal devices.However,the huge data movement and computational complexity of CNN bring huge power consumption and performance challenges to the hardware,which hinders the application of CNN in embedded devices such as smartphones and smart cars.This paper implements a convolutional neural network accelerator based on Winograd convolution algorithm on field-programmable gate array(FPGA).Firstly,a convolution kernel decomposition method for Winograd convolution is proposed.The convolution kernel larger than 3×3 is divided into multiple 3×3 convolution kernels for convolution operation,and the unsynchronized long convolution operation is processed.Then,we design Winograd convolution array and use configurable multiplier to flexibly realize multiplication for data with different accuracy.Experimental results on VGG16 and AlexNet network show that our accelerator has the most energy efficient and 101 times that of the CPU,5.8 times that of the GPU.At the same time,it has higher energy efficiency than other convolutional neural network accelerators. 展开更多
关键词 convolutional neural network winograd convolution algorithm ACCELERATOR
下载PDF
基于Winograd算法的高效神经网络加速器及FPGA实现
4
作者 王帅帅 陈强 +1 位作者 郭剑博 肖昊 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第12期1659-1665,共7页
为了加速卷积神经网络(convolutional neural networks,CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array,FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单... 为了加速卷积神经网络(convolutional neural networks,CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array,FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单元(digital signal processing,DSP)位宽失配问题,文章提出部分积切割方法,充分利用DSP实现单周期多输出功能;为降低片上内存占用率,设计一种输入特征图可复用的数据流完成片内外数据交互。所设计的加速器在XCKU060板卡上部署,其吞吐率和每个DSP运算效率分别达2.358×10^(12)OPs和1.15×10^(9)OPs。结果表明该文提出的加速方法有效提升CNN加速器运算单元效率。 展开更多
关键词 卷积神经网络(CNN) winograd算法 现场可编程门阵列(FPGA) 处理单元 并行架构
下载PDF
基于张量虚拟机的快速卷积自动性能优化
5
作者 陈疆 朱泓霖 +1 位作者 孟金涛 魏彦杰 《集成技术》 2024年第5期3-18,共16页
卷积神经网络作为深度学习的典型代表,是计算机视觉等任务中最常用的神经网络,然而,卷积运算通常占整个卷积神经网络运行时的90%以上,成为卷积神经网络的性能瓶颈。此外,由于当下硬件的复杂性及工作负载的多样性,之前工作中的一些特定... 卷积神经网络作为深度学习的典型代表,是计算机视觉等任务中最常用的神经网络,然而,卷积运算通常占整个卷积神经网络运行时的90%以上,成为卷积神经网络的性能瓶颈。此外,由于当下硬件的复杂性及工作负载的多样性,之前工作中的一些特定优化往往缺乏性能可移植性。对此,作者提出BlazerML,一个基于张量虚拟机(TVM)模板代码自动生成的开源卷积计算库,可为任何输入形状自动生成高性能的卷积实现。BlazerML是基于Winograd算法实现的,因为该算法是快速卷积算法中性能最高的算法。实验结果表明:BlazerML显著优于当下最先进的开源库。在x86 CPU上运行常见的深度学习网络前向推理分别比OnnxRuntime、MNN和TVM社区版本快1.18~2.47倍、1.18~2.27倍和1.01~1.66倍。在ARMCPU上运行常见深度学习网络的单层推理分别比ACL和FastConv快1.26~6.11倍、1.04~4.28倍。 展开更多
关键词 深度学习 卷积神经网络 快速卷积算法 winograd算法 TVM 自动性能优化
下载PDF
基于Winograd算法的目标检测加速器设计与优化 被引量:1
6
作者 李斌 齐延荣 周清雷 《电子学报》 EI CAS CSCD 北大核心 2022年第10期2387-2397,共11页
卷积神经网络(Convolutional Neural Networks,CNN)已被广泛应用于图像处理领域.基于CNN的目标检测模型,如YOLO,已被证明在许多应用中是最先进的.CNN对计算能力和内存带宽要求极高,通常需要部署到专用硬件平台,FPGA因其高性能、低功耗... 卷积神经网络(Convolutional Neural Networks,CNN)已被广泛应用于图像处理领域.基于CNN的目标检测模型,如YOLO,已被证明在许多应用中是最先进的.CNN对计算能力和内存带宽要求极高,通常需要部署到专用硬件平台,FPGA因其高性能、低功耗和可重配置性成为CNN的有效硬件加速器.以往的基于FPGA的目标检测加速器主要采用传统卷积算法,然而,传统卷积算法的高运算复杂度限制了加速器的性能.基于此,本文设计了一种基于Winograd算法的目标检测加速器.考虑到各模块间的联系,采用模块融合策略融合卷积层和池化层模块,降低数据移动次数,减少片外存储器访问次数,提高加速器整体性能.以YOLO2模型为例,对数据访问模式、池化内核、参数重排序、数据通路优化进行分析设计,并部署在U280板卡上.实验结果表明,量化后mAP降低了0.96%,性能达249.65 GOP/s,是Xilinx官网所给数据的4.4倍. 展开更多
关键词 目标检测 FPGA winograd算法 模块融合 YOLO2
下载PDF
Winograd矩阵乘法算法用于任意阶矩阵时的一种新处理方法 被引量:4
7
作者 谭福平 刘洪刚 《应用数学与计算数学学报》 2004年第1期92-96,共5页
摘要t矩阵乘法StraSsen算法及其变形winograd算法用分而治之的方法把矩阵乘法时间复杂性由传统的D(n。)改进到0(佗kg。n.但是对于奇数阶矩阵,在划分子矩阵时,要作特殊处理才能继续使用此算法.本文提出了一种非等阶“十”字架划分方法,... 摘要t矩阵乘法StraSsen算法及其变形winograd算法用分而治之的方法把矩阵乘法时间复杂性由传统的D(n。)改进到0(佗kg。n.但是对于奇数阶矩阵,在划分子矩阵时,要作特殊处理才能继续使用此算法.本文提出了一种非等阶“十”字架划分方法,可以最少化填零,最大化性能,使得奇数阶矩阵乘法的时间复杂性更加接近偶数阶矩阵乘法的效果.计算实例显示该方法是有效的. 展开更多
关键词 矩阵乘法 winograd算法 Strassen算法 非等阶划分
下载PDF
基于SVD-Winograd快速变换的半盲水印算法 被引量:1
8
作者 裴小根 马磊 +1 位作者 刘江 燕明 《计算机应用》 CSCD 北大核心 2010年第8期2164-2166,共3页
目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,针对这一问题提出了一种基于奇异值分解与Winograd快速傅里叶变换相结合的半盲水印算法。在奇异值分解过程中,先将奇异值... 目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,针对这一问题提出了一种基于奇异值分解与Winograd快速傅里叶变换相结合的半盲水印算法。在奇异值分解过程中,先将奇异值分解的对角矩阵与Winograd快速傅里叶变换中分解的对角阵进行矩阵相与,产生一新对角矩阵。再将数字水印嵌入到新对角矩阵中,最后通过相关运算提取水印。实验结果表明,该方法可获得较好的图像视觉效果,对剪切、噪声、旋转等攻击皆具有较好的鲁棒性。 展开更多
关键词 奇异值分解 winograd快速变换 半盲水印算法
下载PDF
一种有效的Winograd付里叶变换并行算法
9
作者 顾卫刚 张德富 沈守声 《电子学报》 EI CAS CSCD 北大核心 1992年第2期46-50,共5页
本文提出一种有效的Winograd付里叶变换并行算法,该算法具有处理器间负载平衡,并行计算效率高等特点。
关键词 并行算法 付里叶变换 负载平衡
下载PDF
WinoNet:Reconfigurable look-up table-based Winograd accelerator for arbitrary precision convolutional neural network inference
10
作者 Wang Chengcheng Li He +3 位作者 Cao Yanpeng Song Changjun Yu Feng Tang Yongming 《Journal of Southeast University(English Edition)》 EI CAS 2022年第4期332-339,共8页
To solve the hardware deployment problem caused by the vast demanding computational complexity of convolutional layers and limited hardware resources for the hardware network inference,a look-up table(LUT)-based convo... To solve the hardware deployment problem caused by the vast demanding computational complexity of convolutional layers and limited hardware resources for the hardware network inference,a look-up table(LUT)-based convolution architecture built on a field-programmable gate array using integer multipliers and addition trees is used.With the help of the Winograd algorithm,the optimization of convolution and multiplication is realized to reduce the computational complexity.The LUT-based operator is further optimized to construct a processing unit(PE).Simultaneously optimized storage streams improve memory access efficiency and solve bandwidth constraints.The data toggle rate is reduced to optimize power consumption.The experimental results show that the use of the Winograd algorithm to build basic processing units can significantly reduce the number of multipliers and achieve hardware deployment acceleration,while the time-division multiplexing of processing units improves resource utilization.Under this experimental condition,compared with the traditional convolution method,the architecture optimizes computing resources by 2.25 times and improves the peak throughput by 19.3 times.The LUT-based Winograd accelerator can effectively solve the deployment problem caused by limited hardware resources. 展开更多
关键词 quantized neural networks look-up table(LUT)-based multiplier winograd algorithm arbitrary precision
下载PDF
面向飞腾多核处理器的Winograd快速卷积算法优化 被引量:9
11
作者 王庆林 李东升 +2 位作者 梅松竹 赖志权 窦勇 《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1140-1151,共12页
随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能... 随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05~16.11倍与1.66~16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01~6.79倍的性能加速. 展开更多
关键词 多核CPU 深度学习 卷积神经网络 winograd算法 并行算法
下载PDF
基于DCT-Winograd快速变换的半盲水印算法
12
作者 郭宗良 裴小根 +2 位作者 徐才云 田靖 常燕 《微型机与应用》 2011年第10期51-53,共3页
针对目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,提出了一种基于离散余弦变换与Winograd快速傅里叶变换相结合的半盲水印算法,将Winograd算法分解的对角矩阵与经过DCT... 针对目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,提出了一种基于离散余弦变换与Winograd快速傅里叶变换相结合的半盲水印算法,将Winograd算法分解的对角矩阵与经过DCT变换的图像块相与,产生一个新的对角矩阵,再将数字水印嵌入到该对角矩阵中,最后通过相关逆运算提取水印。实验结果表明,该方法可获得较好的图像视觉效果,对剪切、噪声等攻击皆具有较好的鲁棒性。 展开更多
关键词 离散余弦变换 winograd快速变换 半盲水印算法
下载PDF
基于Winograd稀疏算法的卷积神经网络加速器设计与研究 被引量:1
13
作者 徐睿 马胜 +2 位作者 郭阳 黄友 李艺煌 《计算机工程与科学》 CSCD 北大核心 2019年第9期1557-1566,共10页
随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新... 随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。 展开更多
关键词 卷积神经网络 加速器 winograd算法 稀疏网络
下载PDF
基于二维Winograd算法的深流水线5×5卷积方法 被引量:1
14
作者 黄程程 董霄霄 李钊 《计算机应用》 CSCD 北大核心 2021年第8期2258-2264,共7页
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分... 针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。 展开更多
关键词 卷积神经网络 现场可编程逻辑门阵列 winograd算法 双缓冲区 深流水线
下载PDF
基于3D-Winograd的快速卷积算法设计及FPGA实现 被引量:1
15
作者 林珂玉 姜宏旭 +1 位作者 张永华 丛容子 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第9期1900-1907,共8页
近年来,卷积神经网络(CNN)已被计算机视觉任务广泛采用。由于FPGA的高性能、能效和可重新配置性,已被认为是最有前途的CNN硬件加速器,但是受FPGA计算能力、存储资源的限制,基于传统Winograd算法计算三维卷积的FPGA解决方案性能还有提升... 近年来,卷积神经网络(CNN)已被计算机视觉任务广泛采用。由于FPGA的高性能、能效和可重新配置性,已被认为是最有前途的CNN硬件加速器,但是受FPGA计算能力、存储资源的限制,基于传统Winograd算法计算三维卷积的FPGA解决方案性能还有提升的空间。首先,研究了适用于三维运算的Winograd算法一维展开过程;然后,通过增加一次性输入特征图和卷积块的维度大小、低比特量化权重和输入数据等方法改善CNN在FPGA上的运行性能。优化思路包括使用移位代替部分除法的方法、分tile方案、二维到三维扩展及低比特量化等4个部分。相对传统的二维Winograd算法,优化算法每个卷积层的时钟周期数减少了7倍左右,相较传统滑窗卷积算法平均每个卷积层减少7倍左右。通过研究,证明了基于一维展开的3D-Winograd算法可以大大减少运算复杂度,并改善在FPGA运行CNN的性能。 展开更多
关键词 卷积神经网络(CNN) FPGA winograd 卷积算法 快速算法
下载PDF
Winograd快速卷积相关研究综述 被引量:2
16
作者 童敢 黄立波 《计算机科学与探索》 CSCD 北大核心 2022年第5期959-971,共13页
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操... 卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选。但目前相关工作聚焦于算法的一般化、拓展和各类体系结构上的实现,还没有研究者对Winograd卷积算法作系统性的总结。为了给后续研究者提供详细的参考依据,对Winograd卷积引入以来的相关工作进行了总结。首先阐述了Winograd最小滤波算法及Winograd卷积的引入,介绍了Winograd卷积的一般化与拓展,并对比了现有实现之间的差异;从稀疏剪枝、低精度与量化、数值稳定性这三方面介绍了Winograd卷积的优化工作,并详细介绍了相关具体方法的优缺点;对各类体系结构上的实现和优化进行了分类总结,比较了各平台上实现可用的通用优化方法,并介绍了Winograd卷积的实际应用;最后对内容进行了简要总结,分析了现有研究的局限性,并对未来可能的方向进行了初步展望。 展开更多
关键词 winograd卷积 快速卷积算法 卷积神经网络(CNN) 卷积优化
下载PDF
使用Winograd算法实现不规则长度DFT——在多载波调制系统(OFDM)中不规则长度FFT的一种实现方法 被引量:1
17
作者 严砚飞 杜伟韬 杨占昕 《中国传媒大学学报(自然科学版)》 2007年第2期39-43,9,共6页
本文结合FFT在多载波调制系统(OFDM)中的应用,介绍了改进大素数Winograd FFT算法,并通过与传统Winograd FFT、DFT的性能比较,论述了本算法的研究意义;介绍了二维卷积算法Agarwal-Cooley、包括中国余数定理、小点数的Winograd卷积算法和... 本文结合FFT在多载波调制系统(OFDM)中的应用,介绍了改进大素数Winograd FFT算法,并通过与传统Winograd FFT、DFT的性能比较,论述了本算法的研究意义;介绍了二维卷积算法Agarwal-Cooley、包括中国余数定理、小点数的Winograd卷积算法和克罗内克积;在介绍算法的同时穿插11点FFT的推导,先计算2点和5点Winograd卷积,之后得到10点卷积,最后得出11点FFT。 展开更多
关键词 OFDM winograd FFT Agarwal—Cooley卷积算法 中国余数定理 克罗内克积 Reader算法
下载PDF
CNN景象匹配算法的加速设计与FPGA实现
18
作者 王晓峰 李超然 +4 位作者 路坤锋 栾天娇 姚娜 周辉 谢宇嘉 《计算机科学》 CSCD 北大核心 2023年第11期8-14,共7页
基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计... 基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案。在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案。在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576 GOPS,实际算力达422.08 GOPS,DSP的使用效率达4.5 Ope-ration/clock。加速计算系统的峰值算力达1600 GOPS,将CNN景象匹配算法的吞吐时延降低至157.89 ms。实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算。 展开更多
关键词 加速计算 景象匹配算法 深度学习 FPGA winograd算法 专用加速器
下载PDF
基于帧间数据复用的稀疏CNN加速器设计
19
作者 洪起润 王琴 《计算机工程》 CAS CSCD 北大核心 2023年第12期55-62,70,共9页
卷积神经网络(CNN)被广泛应用于目标检测等任务场景中。然而,传统的CNN加速器只对单帧图像进行加速处理,没有对视频任务中连续帧之间存在的数据冗余特性进行加速处理。目前利用帧间数据复用的CNN加速器存在稀疏度低、模型规模大以及计... 卷积神经网络(CNN)被广泛应用于目标检测等任务场景中。然而,传统的CNN加速器只对单帧图像进行加速处理,没有对视频任务中连续帧之间存在的数据冗余特性进行加速处理。目前利用帧间数据复用的CNN加速器存在稀疏度低、模型规模大以及计算复杂度高的缺点。为解决上述问题,通过可学习步长的低精度量化方法提高差分帧的稀疏度,提出量化因子2的幂次约束实现一个硬件友好的量化方法。使用Winograd算法降低卷积算子的计算复杂度,并在此基础上提出输入通道位图压缩方案,利用激活和权重的稀疏性跳过无效的零值计算。基于YOLOv3-tiny网络,使用ImageNet ILSVRC2015 VID部分数据集和DAC2020数据集,在现场可编程门阵列(FPGA)平台上对所提出的量化方法和稀疏CNN加速器进行验证。实验结果表明,在平均精度均值损失小于2%的条件下,该量化方法实现了4 bit位宽的全整形量化。得益于帧间数据复用,所设计的稀疏加速器实现了814.2×10^(9)operation/s的性能和201.1×10^(9)operation/s/W的能效比,与其他基于FPGA的同类型加速器相比,所设计的加速器提供了1.77~8.99倍的性能提升以及1.91~5.56倍的能效比提升。 展开更多
关键词 卷积神经网络 低精度量化 帧间数据复用 winograd算法 加速器 现场可编程门阵列
下载PDF
基于Cache优化的大点数FFT在TS201上的实现 被引量:8
20
作者 马潇 高立宁 +1 位作者 刘腾飞 金烨 《电子与信息学报》 EI CSCD 北大核心 2013年第7期1774-1778,共5页
该文针对现有大点数快速傅里叶变换(FFT)在TS201处理器上的实现没有充分考虑Cache丢失对执行效率影响的问题,提出了改进型Winograd算法的实现方法。该改进型方法通过优化行列读取方法,最大程度利用Cache的读写特点,避免了三次显性转置;... 该文针对现有大点数快速傅里叶变换(FFT)在TS201处理器上的实现没有充分考虑Cache丢失对执行效率影响的问题,提出了改进型Winograd算法的实现方法。该改进型方法通过优化行列读取方法,最大程度利用Cache的读写特点,避免了三次显性转置;并通过重构蝶形运算,隐藏了乘铰链因子。实例测试与现有处理方法对比结果表明,Cache优化的大点数FFT执行速度有了明显提高,可用于雷达处理系统中的脉冲压缩的快速实现。 展开更多
关键词 雷达信号处理 脉冲压缩 TS201 CACHE winograd算法 大点数FFT
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部