期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于FPGA的YOLOv3-tiny卷积神经网络加速设计 被引量:1
1
作者 梅志伟 丁兴军 刘金鹏 《舰船电子对抗》 2022年第2期81-88,108,共9页
基于对YOLOv3-tiny网络推理加速的研究,提出了一种基于现场可编程门阵列(FPGA)的硬件加速结构,结合可变精度定点量化和量化重训练2种方法在减少数据计算量的同时保证了网络精度。设计了多个维度上的大规模并行计算来提升网络加速性能,... 基于对YOLOv3-tiny网络推理加速的研究,提出了一种基于现场可编程门阵列(FPGA)的硬件加速结构,结合可变精度定点量化和量化重训练2种方法在减少数据计算量的同时保证了网络精度。设计了多个维度上的大规模并行计算来提升网络加速性能,采取适应计算阵列的数据存储格式和数据复用策略减少数据传输,设计了一种专属于YOLOv3-tiny的硬件加速架构。通过实验分析,提出的YOLOv3-tiny卷积神经网络的硬件加速结构,所使用的计算资源和存储资源少,网络精度高,在综合性能上优于目前出现的研究方案,适合应用于移动端硬件加速。 展开更多
关键词 YOLOv3-tiny 卷积神经网络加速 量化 并行计算
下载PDF
基于加速卷积神经网络的变压器差动保护算法
2
作者 茹瑞鹏 马建华 《现代机械》 2024年第4期83-88,共6页
针对变压器差动保护存在因励磁涌流而误跳闸的问题,提出一种基于加速卷积神经网络的算法。采用神经网络来区分内部故障电流和浪涌电流,应用压缩全连接层和卷积层并集成修正线性单元激活函数和批量归一化技术。用PSCAD/EMTDC软件建立220... 针对变压器差动保护存在因励磁涌流而误跳闸的问题,提出一种基于加速卷积神经网络的算法。采用神经网络来区分内部故障电流和浪涌电流,应用压缩全连接层和卷积层并集成修正线性单元激活函数和批量归一化技术。用PSCAD/EMTDC软件建立220 kV变压器差动保护模型并应用算法,验证了算法更快、更可靠。 展开更多
关键词 差动保护 电力变压器 浪涌电流 加速卷积神经网络
下载PDF
相变材料辅助的光子卷积神经网络加速器 被引量:1
3
作者 郭鹏星 刘志远 +1 位作者 侯维刚 郭磊 《光学学报》 EI CAS CSCD 北大核心 2023年第4期128-137,共10页
由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的... 由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的需求。作为一种替代方案,提出了一种低能耗存算一体光子CNN加速器结构。该结构采用微环谐振器和非易失性相变材料Ge_(2)Sb_(2)Te_(5)构成无源光学矩阵乘法器来实现存内计算,从而减小了权重数据读取的能耗。利用Ansys Lumerical仿真平台验证了10 Gb/s与20 Gb/s速率下4×4规模的光学矩阵乘法的运算。与传统的基于电光微环谐振器的光子CNN加速器数字电子与模拟光子(DEAP)相比,所提加速器结构在保持原运算速率的情况下减少了48.75%的功耗,并且在矩阵运算处的面积能够减少49.75%。此外,基于MNIST与notMNIST数据集对所提加速器的推理效果进行了仿真验证,识别精度分别为97.80%和92.45%。 展开更多
关键词 机器视觉 光子卷积神经网络加速 微环谐振器 相变材料 存算一体
原文传递
基于加速区域卷积神经网络的高铁接触网承力索底座裂纹检测研究 被引量:8
4
作者 刘凯 刘志刚 陈隽文 《铁道学报》 EI CAS CSCD 北大核心 2019年第7期43-49,共7页
针对高速铁路接触网支撑结构中承力索底座裂纹的问题,提出一种利用加速区域卷积神经网络与Beamlet变换相结合的图像检测方法。该方法使用加速区域卷积神经网络实现对承力索底座在待检测图像中的识别定位,然后根据定位的承力索底座图像特... 针对高速铁路接触网支撑结构中承力索底座裂纹的问题,提出一种利用加速区域卷积神经网络与Beamlet变换相结合的图像检测方法。该方法使用加速区域卷积神经网络实现对承力索底座在待检测图像中的识别定位,然后根据定位的承力索底座图像特点,通过Radon变换等预处理操作对承力索底座疑似裂纹区域精确定位,最后使用基于Beamlet变换的局部链搜索算法快速得到裂纹信息,实现承力索底座裂纹故障的可靠诊断。实验表明:该方法能在复杂的接触网支撑与悬挂装置图像中准确定位识别承力索底座裂纹故障,对拍摄距离、拍摄角度以及曝光度等因素具有很好的适应性,且具有较高的检测效率。 展开更多
关键词 高铁接触网 承力索底座 加速区域卷积神经网络 BEAMLET变换
下载PDF
基于FPGA的卷积神经网络硬件加速器设计空间探索研究 被引量:2
5
作者 郭谦 贺光辉 《微电子学与计算机》 北大核心 2020年第8期66-71,共6页
为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调B... 为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调BRAM和DDR带宽资源;3)利用深度可分解卷积替换部分卷积层,减少网络整体计算量.为了验证提出的设计空间探索方法,在ZC-706FPGA上实现了YOLO2-tiny网络,结果表明与同类设计相比,本设计的吞吐率与能效比高,整体延时低. 展开更多
关键词 卷积神经网络硬件加速 设计空间探索 细粒度流水线
下载PDF
面向舰船检测的神经网络加速器设计
6
作者 肖奇 程利甫 +2 位作者 蒋仁兴 柳宜川 王琴 《制导与引信》 2020年第3期11-17,45,共8页
针对卫星遥感图像的舰船目标检测需求,设计了基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的卷积神经网络(Convolution Neural Network,CNN)加速器。运算单元采用多层次并行化结构,底层采用乘法器级并行结构,使用行缓存... 针对卫星遥感图像的舰船目标检测需求,设计了基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的卷积神经网络(Convolution Neural Network,CNN)加速器。运算单元采用多层次并行化结构,底层采用乘法器级并行结构,使用行缓存单元优化数据流;顶层采用模块级并行结构,可灵活调整输出通道的并行度。针对片外数据访问延时高的问题,提出了基于FPGA块随机存储器(Block Random Access Memory,BRAM)的阵列式片上数据缓存单元,保证数据的实时读取和数据流的灵活分配。实验结果表明:加速器移植到Xilinx KC705开发平台,工作频率达100 MHz,平均吞吐率为217 GOPS,能效比为86.8 GOPS/W,对连续遥感舰船图像的检测速率可达105帧/秒。 展开更多
关键词 舰船目标检测 卷积神经网络加速 现场可编程门阵列 并行计算
下载PDF
基于CGRA的神经网络高效数据流设计
7
作者 李泽豪 程利甫 +2 位作者 蒋仁兴 柳宜川 王琴 《电子测试》 2021年第1期67-69,78,共4页
为了充分挖掘阵列结构的并行性,结合脉动阵列思想针对卷积神经网络核心算法设计了一套高效的映射数据流。在基于RTL搭建的仿真环境中,对不同尺寸的卷积核进行了测试,本文所设计的数据流方案的PE平均利用率达到了86%,相对于CPU可以得到65... 为了充分挖掘阵列结构的并行性,结合脉动阵列思想针对卷积神经网络核心算法设计了一套高效的映射数据流。在基于RTL搭建的仿真环境中,对不同尺寸的卷积核进行了测试,本文所设计的数据流方案的PE平均利用率达到了86%,相对于CPU可以得到652倍的平均加速比。在足够的片上存储资源条件下,所设计的数据流可使CGRA计算单元得到较高的执行效率。 展开更多
关键词 粗粒度可重构 卷积神经网络加速 脉动阵列
下载PDF
基于加速区域卷积神经网络的夜间行人检测研究 被引量:25
8
作者 叶国林 孙韶媛 +1 位作者 高凯珺 赵海涛 《激光与光电子学进展》 CSCD 北大核心 2017年第8期117-123,共7页
行人检测是机器人和无人车夜间工作应用中的重要任务之一,采用加速区域卷积神经网络框架实现夜间红外图像中的行人检测,用区域建议网络生成候选区域,无需单独从图像中生成候选区域。区域建议网络和用于分类以及位置精修的卷积网络中,采... 行人检测是机器人和无人车夜间工作应用中的重要任务之一,采用加速区域卷积神经网络框架实现夜间红外图像中的行人检测,用区域建议网络生成候选区域,无需单独从图像中生成候选区域。区域建议网络和用于分类以及位置精修的卷积网络中,采用卷积层参数共享机制,使得该框架具有端到端的优点,因此无需手动选取目标特征,实现了从输入图像直接到行人检测的功能。实验结果表明,与使用传统方法和快速区域卷积神经网络相比,使用加速区域卷积网络框架对红外图像进行行人检测的准确率从68.2%和73.4%提高到了90.9%,检测时间从3.6s/frame和2.3s/frame缩短到了0.04s/frame,达到了实际应用中的实时性要求。 展开更多
关键词 图像处理 红外图像 行人检测 加速区域卷积神经网络 区域建议网络
原文传递
卷积神经网络DPU加速系统设计与实现
9
作者 徐畅 陈明 +1 位作者 谌辰睿 张清河 《武汉理工大学学报》 CAS 北大核心 2020年第12期62-69,共8页
针对嵌入式AI系统中卷积神经网络推理阶段实时性问题,利用软硬件协同设计的思想,在ZYNQ UltraScale+芯片上搭建了基于Deep Learning Processing Unit(DPU)的加速系统,同时为解决DPU调度效率较低的问题,基于优先队列的思想提出了一种适用... 针对嵌入式AI系统中卷积神经网络推理阶段实时性问题,利用软硬件协同设计的思想,在ZYNQ UltraScale+芯片上搭建了基于Deep Learning Processing Unit(DPU)的加速系统,同时为解决DPU调度效率较低的问题,基于优先队列的思想提出了一种适用于DPU的多任务多线程调度策略。在ResNet50,MobileNetV2和DenseBox+MobileNetV2模型上的实验结果表明,加速系统性能与PC机CPU相比提升了141倍,与GPU相比提升了15倍,功耗仅为CPU的6%,GPU的2%。提出的调度策略使DPU调度效率提升了28%,并有效的保证了多任务推理流程的完整性和有序性。 展开更多
关键词 DPU 卷积神经网络推理加速 任务调度 软硬件协同设计 加速系统
原文传递
基于BP算法的片上学习CNN硬件加速器 被引量:2
10
作者 王飞 张多利 +2 位作者 汪杨 王泽中 宋宇鲲 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第8期1059-1064,共6页
为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交... 为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交互,提高CNN运算的并行度,提升训练和推理过程的效率。该架构包含1组二维运算阵列和激活函数运算模块,以及相应的数据分配器和指令存储器;以1个16单元的CNN加速器设计为例,验证了所设计CNN加速器架构运行多种CNN模型时的性能和运算准确性。实验结果表明,文中提出的加速器架构与Intel9400F CPU相比,最大误差为8.0437×10^(-6),识别精度下降0.63%,运行速度提高7.67倍。 展开更多
关键词 卷积神经网络(CNN)加速 片上学习 现场可编程门阵列(FPGA) TOEPLITZ矩阵
下载PDF
一种基于FPGA的CNN硬件加速器实现
11
作者 邱臻博 《电子技术应用》 2023年第12期20-25,共6页
提出了一种基于FPGA的通用CNN硬件加速器设计方案。针对计算量最大的卷积层,采用了输入通道并行、核内并行、输出通道并行三种加速方式,根据FPGA的片上资源,合理地设置相应并行度。在数据加载方面,采用相邻数据位宽合并传输,有效提高了... 提出了一种基于FPGA的通用CNN硬件加速器设计方案。针对计算量最大的卷积层,采用了输入通道并行、核内并行、输出通道并行三种加速方式,根据FPGA的片上资源,合理地设置相应并行度。在数据加载方面,采用相邻数据位宽合并传输,有效提高了加速器的实际传输带宽。基于行的数据流加载思想,设计了输入缓存模块。该缓存模块只需缓存两行数据即可开始卷积运算,有效地提前卷积运算的开始时间。在数据输入、数据运算、数据输出模块之间,利用流水线循环优化方式,极大地提高了硬件的计算性能。最后将该加速器应用于VGG16和Darknet-19网络,实验表明,计算性能分别达到34.30 GOPS和33.68 GOPS,DSP计算效率分别高达79.45%和78.01%。 展开更多
关键词 卷积神经网络加速 FPGA 行数据加载 模块划分 流水线结构
下载PDF
面向混合量化CNNs的可重构处理器设计 被引量:1
12
作者 常立博 张盛兵 《西北工业大学学报》 EI CAS CSCD 北大核心 2022年第2期344-351,共8页
为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,... 为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,采用了可根据CNN模型结构的重构多核结构以提高计算资源利用率,采用弹性存储结构以及基于Tile的动态缓存划分策略以提高片上数据复用率,采用可有效表达混合精度CNN模型计算和可重构处理器特性的宏数据流指令集以降低映射策略的复杂度。在Ultra96-V2平台上实现VGG-16和ResNet-50的计算性能达到216.6和214 GOPS,计算效率达到0.63和0.64 GOPS/DSP。同时,在ZCU102平台上实现ResNet-50的计算性能可达931.8 GOPS,计算效率可达0.40 GOPS/DSP,相较于其他类似CNN加速器,计算性能和计算效率分别提高了55.4%和100%。 展开更多
关键词 混合精度量化 卷积神经网络加速 可重构计算
下载PDF
基于混合全局池化的回环检测算法
13
作者 宋周锐 《计算机与现代化》 2020年第4期115-120,126,共7页
基于深度学习的回环检测算法已被验证性能优于传统方法。然而深度学习计算量大,在移动机器人上往往难以部署大型卷积神经网络,而小型卷积神经网络在大型场景中表现欠佳。对此,本文提出一种将大型卷积神经网络部署在移动机器人上的方案... 基于深度学习的回环检测算法已被验证性能优于传统方法。然而深度学习计算量大,在移动机器人上往往难以部署大型卷积神经网络,而小型卷积神经网络在大型场景中表现欠佳。对此,本文提出一种将大型卷积神经网络部署在移动机器人上的方案。首先,利用混合全局池化层将特征图转换为特征向量,实验表明该方法与其他更复杂方法性能相当,计算更简单。然后提出一种基于块浮点数的卷积神经网络加速引擎,可显著地降低运算能耗,在不需要重新训练的情况下,几乎没有导致性能损失。 展开更多
关键词 视觉同步定位与建图 回环检测 深度学习 卷积神经网络加速 移动机器人
下载PDF
基于改进的Faster R-CNN目标检测算法 被引量:19
14
作者 周兵 李润鑫 +1 位作者 尚振宏 李晓武 《激光与光电子学进展》 CSCD 北大核心 2020年第10期97-104,共8页
目标检测是计算机视觉研究中的热门问题,其中加速区域卷积神经网络(Faster R-CNN)对目标检测具有指导意义。针对Faster R-CNN算法在目标检测中准确率不高的问题,先对数据进行增强处理;然后对提取的特征图进行裁剪,利用双线性插值法代替... 目标检测是计算机视觉研究中的热门问题,其中加速区域卷积神经网络(Faster R-CNN)对目标检测具有指导意义。针对Faster R-CNN算法在目标检测中准确率不高的问题,先对数据进行增强处理;然后对提取的特征图进行裁剪,利用双线性插值法代替感兴趣区域池化操作,分类时采用软非极大值抑制(Soft-NMS)算法。实验结果表明,该算法在PASCAL VOC2007、PASCAL VOC07+12数据集下的准确率分别为76.40%和81.20%,相较Faster R-CNN算法分别提升了6.50个百分点和8.00个百分点。没有进行数据增强的情况下,在COCO 2014数据集上的准确率相较Faster R-CNN算法提升了2.40个百分点。 展开更多
关键词 目标检测 加速区域卷积神经网络(Faster R-CNN) 感兴趣区域池化 软非极大值抑制(Soft-NMS)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部