期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
MRNDA:一种基于资源受限片上网络的深度神经网络加速器组播机制研究
1
作者 欧阳一鸣 王奇 +2 位作者 汤飞扬 周武 李建华 《电子学报》 EI CAS CSCD 北大核心 2024年第3期872-884,共13页
片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访... 片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访问从而减少加速器的分类延迟和功耗.但是,若采用传统的单播NoC,大量的一对多数据包会极大的提高加速器的通信延迟.并且,目前的深度神经网络规模往往非常庞大,而NoC的核心数量是有限的.因此,文中提出了一种针对资源受限的NoC的组播方案.该方案利用有限数量的处理单元(Processor Element,PE)来计算大型的DNN,并且利用特殊的树形组播加速网络来减少加速器的通信延迟.仿真结果表明,和基准情况相比,本文提出的组播机制使加速器的分类延迟最高降低了86.7%,通信延迟最高降低了88.8%,而它的路由器面积和功耗仅占基准路由器的9.5%和10.3%. 展开更多
关键词 片上网络 深度神经网络加速 组播 路由器架构 多物理网络
下载PDF
基于拟神经突触的概率计算神经网络加速器
2
作者 闫家均 熊兴中 +2 位作者 黄见 周义卓 邵子扬 《电子设计工程》 2024年第12期10-16,共7页
深度卷积神经网络是人工智能应用中最有前途的神经网络类别之一。但是与其性能相关的计算量和计算复杂度也呈现爆炸式增长,导致了实现的高功耗和巨大的硬件成本。因此,研究基于概率计算空间编码的思想,使用电路中信号线密度模拟神经突... 深度卷积神经网络是人工智能应用中最有前途的神经网络类别之一。但是与其性能相关的计算量和计算复杂度也呈现爆炸式增长,导致了实现的高功耗和巨大的硬件成本。因此,研究基于概率计算空间编码的思想,使用电路中信号线密度模拟神经突触可塑性的工作原理,将传统乘法器复杂的运算变成了简单线与的低复杂度方式,实现了一种拟神经突触概率乘法器。并以此为基础,实现了基于多段分解的空间并行高精度概率乘法器,并提出了一种以突触可塑性计算单元为基础的低复杂度、低开销的神经网络加速器。实验使用该概率乘法器基于LeNet-5网络在MNIST上和基于VGG13的CIFAR-10上分别达到了97.99%和85.21%的正确率,与传统乘法器相比,降低了面积和功耗,提升了运行速度。同比其他神经网络加速器,提高了吞吐量、面积效率、功率效率。 展开更多
关键词 突触可塑性 神经网络加速 概率计算 概率乘法器
下载PDF
一种基于粗集理论的BP神经网络加速算法 被引量:11
3
作者 赵书军 梅燕 王蓉 《四川师范大学学报(自然科学版)》 CAS CSCD 2002年第5期479-483,共5页
应用粗糙集理论 ,对控制系统采样数据进行简化处理 ,构造一种新型神经网络结构 .提出一种误差反向传播BP(BackPropagation)神经网络加速算法 ,并将此算法应用于移动机器人的控制系统分析设计 .通过仿真结果的分析研究 ,验证了此算法在... 应用粗糙集理论 ,对控制系统采样数据进行简化处理 ,构造一种新型神经网络结构 .提出一种误差反向传播BP(BackPropagation)神经网络加速算法 ,并将此算法应用于移动机器人的控制系统分析设计 .通过仿真结果的分析研究 ,验证了此算法在减少网络冗余 ,提高神经网络学习速度 ,提高网络实时控制能力等方面的良好的性能 . 展开更多
关键词 粗集理论 BP神经网络加速算法 BP算法 规则提取 拓扑结构 学习速度
下载PDF
面向深度神经网络加速芯片的高效硬件优化策略 被引量:4
4
作者 张萌 张经纬 +2 位作者 李国庆 吴瑞霞 曾晓洋 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1510-1517,共8页
轻量级神经网络部署在低功耗平台上的解决方案可有效用于无人机(UAV)检测、自动驾驶等人工智能(AI)、物联网(IOT)领域,但在资源有限情况下,同时兼顾高精度和低延时来构建深度神经网络(DNN)加速器是非常有挑战性的。该文针对此问题提出... 轻量级神经网络部署在低功耗平台上的解决方案可有效用于无人机(UAV)检测、自动驾驶等人工智能(AI)、物联网(IOT)领域,但在资源有限情况下,同时兼顾高精度和低延时来构建深度神经网络(DNN)加速器是非常有挑战性的。该文针对此问题提出一系列高效的硬件优化策略,包括构建可堆叠共享计算引擎(PE)以平衡不同卷积中数据重用和内存访问模式的不一致;提出了可调的循环次数和通道增强方法,有效扩展加速器与外部存储器之间的访问带宽,提高DNN浅层网络计算效率;优化了预加载工作流,从整体上提高了异构系统的并行度。经Xilinx Ultra96 V2板卡验证,该文的硬件优化策略有效地改进了iSmart3-SkyNet和SkrSkr-SkyNet类的DNN加速芯片设计。结果显示,优化后的加速器每秒处理78.576帧图像,每幅图像的功耗为0.068 J。 展开更多
关键词 深度神经网络 目标检测 神经网络加速 低功耗 硬件优化
下载PDF
华为昇腾神经网络加速器性能评测与优化 被引量:3
5
作者 鲁蔚征 张峰 +3 位作者 贺寅烜 陈跃国 翟季冬 杜小勇 《计算机学报》 EI CAS CSCD 北大核心 2022年第8期1618-1637,共20页
华为昇腾是一款新型神经网络加速器.与GPU相比,昇腾加速器专门面向神经网络计算,设计了专用计算单元,核心算力集中在低精度,基于昇腾的软件栈与GPU有所差异.现有研究大多专注于GPU上的深度学习负载性能分析和优化,由于昇腾平台推出不久... 华为昇腾是一款新型神经网络加速器.与GPU相比,昇腾加速器专门面向神经网络计算,设计了专用计算单元,核心算力集中在低精度,基于昇腾的软件栈与GPU有所差异.现有研究大多专注于GPU上的深度学习负载性能分析和优化,由于昇腾平台推出不久且具有新的体系结构特征,其实际表现仍有待探索.为深入挖掘昇腾的性能和优化方法,本文对其进行了系统性的评测和分析,包括:(1)基于标准数据集在四个端到端神经网络(ResNet、Transformer、DeepFM和LSTM)上对昇腾和GPU的性能和功耗进行了对比;(2)研究了昇腾上深度学习框架、算子和混合精度训练优化策略;(3)测试三个计算密集型算子(全连接、卷积和RNN)的浮点计算能力、硬件利用率和访存性能.评测结果表明:华为昇腾加速器适合进行稠密型神经网络工作负载,且功耗低于GPU;使用昇腾进行模型训练,需要将神经网络模型从32位精度量化到16位精度.针对昇腾的体系结构和编译软件栈特点,本文提出如下优化策略:深度学习框架开发时应进行整图编译构建,进行算子融合;算子开发时应合理设置分块大小,尽量使用低精度实现算子;模型训练时要合理设置混合精度参数. 展开更多
关键词 深度学习 神经网络加速 华为昇腾 高性能计算 评测基准
下载PDF
基于FPGA模拟的阻变神经网络加速器评估方法 被引量:2
6
作者 石永泉 景乃锋 《计算机工程》 CAS CSCD 北大核心 2021年第12期209-214,共6页
基于阻变器件的存算一体神经网络加速器需在架构设计初期进行仿真评估,确保神经网络精度符合设计要求,但传统阻变神经网络加速器的软件模拟器运行速度较慢,难以应对大规模网络的架构评估需求。为加快仿真评估速度,设计一种基于现场可编... 基于阻变器件的存算一体神经网络加速器需在架构设计初期进行仿真评估,确保神经网络精度符合设计要求,但传统阻变神经网络加速器的软件模拟器运行速度较慢,难以应对大规模网络的架构评估需求。为加快仿真评估速度,设计一种基于现场可编程门阵列(FPGA)模拟的阻变神经网络加速器评估方法,分析现有阻变神经网络加速器的架构通用性,利用FPGA资源的高度并行性和运行时指令驱动的灵活模拟方式,通过硬件资源的分时复用实现多层次存算一体架构和指令集的功能模拟及主流神经网络的快速性能评估。实验结果表明,针对不同规模的忆阻器阵列和深度神经网络,该评估方法相比MNSIM和DNN NeuroSim软件模拟器运行速度分别提升了40.0~252.9倍和194.7~234.2倍。 展开更多
关键词 神经网络加速 存算一体 现场可编程门阵列 忆阻器 模拟器 深度神经网络
下载PDF
基于FPGA的YOLOv3-tiny卷积神经网络加速设计 被引量:1
7
作者 梅志伟 丁兴军 刘金鹏 《舰船电子对抗》 2022年第2期81-88,108,共9页
基于对YOLOv3-tiny网络推理加速的研究,提出了一种基于现场可编程门阵列(FPGA)的硬件加速结构,结合可变精度定点量化和量化重训练2种方法在减少数据计算量的同时保证了网络精度。设计了多个维度上的大规模并行计算来提升网络加速性能,... 基于对YOLOv3-tiny网络推理加速的研究,提出了一种基于现场可编程门阵列(FPGA)的硬件加速结构,结合可变精度定点量化和量化重训练2种方法在减少数据计算量的同时保证了网络精度。设计了多个维度上的大规模并行计算来提升网络加速性能,采取适应计算阵列的数据存储格式和数据复用策略减少数据传输,设计了一种专属于YOLOv3-tiny的硬件加速架构。通过实验分析,提出的YOLOv3-tiny卷积神经网络的硬件加速结构,所使用的计算资源和存储资源少,网络精度高,在综合性能上优于目前出现的研究方案,适合应用于移动端硬件加速。 展开更多
关键词 YOLOv3-tiny 卷积神经网络加速 量化 并行计算
下载PDF
面向舰船检测的神经网络加速器设计
8
作者 肖奇 程利甫 +2 位作者 蒋仁兴 柳宜川 王琴 《制导与引信》 2020年第3期11-17,45,共8页
针对卫星遥感图像的舰船目标检测需求,设计了基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的卷积神经网络(Convolution Neural Network,CNN)加速器。运算单元采用多层次并行化结构,底层采用乘法器级并行结构,使用行缓存... 针对卫星遥感图像的舰船目标检测需求,设计了基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的卷积神经网络(Convolution Neural Network,CNN)加速器。运算单元采用多层次并行化结构,底层采用乘法器级并行结构,使用行缓存单元优化数据流;顶层采用模块级并行结构,可灵活调整输出通道的并行度。针对片外数据访问延时高的问题,提出了基于FPGA块随机存储器(Block Random Access Memory,BRAM)的阵列式片上数据缓存单元,保证数据的实时读取和数据流的灵活分配。实验结果表明:加速器移植到Xilinx KC705开发平台,工作频率达100 MHz,平均吞吐率为217 GOPS,能效比为86.8 GOPS/W,对连续遥感舰船图像的检测速率可达105帧/秒。 展开更多
关键词 舰船目标检测 卷积神经网络加速 现场可编程门阵列 并行计算
下载PDF
神经网络加速器指令控制系统设计
9
作者 焦峰 马瑶 +1 位作者 毕思颖 马钟 《微电子学与计算机》 2022年第8期78-85,共8页
深度神经网络在图像语音智能化处理领域的应用越来越广泛,但其算子、参数类型多,计算、存储密集大的特点制约了在航空航天、移动智能终端等嵌入式场景中的应用.针对这一问题,提出了解耦输入数据流,进行高效流水并行处理的思路,设计了一... 深度神经网络在图像语音智能化处理领域的应用越来越广泛,但其算子、参数类型多,计算、存储密集大的特点制约了在航空航天、移动智能终端等嵌入式场景中的应用.针对这一问题,提出了解耦输入数据流,进行高效流水并行处理的思路,设计了一种神经网络加速器指令控制系统.不同算子的输入数据循环分块后,对应到指令组配置中,多状态机协同完成指令信息三阶段分发控制,实现指令解析、数据输入、计算、数据输出四级并行流水,充分利用分块内的数据复用机会,减少访存带宽及流水周期空闲率.将其部署在ZCU102开发板上,测试中支持常见的多种神经网络层类型和宽范围参数配置.频率为200 M时,峰值算力800 GOPS,运行VGG16网络模型,实际测试运行算力为489.4 GOPS,功耗4.42 W,能效比为113.3 GOPS/W,优于调研对比的同类神经网络加速器和CPU、GPU.实验结果表明,分解数据流,采用指令调度实现高效并行流水的方法解决了通用性和能效比两大难题,基于此方法设计的指令控制系统,可为神经网络加速器的嵌入式平台应用提供方案. 展开更多
关键词 深度神经网络 神经网络加速 指令控制系统 通用性 能效比
下载PDF
基于ReRAM的神经网络加速器发展概况
10
作者 周川波 《西部广播电视》 2018年第24期246-251,共6页
本文关注2016年体系结构领域两个重要的峰会ISCA和MICRO,简单介绍了这两个会议有关神经网络加速器的研究成果,重点关注了基于金属氧化物的电阻式随机访问存储器(Metal-oxide Resistive Random Access Memory,ReRAM)的有关文章。参照计... 本文关注2016年体系结构领域两个重要的峰会ISCA和MICRO,简单介绍了这两个会议有关神经网络加速器的研究成果,重点关注了基于金属氧化物的电阻式随机访问存储器(Metal-oxide Resistive Random Access Memory,ReRAM)的有关文章。参照计算机系统层次化结构,本文首先介绍了Re RAM的原理和结构,然后介绍了基于Re RAM设计的简单神经网络架构,该架构仅仅支持30个连接权重,支持神经网络十分有限。PRIME架构极大地扩展了对神经网络计算的支持,针对不同网络(多层感知器,卷积神经网络)和较大规模数据集(MNIST)都取得了较好的实验效果。PRIME虽然对神经网络加速效果较好,但是其提供的软硬件接口仍然只针对PRIME架构本身,缺乏扩展性。NEUTRAMS工具集是为了消除硬件约束提出来,该工具集通过仿真层对硬件的抽象,使得在表示层设计的神经网络不需要修改即可实现在不同硬件架构上移植。实验均证明了上述方法的有效性。 展开更多
关键词 神经网络加速 RERAM PRIME NEUTRAMS 深度学习
下载PDF
前景广阔的边缘推理需要高性能神经网络加速器IP
11
作者 GRANT Andrew 《微纳电子与智能制造》 2019年第2期89-96,共8页
神经网络加速技术正在快速地转向网络的边缘,过去需要基于云的计算资源来运行神经网络推理,现在可以在嵌入式设备上运行,这些人工智能设备包括可穿戴设备、摄像头、智能电话/平板电脑以及各类车辆等。专用的硬件可以被用来加速推理,称... 神经网络加速技术正在快速地转向网络的边缘,过去需要基于云的计算资源来运行神经网络推理,现在可以在嵌入式设备上运行,这些人工智能设备包括可穿戴设备、摄像头、智能电话/平板电脑以及各类车辆等。专用的硬件可以被用来加速推理,称其为神经网络加速器。这项技术在计算密度和PPA方面具有优势,是边缘设备的理想选择,可以为人工智能芯片带来全新的机遇。以屡获殊荣的PowerVR NNA为例,介绍为了应对边缘推理的兴起,最基础的IP和相关SoC作出哪些改进,以提供未来市场所需的更高性能和更丰富的功能特性。 展开更多
关键词 人工智能 神经网络 边缘推理 神经网络加速 PowerVR Series3NX
下载PDF
针对重参数化模型的可配置神经网络加速设计
12
作者 惠兰清 曹姗 徐树公 《工业控制计算机》 2022年第7期130-132,共3页
随着人们对深度神经网络的探索,网络性能不断提高的同时,模型的宽度和深度也在不断增加。这对神经网络硬件的存储资源与计算能力提出了很大挑战。同时,神经网络加速器的研发成本较高,如何在不损失性能的情况下使神经网络加速器支持更多... 随着人们对深度神经网络的探索,网络性能不断提高的同时,模型的宽度和深度也在不断增加。这对神经网络硬件的存储资源与计算能力提出了很大挑战。同时,神经网络加速器的研发成本较高,如何在不损失性能的情况下使神经网络加速器支持更多的网络也是一个重要的研究方向。利用了重参数化网络模型结构上的特点,提出了一种资源利用率高、具有可配置性的硬件实现方案。通过提出的基于指令集操作、易缩放的加速器和一个能够进行指令生成与数据预处理的异构系统,结构重参数化网络可以快速进行实现。最终该方案在ARRIA10设备上加速RepVGG网络达到了单张图片延时1.36 ms的效果,为CPU耗时的4.3%。 展开更多
关键词 深度神经网络 神经网络加速 现场可编辑逻辑门阵列 重参数化
下载PDF
相变材料辅助的光子卷积神经网络加速器 被引量:1
13
作者 郭鹏星 刘志远 +1 位作者 侯维刚 郭磊 《光学学报》 EI CAS CSCD 北大核心 2023年第4期128-137,共10页
由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的... 由于卷积神经网络(CNN)识别精度与人类接近,故其在计算机视觉、图像和语音处理等方面取得了巨大的成功,但这种成功离不开硬件加速器的支撑。受到电子器件功率与速率的限制,当前的电加速器难以满足未来大规模卷积运算对硬件算力和能耗的需求。作为一种替代方案,提出了一种低能耗存算一体光子CNN加速器结构。该结构采用微环谐振器和非易失性相变材料Ge_(2)Sb_(2)Te_(5)构成无源光学矩阵乘法器来实现存内计算,从而减小了权重数据读取的能耗。利用Ansys Lumerical仿真平台验证了10 Gb/s与20 Gb/s速率下4×4规模的光学矩阵乘法的运算。与传统的基于电光微环谐振器的光子CNN加速器数字电子与模拟光子(DEAP)相比,所提加速器结构在保持原运算速率的情况下减少了48.75%的功耗,并且在矩阵运算处的面积能够减少49.75%。此外,基于MNIST与notMNIST数据集对所提加速器的推理效果进行了仿真验证,识别精度分别为97.80%和92.45%。 展开更多
关键词 机器视觉 光子卷积神经网络加速 微环谐振器 相变材料 存算一体
原文传递
面向高能效加速器的二值化神经网络设计和训练方法
14
作者 李佳骏 许浩博 +4 位作者 王郁杰 肖航 王颖 韩银和 李晓维 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2023年第6期961-969,共9页
针对二值化神经网络加速器计算溢出和乘法器依赖的问题,提出一套二值化神经网络设计及其训练方法.首先设计能够模拟溢出的矩阵乘法,保证模型部署后不丢失准确率;然后优化卷积层和激活函数,缓解溢出总量;再设计移位批标准化层,使二值化... 针对二值化神经网络加速器计算溢出和乘法器依赖的问题,提出一套二值化神经网络设计及其训练方法.首先设计能够模拟溢出的矩阵乘法,保证模型部署后不丢失准确率;然后优化卷积层和激活函数,缓解溢出总量;再设计移位批标准化层,使二值化神经网络摆脱对乘法运算的依赖,并有效地降低访存;最后针对改进的模型提出基于溢出启发的协同训练框架,确保模型训练能够收敛.实验结果表明,与10个主流的关键词激活方法相比,在准确率无明显损失的情况下,所提方法使片上计算规模减少超过49.1%,并为加速器带来至少21.0%的速度提升. 展开更多
关键词 二值化神经网络 深度学习 模型训练 神经网络加速
下载PDF
一种异构架构的图神经网络加速器优化研究 被引量:1
15
作者 吴进 赵博 +1 位作者 汶恒 王宇 《北京邮电大学学报》 EI CAS CSCD 北大核心 2023年第3期19-24,共6页
为了提高图神经网络的算力和效率,对图神经网络训练过程中存在的大量内存需求和随机内存访问等问题进行了研究,提出了一种基于异构架构的高性能图神经网络加速器设计。异构平台采用中央处理器与现场可编程门阵列相结合的方式,主要由计... 为了提高图神经网络的算力和效率,对图神经网络训练过程中存在的大量内存需求和随机内存访问等问题进行了研究,提出了一种基于异构架构的高性能图神经网络加速器设计。异构平台采用中央处理器与现场可编程门阵列相结合的方式,主要由计算模块和缓冲模块组成。设计不同的硬件架构进行计算;缓冲模块主要用来有储模型参数和中间变量。针对不规则与规则的聚合和更新2种混合执行方式,改进计算模块,并且对加速器进行数据并行和去除冗余等优化。在Ultra96⁃V2硬件平台上进行实验,结果表明,所设计的图神经网络加速器不仅提升了系统性能,而且显著降低了功率消耗。 展开更多
关键词 神经网络加速 异构架构 混合计算
原文传递
深度神经网络压缩与加速综述 被引量:54
16
作者 纪荣嵘 林绍辉 +2 位作者 晁飞 吴永坚 黄飞跃 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1871-1888,共18页
深度神经网络在人工智能的应用中,包括计算机视觉、语音识别、自然语言处理方面,取得了巨大成功.但这些深度神经网络需要巨大的计算开销和内存存储,阻碍了在资源有限环境下的使用,如移动或嵌入式设备端.为解决此问题,在近年来产生大量... 深度神经网络在人工智能的应用中,包括计算机视觉、语音识别、自然语言处理方面,取得了巨大成功.但这些深度神经网络需要巨大的计算开销和内存存储,阻碍了在资源有限环境下的使用,如移动或嵌入式设备端.为解决此问题,在近年来产生大量关于深度神经网络压缩与加速的研究工作.对现有代表性的深度神经网络压缩与加速方法进行回顾与总结,这些方法包括了参数剪枝、参数共享、低秩分解、紧性滤波设计及知识蒸馏.具体地,将概述一些经典深度神经网络模型,详细描述深度神经网络压缩与加速方法,并强调这些方法的特性及优缺点.此外,总结了深度神经网络压缩与加速的评测方法及广泛使用的数据集,同时讨论分析一些代表性方法的性能表现.最后,根据不同任务的需要,讨论了如何选择不同的压缩与加速方法,并对压缩与加速方法未来发展趋势进行展望. 展开更多
关键词 深度神经网络压缩 深度神经网络加速 参数剪枝 参数共享 低秩分解 知识蒸馏
下载PDF
基于FPGA和卷积神经网络的实时心梗诊断系统
17
作者 高鑫玮 刘文涵 +1 位作者 谢文鑫 黄启俊 《电子技术应用》 2023年第11期135-139,共5页
针对小型化日常心电监护系统的需求,设计了一套基于FPGA和卷积神经网络算法的心肌梗死疾病实时诊断系统。系统包含形态学滤波器、最小均方算法自适应陷波器、卷积神经网络硬件加速模块三大部分,通过在FPGA中并行化和加速处理,实现对心... 针对小型化日常心电监护系统的需求,设计了一套基于FPGA和卷积神经网络算法的心肌梗死疾病实时诊断系统。系统包含形态学滤波器、最小均方算法自适应陷波器、卷积神经网络硬件加速模块三大部分,通过在FPGA中并行化和加速处理,实现对心血管疾病的实时监护和诊断。经过上板验证,系统的相对准确率达到99.91%,片上功耗为2.39 W,处理时间为3.81 ms,可满足各项设计需求。 展开更多
关键词 心肌梗死 实时系统 数字滤波器 神经网络加速
下载PDF
自动化张量分解加速卷积神经网络 被引量:6
18
作者 宋冰冰 张浩 +3 位作者 吴子锋 刘俊晖 梁宇 周维 《软件学报》 EI CSCD 北大核心 2021年第11期3468-3481,共14页
近年来,卷积神经网络(CNN)展现了强大的性能,被广泛应用到了众多领域.由于CNN参数数量庞大,且存储和计算能力需求高,其难以部署在资源受限设备上.因此,对CNN的压缩和加速成为一个迫切需要解决的问题.随着自动化机器学习(AutoML)的研究... 近年来,卷积神经网络(CNN)展现了强大的性能,被广泛应用到了众多领域.由于CNN参数数量庞大,且存储和计算能力需求高,其难以部署在资源受限设备上.因此,对CNN的压缩和加速成为一个迫切需要解决的问题.随着自动化机器学习(AutoML)的研究与发展,AutoML对神经网络发展产生了深远的影响.受此启发,提出了基于参数估计和基于遗传算法的两种自动化加速卷积神经网络算法.该算法能够在给定精度损失范围内自动计算出最优的CNN加速模型,有效地解决了张量分解中,人工选择秩带来的误差问题,能够有效地提升CNN的压缩和加速效果.通过在MNIST和CIFAR-10数据集上的严格测试,与原网络相比,在MNIST数据集上准确率稍微下降了0.35%,模型的运行时间获得了4.1倍的大幅提升;在CIFAR-10数据集上,准确率稍微下降了5.13%,模型的运行时间获得了0.8倍的大幅提升. 展开更多
关键词 张量分解 卷积神经网络 自动化机器学习 神经网络压缩 神经网络加速
下载PDF
基于加速区域卷积神经网络的高铁接触网承力索底座裂纹检测研究 被引量:8
19
作者 刘凯 刘志刚 陈隽文 《铁道学报》 EI CAS CSCD 北大核心 2019年第7期43-49,共7页
针对高速铁路接触网支撑结构中承力索底座裂纹的问题,提出一种利用加速区域卷积神经网络与Beamlet变换相结合的图像检测方法。该方法使用加速区域卷积神经网络实现对承力索底座在待检测图像中的识别定位,然后根据定位的承力索底座图像特... 针对高速铁路接触网支撑结构中承力索底座裂纹的问题,提出一种利用加速区域卷积神经网络与Beamlet变换相结合的图像检测方法。该方法使用加速区域卷积神经网络实现对承力索底座在待检测图像中的识别定位,然后根据定位的承力索底座图像特点,通过Radon变换等预处理操作对承力索底座疑似裂纹区域精确定位,最后使用基于Beamlet变换的局部链搜索算法快速得到裂纹信息,实现承力索底座裂纹故障的可靠诊断。实验表明:该方法能在复杂的接触网支撑与悬挂装置图像中准确定位识别承力索底座裂纹故障,对拍摄距离、拍摄角度以及曝光度等因素具有很好的适应性,且具有较高的检测效率。 展开更多
关键词 高铁接触网 承力索底座 加速区域卷积神经网络 BEAMLET变换
下载PDF
深度神经网络压缩与加速综述 被引量:13
20
作者 曾焕强 胡浩麟 +2 位作者 林向伟 侯军辉 蔡灿辉 《信号处理》 CSCD 北大核心 2022年第1期183-194,共12页
近年来,随着图形处理器性能的飞速提升,深度神经网络取得了巨大的发展成就,在许多人工智能任务中屡创佳绩。然而,主流的深度学习网络模型由于存在计算复杂度高、内存占用较大、耗时长等缺陷,难以部署在计算资源受限的移动设备或时延要... 近年来,随着图形处理器性能的飞速提升,深度神经网络取得了巨大的发展成就,在许多人工智能任务中屡创佳绩。然而,主流的深度学习网络模型由于存在计算复杂度高、内存占用较大、耗时长等缺陷,难以部署在计算资源受限的移动设备或时延要求严格的应用中。因此,在不显著影响模型精度的前提下,通过对深度神经网络进行压缩和加速来轻量化模型逐渐引起研究者们的重视。本文回顾了近年来的深度神经网络压缩和加速技术。这些技术分为四类:参数量化、模型剪枝、轻量型卷积核设计和知识蒸馏。对于每个技术类别,本文首先分析了各自的性能及存在的缺陷。另外,本文总结了模型压缩与加速的性能评估方法。最后,讨论了模型压缩与加速领域存在的挑战和未来研究的可能方向。 展开更多
关键词 深度神经网络压缩与加速 深度学习 模型剪枝 知识蒸馏 参数量化
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部