期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
深度神经网络模型量化方法综述 被引量:1
1
作者 杨春 张睿尧 +6 位作者 黄泷 遆书童 林金辉 董志伟 陈松路 刘艳 殷绪成 《工程科学学报》 EI CSCD 北大核心 2023年第10期1613-1629,共17页
近年来,利用大型预训练模型来提高深度神经网络在计算机视觉以及自然语言处理等具体任务下的泛化能力和性能,逐渐成为基于深度学习的人工智能技术与应用的发展趋势.虽然这些深度神经网络模型表现优异,但是由于模型的结构复杂、参数量庞... 近年来,利用大型预训练模型来提高深度神经网络在计算机视觉以及自然语言处理等具体任务下的泛化能力和性能,逐渐成为基于深度学习的人工智能技术与应用的发展趋势.虽然这些深度神经网络模型表现优异,但是由于模型的结构复杂、参数量庞大与计算成本极高,使得它们仍然难以被部署在如家电或智能手机等资源受限的边缘及端侧硬件平台上,这很大程度上阻碍了人工智能技术的应用.因此,模型压缩与加速技术一直都是深度神经网络模型大规模商业化应用推广的关键问题之一.当前在多种模型压缩与加速方案中,模型量化是其中主要的有效方法之一.模型量化技术可以通过减少深度神经网络模型参数的位宽和中间过程特征图的位宽,从而达到压缩加速深度神经网络的目的,使量化后的网络能够部署在资源有限的边缘设备上,然而,由于量化会导致信息的大量丢失,如何在保证模型任务精度条件下实现模型量化已经成为热点问题.另外,因硬件设备以及应用场景的不同,模型量化技术已经发展成为一个多分支的研究问题.通过全面地调研不同角度下模型量化相关技术现状,并且深入地总结归纳不同方法的优缺点,可以发现量化技术目前仍然存在的问题,并为未来可能的发展指明方向. 展开更多
关键词 深度神经网络 模型压缩与加速 模型量化 量化感知训练 训练量化 混合精度量化
下载PDF
基于时序信息的轻量级视频车辆目标检测方法
2
作者 符广 刘彦隆 刘建霞 《电子设计工程》 2024年第1期175-180,186,共7页
为实现在低功耗嵌入式设备上部署视频车辆目标检测模型,提出一种基于时序信息的轻量级视频车辆目标检测方法。该方法以SSD网络为基础,使用MobileNetV3-Small替换原主干特征提取网络VGG-16,并在SSD网络中直接注入注意力机制卷积GRU用于... 为实现在低功耗嵌入式设备上部署视频车辆目标检测模型,提出一种基于时序信息的轻量级视频车辆目标检测方法。该方法以SSD网络为基础,使用MobileNetV3-Small替换原主干特征提取网络VGG-16,并在SSD网络中直接注入注意力机制卷积GRU用于融合时序信息,提升车辆检测精度;关键帧检测网络控制的跳跃连接使模型只在关键帧更新GRU状态,非关键帧直接复制上一关键帧GRU状态,提升模型检测速度。为进一步减少计算量,网络中大量使用深度可分离卷积替换标准卷积层,同时使用量化感知训练方法压缩模型。在UA-DETRAC数据集上的实验表明,该方法在Intel Core i7 CPU和树莓派4B上平均每帧检测时间分别为18 ms和134 ms,准确率达到了较高水平,为78.81%。 展开更多
关键词 视频目标检测 时序信息融合 自适应关键帧 量化感知训练
下载PDF
基于FPGA加速的低功耗的MobileNetV2 网络识别系统 被引量:1
3
作者 孙小坚 林瑞全 +1 位作者 方子卿 马驰 《计算机测量与控制》 2023年第5期221-227,234,共8页
近年来,卷积神经网络由于其出色的性能被广泛应用在各个领域,如图像识别、语音识别与翻译和自动驾驶等;但是传统卷积神经网络(CNN,convolutional neural network)存在参数多,计算量大,部署在CPU与GPU上推理速度慢、功耗大的问题;针对上... 近年来,卷积神经网络由于其出色的性能被广泛应用在各个领域,如图像识别、语音识别与翻译和自动驾驶等;但是传统卷积神经网络(CNN,convolutional neural network)存在参数多,计算量大,部署在CPU与GPU上推理速度慢、功耗大的问题;针对上述问题,采用量化感知训练(QAT,quantization aware training)的方式在保证图像分类准确率的前提下,将网络参数总量压缩为原网络的1/4;将网络权重全部部署在FPGA的片内资源上,克服了片外存储带宽的限制,减少了访问片外存储资源带来的功耗;在MobileNetV2网络的层内以及相邻的点卷积层之间提出一种协同配合的流水线结构,极大地提高了网络的实时性;提出一种存储器与数据读取的优化策略,根据并行度调整数据的存储排列方式及读取顺序,进一步节约了片内BRAM资源。最终在Xilinx的Virtex-7 VC707开发板上实现了一套性能优、功耗小的轻量级卷积神经网络MobileNetV2识别系统,200 MHz时钟下达到了170.06 GOP/s的吞吐量,功耗仅为6.13 W,能耗比达到了27.74 GOP/s/W,是CPU的92倍,GPU的25倍,性能较其他实现有明显的优势。 展开更多
关键词 硬件加速 量化感知训练 MobileNet 并行计算 流水线结构
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部