期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
深度神经网络模型量化方法综述
被引量:
1
1
作者
杨春
张睿尧
+6 位作者
黄泷
遆书童
林金辉
董志伟
陈松路
刘艳
殷绪成
《工程科学学报》
EI
CSCD
北大核心
2023年第10期1613-1629,共17页
近年来,利用大型预训练模型来提高深度神经网络在计算机视觉以及自然语言处理等具体任务下的泛化能力和性能,逐渐成为基于深度学习的人工智能技术与应用的发展趋势.虽然这些深度神经网络模型表现优异,但是由于模型的结构复杂、参数量庞...
近年来,利用大型预训练模型来提高深度神经网络在计算机视觉以及自然语言处理等具体任务下的泛化能力和性能,逐渐成为基于深度学习的人工智能技术与应用的发展趋势.虽然这些深度神经网络模型表现优异,但是由于模型的结构复杂、参数量庞大与计算成本极高,使得它们仍然难以被部署在如家电或智能手机等资源受限的边缘及端侧硬件平台上,这很大程度上阻碍了人工智能技术的应用.因此,模型压缩与加速技术一直都是深度神经网络模型大规模商业化应用推广的关键问题之一.当前在多种模型压缩与加速方案中,模型量化是其中主要的有效方法之一.模型量化技术可以通过减少深度神经网络模型参数的位宽和中间过程特征图的位宽,从而达到压缩加速深度神经网络的目的,使量化后的网络能够部署在资源有限的边缘设备上,然而,由于量化会导致信息的大量丢失,如何在保证模型任务精度条件下实现模型量化已经成为热点问题.另外,因硬件设备以及应用场景的不同,模型量化技术已经发展成为一个多分支的研究问题.通过全面地调研不同角度下模型量化相关技术现状,并且深入地总结归纳不同方法的优缺点,可以发现量化技术目前仍然存在的问题,并为未来可能的发展指明方向.
展开更多
关键词
深度神经网络
模型压缩与加速
模型
量化
量化感知训练
后
训练
量化
混合精度
量化
下载PDF
职称材料
基于时序信息的轻量级视频车辆目标检测方法
2
作者
符广
刘彦隆
刘建霞
《电子设计工程》
2024年第1期175-180,186,共7页
为实现在低功耗嵌入式设备上部署视频车辆目标检测模型,提出一种基于时序信息的轻量级视频车辆目标检测方法。该方法以SSD网络为基础,使用MobileNetV3-Small替换原主干特征提取网络VGG-16,并在SSD网络中直接注入注意力机制卷积GRU用于...
为实现在低功耗嵌入式设备上部署视频车辆目标检测模型,提出一种基于时序信息的轻量级视频车辆目标检测方法。该方法以SSD网络为基础,使用MobileNetV3-Small替换原主干特征提取网络VGG-16,并在SSD网络中直接注入注意力机制卷积GRU用于融合时序信息,提升车辆检测精度;关键帧检测网络控制的跳跃连接使模型只在关键帧更新GRU状态,非关键帧直接复制上一关键帧GRU状态,提升模型检测速度。为进一步减少计算量,网络中大量使用深度可分离卷积替换标准卷积层,同时使用量化感知训练方法压缩模型。在UA-DETRAC数据集上的实验表明,该方法在Intel Core i7 CPU和树莓派4B上平均每帧检测时间分别为18 ms和134 ms,准确率达到了较高水平,为78.81%。
展开更多
关键词
视频目标检测
时序信息融合
自适应关键帧
量化感知训练
下载PDF
职称材料
基于FPGA加速的低功耗的MobileNetV2 网络识别系统
被引量:
1
3
作者
孙小坚
林瑞全
+1 位作者
方子卿
马驰
《计算机测量与控制》
2023年第5期221-227,234,共8页
近年来,卷积神经网络由于其出色的性能被广泛应用在各个领域,如图像识别、语音识别与翻译和自动驾驶等;但是传统卷积神经网络(CNN,convolutional neural network)存在参数多,计算量大,部署在CPU与GPU上推理速度慢、功耗大的问题;针对上...
近年来,卷积神经网络由于其出色的性能被广泛应用在各个领域,如图像识别、语音识别与翻译和自动驾驶等;但是传统卷积神经网络(CNN,convolutional neural network)存在参数多,计算量大,部署在CPU与GPU上推理速度慢、功耗大的问题;针对上述问题,采用量化感知训练(QAT,quantization aware training)的方式在保证图像分类准确率的前提下,将网络参数总量压缩为原网络的1/4;将网络权重全部部署在FPGA的片内资源上,克服了片外存储带宽的限制,减少了访问片外存储资源带来的功耗;在MobileNetV2网络的层内以及相邻的点卷积层之间提出一种协同配合的流水线结构,极大地提高了网络的实时性;提出一种存储器与数据读取的优化策略,根据并行度调整数据的存储排列方式及读取顺序,进一步节约了片内BRAM资源。最终在Xilinx的Virtex-7 VC707开发板上实现了一套性能优、功耗小的轻量级卷积神经网络MobileNetV2识别系统,200 MHz时钟下达到了170.06 GOP/s的吞吐量,功耗仅为6.13 W,能耗比达到了27.74 GOP/s/W,是CPU的92倍,GPU的25倍,性能较其他实现有明显的优势。
展开更多
关键词
硬件加速
量化感知训练
MobileNet
并行计算
流水线结构
下载PDF
职称材料
题名
深度神经网络模型量化方法综述
被引量:
1
1
作者
杨春
张睿尧
黄泷
遆书童
林金辉
董志伟
陈松路
刘艳
殷绪成
机构
北京科技大学计算机与通信工程学院
北京科技大学自动化学院
北京科技大学−亿智电子人工智能联合实验室
出处
《工程科学学报》
EI
CSCD
北大核心
2023年第10期1613-1629,共17页
基金
国家新一代人工智能(2030)重大项目(2020AAA0109701)
国家自然科学基金资助项目(62076024,62006018)
中央高校基本科研业务费资助项目(FRF-IDRY-21-018)。
文摘
近年来,利用大型预训练模型来提高深度神经网络在计算机视觉以及自然语言处理等具体任务下的泛化能力和性能,逐渐成为基于深度学习的人工智能技术与应用的发展趋势.虽然这些深度神经网络模型表现优异,但是由于模型的结构复杂、参数量庞大与计算成本极高,使得它们仍然难以被部署在如家电或智能手机等资源受限的边缘及端侧硬件平台上,这很大程度上阻碍了人工智能技术的应用.因此,模型压缩与加速技术一直都是深度神经网络模型大规模商业化应用推广的关键问题之一.当前在多种模型压缩与加速方案中,模型量化是其中主要的有效方法之一.模型量化技术可以通过减少深度神经网络模型参数的位宽和中间过程特征图的位宽,从而达到压缩加速深度神经网络的目的,使量化后的网络能够部署在资源有限的边缘设备上,然而,由于量化会导致信息的大量丢失,如何在保证模型任务精度条件下实现模型量化已经成为热点问题.另外,因硬件设备以及应用场景的不同,模型量化技术已经发展成为一个多分支的研究问题.通过全面地调研不同角度下模型量化相关技术现状,并且深入地总结归纳不同方法的优缺点,可以发现量化技术目前仍然存在的问题,并为未来可能的发展指明方向.
关键词
深度神经网络
模型压缩与加速
模型
量化
量化感知训练
后
训练
量化
混合精度
量化
Keywords
deep neural network
model compression and acceleration
model quantization
quantization-aware training
post-training quantization
mixed-precision quantization
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于时序信息的轻量级视频车辆目标检测方法
2
作者
符广
刘彦隆
刘建霞
机构
太原理工大学信息与计算机学院
出处
《电子设计工程》
2024年第1期175-180,186,共7页
基金
太原理工大学项目资助(9002-03011843)。
文摘
为实现在低功耗嵌入式设备上部署视频车辆目标检测模型,提出一种基于时序信息的轻量级视频车辆目标检测方法。该方法以SSD网络为基础,使用MobileNetV3-Small替换原主干特征提取网络VGG-16,并在SSD网络中直接注入注意力机制卷积GRU用于融合时序信息,提升车辆检测精度;关键帧检测网络控制的跳跃连接使模型只在关键帧更新GRU状态,非关键帧直接复制上一关键帧GRU状态,提升模型检测速度。为进一步减少计算量,网络中大量使用深度可分离卷积替换标准卷积层,同时使用量化感知训练方法压缩模型。在UA-DETRAC数据集上的实验表明,该方法在Intel Core i7 CPU和树莓派4B上平均每帧检测时间分别为18 ms和134 ms,准确率达到了较高水平,为78.81%。
关键词
视频目标检测
时序信息融合
自适应关键帧
量化感知训练
Keywords
video object detection
temporal information fusion
adaptive keyframes
quantization⁃aware training
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于FPGA加速的低功耗的MobileNetV2 网络识别系统
被引量:
1
3
作者
孙小坚
林瑞全
方子卿
马驰
机构
福州大学电气工程与自动化学院
出处
《计算机测量与控制》
2023年第5期221-227,234,共8页
文摘
近年来,卷积神经网络由于其出色的性能被广泛应用在各个领域,如图像识别、语音识别与翻译和自动驾驶等;但是传统卷积神经网络(CNN,convolutional neural network)存在参数多,计算量大,部署在CPU与GPU上推理速度慢、功耗大的问题;针对上述问题,采用量化感知训练(QAT,quantization aware training)的方式在保证图像分类准确率的前提下,将网络参数总量压缩为原网络的1/4;将网络权重全部部署在FPGA的片内资源上,克服了片外存储带宽的限制,减少了访问片外存储资源带来的功耗;在MobileNetV2网络的层内以及相邻的点卷积层之间提出一种协同配合的流水线结构,极大地提高了网络的实时性;提出一种存储器与数据读取的优化策略,根据并行度调整数据的存储排列方式及读取顺序,进一步节约了片内BRAM资源。最终在Xilinx的Virtex-7 VC707开发板上实现了一套性能优、功耗小的轻量级卷积神经网络MobileNetV2识别系统,200 MHz时钟下达到了170.06 GOP/s的吞吐量,功耗仅为6.13 W,能耗比达到了27.74 GOP/s/W,是CPU的92倍,GPU的25倍,性能较其他实现有明显的优势。
关键词
硬件加速
量化感知训练
MobileNet
并行计算
流水线结构
Keywords
hardware acceleration
quantization aware training
MobileNetV2
parallel computing
pipeline structure
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
深度神经网络模型量化方法综述
杨春
张睿尧
黄泷
遆书童
林金辉
董志伟
陈松路
刘艳
殷绪成
《工程科学学报》
EI
CSCD
北大核心
2023
1
下载PDF
职称材料
2
基于时序信息的轻量级视频车辆目标检测方法
符广
刘彦隆
刘建霞
《电子设计工程》
2024
0
下载PDF
职称材料
3
基于FPGA加速的低功耗的MobileNetV2 网络识别系统
孙小坚
林瑞全
方子卿
马驰
《计算机测量与控制》
2023
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部