期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于硬件感知的多目标神经结构搜索方法
1
作者 许柯 孟源 +2 位作者 杨尚尚 田野 张兴义 《计算机学报》 EI CAS CSCD 北大核心 2023年第12期2651-2669,共19页
神经结构搜索技术可以在大量候选网络集合中搜索到适用于特定任务的神经网络结构.目前,大多数结构搜索网络的部署是针对英伟达GPU、英特尔CPU或谷歌TPU等硬件设备的.然而,将搜索到的架构迁移到一些AI专用加速器中,如寒武纪加速卡或华为A... 神经结构搜索技术可以在大量候选网络集合中搜索到适用于特定任务的神经网络结构.目前,大多数结构搜索网络的部署是针对英伟达GPU、英特尔CPU或谷歌TPU等硬件设备的.然而,将搜索到的架构迁移到一些AI专用加速器中,如寒武纪加速卡或华为Atlas推理加速器,推理效果却表现不佳.主要存在两方面的问题:在搜索空间设计层面,由于硬件架构设计对不同算子的支持存在差异,复用传统的搜索空间到专用神经网络加速器上,其推理效率不是最优的;在结构搜索层面,由于专用神经网络加速器在并行计算资源和数据流水通道等设计的不同,仅采用参数量、计算量作为搜索目标不能准确度量推理延迟,并且限制了神经结构搜索在精度和延迟上的探索空间.为了解决上述问题,本文提出一种基于硬件感知的多目标神经结构搜索方法,首先通过测试不同类型的卷积算子在目标硬件上的性能表现,使用非支配排序设计出定制化的高效搜索空间.然后,将延迟纳入搜索目标,提出一种启发式的混合粒度交叉算子,通过粗粒度阶段间交叉和细粒度阶段内交叉提高种群在多目标下的收敛性和多样性,更好地权衡神经网络的精度和推理延迟.本文主要针对国产寒武纪加速卡MLU270-F4进行了实验分析与方法验证,在CIFAR-10上搜索得到的MLUNet-S4精度比DARTS高0.14%的同时推理速度提升了4.7倍,相比于NSGANet精度仅下降0.04%的同时速度提升了5.5倍;在ILSVRC2012数据集上MLUNet-C相较于具有相同推理速度的Mobile Net V2和Mnas Net速度上提升了1.2倍的同时预测精度也分别提升了2.3%和0.2%,效果提升显著. 展开更多
关键词 图像分类 进化算法 多目标神经结构搜索 硬件感知神经结构搜索 寒武纪加速卡
下载PDF
硬件感知的高效特征融合网络搜索 被引量:1
2
作者 郭家明 张蕊 +5 位作者 支天 何得园 黄迪 常明 张曦珊 郭崎 《计算机学报》 EI CAS CSCD 北大核心 2022年第11期2420-2432,共13页
特征融合网络通过融合多尺度特征来提高目标检测精度,是深度学习目标检测框架中的关键部分.已有的研究工作通过优化融合网络的拓扑结构来提高结果精度,忽略了所需的硬件资源开销以及特征选择和特征融合操作对结果的影响.本文提出了支持... 特征融合网络通过融合多尺度特征来提高目标检测精度,是深度学习目标检测框架中的关键部分.已有的研究工作通过优化融合网络的拓扑结构来提高结果精度,忽略了所需的硬件资源开销以及特征选择和特征融合操作对结果的影响.本文提出了支持多尺度特征融合的注意力感知融合网络(Attention-aware Fusion Network,AFN),通过软硬件协同可实现硬件开销(参数存储、计算时间等)敏感的神经网络自动搜索,从融合网络的特征、路径和操作三方面实现一体化的优化部署.实验结果表明,当主干网络为ResNet50时,在实现相似检测精度时,相比现有最先进的搜索网络NAS-FPN,本文方法的参数量和计算量分别减少29.6%和22.3%,相比现有人工设计网络FPN,本文方法的AP可以提高2.1%.当主干网络为VGG时,相比现有最先进的搜索网络Auto-FPN,本文方法的AP提高了1.7%. 展开更多
关键词 目标检测 神经结构搜索 硬件开销
下载PDF
硬件感知的神经架构搜索
3
作者 王鑫 姚洋 +2 位作者 蒋昱航 关超宇 朱文武 《中国科学:信息科学》 CSCD 北大核心 2023年第5期899-917,共19页
深度神经网络(deep neural networks, DNNs)能否取得令人满意的性能很大程度上依赖于其神经网络架构.研究人员提出神经网络架构搜索(neural architecture search, NAS)来自动搜索神经网络的最优架构,现有的工作大多使用每秒浮点运算次数... 深度神经网络(deep neural networks, DNNs)能否取得令人满意的性能很大程度上依赖于其神经网络架构.研究人员提出神经网络架构搜索(neural architecture search, NAS)来自动搜索神经网络的最优架构,现有的工作大多使用每秒浮点运算次数(floating point operations per second, FLOPs)来评价神经网络架构的实际效率,但是FLOPs和实际延迟并不是完全一致的.随着任务变得越来越复杂以及越来越多的硬件平台开始运行基于深度神经网络的算法,为硬件平台搜索高效的神经网络架构已成为亟待解决的难题.为了解决这一问题,本文提出了硬件感知的搜索空间构造方法,并借助考虑架构推断延迟的搜索策略,来搜索最优的神经网络架构.本文在可变换神经网络架构搜索方法(transformable architecture search, TAS)和图神经网络架构搜索方法 (graph neural architecture search, GraphNAS)上应用了该方法,提出了硬件可感知的可变换神经网络架构搜索方法 (hardwareaware transformable architecture search, HTAS)和硬件感知的图神经网络架构搜索方法 (hardwareaware graph neural architecture search, HGNAS).相比于现有方法,本文所提出的这两种算法在多种数据集上均针对不同类型目标硬件搜索出了更加高效的深度神经网络架构,从而证明了该方法的有效性. 展开更多
关键词 深度学习 神经网络架构搜索 可变换神经网络架构搜索 神经网络架构搜索 硬件感知
原文传递
面向心电信号识别的卷积神经网络动态加速平台
4
作者 戈益坚 张海磊 +1 位作者 陈奔奔 于馨 《产业创新研究》 2021年第2期95-97,共3页
本文提出了一种基于最优结构搜索的心电信号识别平台设计,通过控制端训练控制神经网络搜索子神经网络最优结构,并生成硬件加速端上子神经网络结构的结构参数,把最优结构的结构参数和再训练的权重系数生成配置文件传输给硬件加速端,完成... 本文提出了一种基于最优结构搜索的心电信号识别平台设计,通过控制端训练控制神经网络搜索子神经网络最优结构,并生成硬件加速端上子神经网络结构的结构参数,把最优结构的结构参数和再训练的权重系数生成配置文件传输给硬件加速端,完成神经网络的推论。本设计能够动态地对硬件加速端的子神经网络进行最优结构搜索,并完成最优结构的子神经网络的推论过程。 展开更多
关键词 卷积神经网络 心电信号检测 最优结构搜索 硬件加速
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部