期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
Cambricon-QR:a sparse and bitwise reproducible quantized training accelerator
1
作者 李楠 ZHAO Yongwei +7 位作者 ZHI Tian LIU Chang DU Zidong HU Xing LI Wei ZHANG Xishan LI Ling SUN Guangzhong 《High Technology Letters》 EI CAS 2024年第1期52-60,共9页
Quantized training has been proven to be a prominent method to achieve deep neural network training under limited computational resources.It uses low bit-width arithmetics with a proper scaling factor to achieve negli... Quantized training has been proven to be a prominent method to achieve deep neural network training under limited computational resources.It uses low bit-width arithmetics with a proper scaling factor to achieve negligible accuracy loss.Cambricon-Q is the ASIC design proposed to efficiently support quantized training,and achieves significant performance improvement.However,there are still two caveats in the design.First,Cambricon-Q with different hardware specifications may lead to different numerical errors,resulting in non-reproducible behaviors which may become a major concern in critical applications.Second,Cambricon-Q cannot leverage data sparsity,where considerable cycles could still be squeezed out.To address the caveats,the acceleration core of Cambricon-Q is redesigned to support fine-grained irregular data processing.The new design not only enables acceleration on sparse data,but also enables performing local dynamic quantization by contiguous value ranges(which is hardware independent),instead of contiguous addresses(which is dependent on hardware factors).Experimental results show that the accuracy loss of the method still keeps negligible,and the accelerator achieves 1.61×performance improvement over Cambricon-Q,with about 10%energy increase. 展开更多
关键词 quantized training sparse accelerator Cambricon-QR
下载PDF
基于深度学习的场景分割算法研究综述 被引量:21
2
作者 张蕊 李锦涛 《计算机研究与发展》 EI CSCD 北大核心 2020年第4期859-875,共17页
场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,同时在自动驾驶、视频监控、增强现实等诸多领域具有广泛的应用价值.近年来,基于深度学习的场景分割... 场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,同时在自动驾驶、视频监控、增强现实等诸多领域具有广泛的应用价值.近年来,基于深度学习的场景分割技术取得了突破性进展,与传统场景分割算法相比获得分割精度的大幅度提升.首先分析和描述场景分割问题面临的3个主要难点:分割粒度细、尺度变化多样、空间相关性强;其次着重介绍了目前大部分基于深度学习的场景分割算法采用的“卷积反卷积”结构;在此基础上,对近年来出现的基于深度学习的场景分割算法进行梳理,介绍针对场景分割问题的3个主要难点,分别提出基于高分辨率语义特征图、基于多尺度信息和基于空间上下文等场景分割算法;简要介绍常用的场景分割公开数据集;最后对基于深度学习的场景分割算法的研究前景进行总结和展望. 展开更多
关键词 场景分割 图像分割 深度学习 神经网络 全卷积网络
下载PDF
提升高性能计算程序性能可移植性的领域特定语言 被引量:1
3
作者 李韦 文渊博 +1 位作者 孙广中 陈云霁 《高技术通讯》 EI CAS 北大核心 2020年第2期141-149,共9页
高性能计算(HPC)应用程序大多基于标准函数库和编译制导语句进行编写,这种做法可以有效提升高性能计算应用的可编程性和可移植性。相比传统优化方法中针对单个函数库进行优化,本文的研究将优化注意力放到不同函数库调用之间,提出了一种... 高性能计算(HPC)应用程序大多基于标准函数库和编译制导语句进行编写,这种做法可以有效提升高性能计算应用的可编程性和可移植性。相比传统优化方法中针对单个函数库进行优化,本文的研究将优化注意力放到不同函数库调用之间,提出了一种用于高性能函数库的领域特定语言及编译器,实现了对原始C代码的源代码到源代码优化,解决了因为胶水代码而产生的高性能计算程序性能可移植性欠佳的问题。实验结果表明,在真实应用中,使用支持该领域特定语言的编译器,在通用处理器硬件架构上,可以取得相比原始版本最高4.89倍的优化加速;而在实验性的异构高峰值加速器架构上,可以取得最高8.21倍的优化加速。 展开更多
关键词 高性能计算(HPC) 可移植性 胶水代码 领域特定语言 编译器
下载PDF
面向多核处理器的机器学习推理框架 被引量:6
4
作者 张潇 支天 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1977-1987,共11页
近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处... 近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度.然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性.传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源.考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能.提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延. 展开更多
关键词 深度学习框架 多核处理器 低延迟推理 算子拆分 循环神经网络
下载PDF
一种运算和数据协同优化的深度学习编译框架 被引量:3
5
作者 吴林阳 杜伟健 +1 位作者 陈小兵 庄毅敏 《高技术通讯》 EI CAS 北大核心 2020年第2期120-125,共6页
近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不... 近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不能发挥深度学习处理器的峰值性能。本文分析了深度学习算法和硬件平台的特点,提出一种运算和数据协同优化的深度学习编译框架CDUCA,它包含计算图引擎、代码生成器、数据优化器3个不同层次的组件,在多个层次对运算和数据进行协同优化,最终生成高效的可部署模型。本文在现场可编程门阵列(FPGA)平台上评估了CDUCA,实验结果表明,对于典型的深度学习应用,CDUCA生成的模型性能能达到手工优化模型性能的86.5%。 展开更多
关键词 深度学习 深度学习处理器 编译器 编译优化
下载PDF
DSNNs:learning transfer from deep neural networks to spiking neural networks 被引量:1
6
作者 张磊 Du Zidong +1 位作者 Li Ling Chen Yunji 《High Technology Letters》 EI CAS 2020年第2期136-144,共9页
Deep neural networks(DNNs)have drawn great attention as they perform the state-of-the-art results on many tasks.Compared to DNNs,spiking neural networks(SNNs),which are considered as the new generation of neural netwo... Deep neural networks(DNNs)have drawn great attention as they perform the state-of-the-art results on many tasks.Compared to DNNs,spiking neural networks(SNNs),which are considered as the new generation of neural networks,fail to achieve comparable performance especially on tasks with large problem sizes.Many previous work tried to close the gap between DNNs and SNNs but used small networks on simple tasks.This work proposes a simple but effective way to construct deep spiking neural networks(DSNNs)by transferring the learned ability of DNNs to SNNs.DSNNs achieve comparable accuracy on large networks and complex datasets. 展开更多
关键词 DEEP leaning SPIKING NEURAL network(SNN) CONVERT METHOD spatially folded NETWORK
下载PDF
A survey of neural network accelerator with software development environments
7
作者 Jin Song Xuemeng Wang +2 位作者 Zhipeng Zhao Wei Li Tian Zhi 《Journal of Semiconductors》 EI CAS CSCD 2020年第2期20-28,共9页
Recent years,the deep learning algorithm has been widely deployed from cloud servers to terminal units.And researchers proposed various neural network accelerators and software development environments.In this article... Recent years,the deep learning algorithm has been widely deployed from cloud servers to terminal units.And researchers proposed various neural network accelerators and software development environments.In this article,we have reviewed the representative neural network accelerators.As an entirety,the corresponding software stack must consider the hardware architecture of the specific accelerator to enhance the end-to-end performance.And we summarize the programming environments of neural network accelerators and optimizations in software stack.Finally,we comment the future trend of neural network accelerator and programming environments. 展开更多
关键词 neural network accelerator compiling optimization programming environments
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部