期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
Energy Efficient Hyperparameter Tuned Deep Neural Network to Improve Accuracy of Near-Threshold Processor
1
作者 K.Chanthirasekaran Raghu Gundaala 《Intelligent Automation & Soft Computing》 SCIE 2023年第7期471-489,共19页
When it comes to decreasing margins and increasing energy effi-ciency in near-threshold and sub-threshold processors,timing error resilience may be viewed as a potentially lucrative alternative to examine.On the other... When it comes to decreasing margins and increasing energy effi-ciency in near-threshold and sub-threshold processors,timing error resilience may be viewed as a potentially lucrative alternative to examine.On the other hand,the currently employed approaches have certain restrictions,including high levels of design complexity,severe time constraints on error consolidation and propagation,and uncontaminated architectural registers(ARs).The design of near-threshold circuits,often known as NT circuits,is becoming the approach of choice for the construction of energy-efficient digital circuits.As a result of the exponentially decreased driving current,there was a reduction in performance,which was one of the downsides.Numerous studies have advised the use of NT techniques to chip multiprocessors as a means to preserve outstanding energy efficiency while minimising performance loss.Over the past several years,there has been a clear growth in interest in the development of artificial intelligence hardware with low energy consumption(AI).This has resulted in both large corporations and start-ups producing items that compete on the basis of varying degrees of performance and energy use.This technology’s ultimate goal was to provide levels of efficiency and performance that could not be achieved with graphics processing units or general-purpose CPUs.To achieve this objective,the technology was created to integrate several processing units into a single chip.To accomplish this purpose,the hardware was designed with a number of unique properties.In this study,an Energy Effi-cient Hyperparameter Tuned Deep Neural Network(EEHPT-DNN)model for Variation-Tolerant Near-Threshold Processor was developed.In order to improve the energy efficiency of artificial intelligence(AI),the EEHPT-DNN model employs several AI techniques.The notion focuses mostly on the repercussions of embedded technologies positioned at the network’s edge.The presented model employs a deep stacked sparse autoencoder(DSSAE)model with the objective of creating a variation-tolerant NT processor.The time-consuming method of modifying hyperparameters through trial and error is substituted with the marine predators optimization algorithm(MPO).This method is utilised to modify the hyperparameters associated with the DSSAE model.To validate that the proposed EEHPT-DNN model has a higher degree of functionality,a full simulation study is conducted,and the results are analysed from a variety of perspectives.This was completed so that the enhanced performance could be evaluated and analysed.According to the results of the study that compared numerous DL models,the EEHPT-DNN model performed significantly better than the other models. 展开更多
关键词 deep learning hyperparameter tuning artificial intelligence near-threshold processor embedded system
下载PDF
Towards optimized tensor code generation for deep learning on sunway many-core processor
2
作者 Mingzhen LI Changxi LIU +8 位作者 Jianjin LIAO Xuegui ZHENG Hailong YANG Rujun SUN Jun XU Lin GAN Guangwen YANG Zhongzhi LUAN Depei QIAN 《Frontiers of Computer Science》 SCIE EI CSCD 2024年第2期1-15,共15页
The flourish of deep learning frameworks and hardware platforms has been demanding an efficient compiler that can shield the diversity in both software and hardware in order to provide application portability.Among th... The flourish of deep learning frameworks and hardware platforms has been demanding an efficient compiler that can shield the diversity in both software and hardware in order to provide application portability.Among the existing deep learning compilers,TVM is well known for its efficiency in code generation and optimization across diverse hardware devices.In the meanwhile,the Sunway many-core processor renders itself as a competitive candidate for its attractive computational power in both scientific computing and deep learning workloads.This paper combines the trends in these two directions.Specifically,we propose swTVM that extends the original TVM to support ahead-of-time compilation for architecture requiring cross-compilation such as Sunway.In addition,we leverage the architecture features during the compilation such as core group for massive parallelism,DMA for high bandwidth memory transfer and local device memory for data locality,in order to generate efficient codes for deep learning workloads on Sunway.The experiment results show that the codes generated by swTVM achieve 1.79x improvement of inference latency on average compared to the state-of-the-art deep learning framework on Sunway,across eight representative benchmarks.This work is the first attempt from the compiler perspective to bridge the gap of deep learning and Sunway processor particularly with productivity and efficiency in mind.We believe this work will encourage more people to embrace the power of deep learning and Sunwaymany-coreprocessor. 展开更多
关键词 sunway processor deep learning compiler code generation performance optimization
原文传递
申威26010众核处理器上Winograd卷积算法的研究与优化
3
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 Winograd卷积 高性能计算 并行算法 申威处理器
下载PDF
基于ARM+DLP+SRIO的嵌入式智能计算系统研究 被引量:9
4
作者 赵二虎 吴济文 +2 位作者 查晶晶 郭振 徐勇军 《电子学报》 EI CAS CSCD 北大核心 2021年第3期443-453,共11页
以x86+GPU为代表的当前主流AI计算平台,受限于功耗、体积、带宽、环境适应性等因素,无法适用于物端及边缘智能计算场景.提出并研究了一种基于ARM+DLP+SRIO的嵌入式智能计算系统,从AI算力、能效比、IO带宽三个方面分析了所提嵌入式智能... 以x86+GPU为代表的当前主流AI计算平台,受限于功耗、体积、带宽、环境适应性等因素,无法适用于物端及边缘智能计算场景.提出并研究了一种基于ARM+DLP+SRIO的嵌入式智能计算系统,从AI算力、能效比、IO带宽三个方面分析了所提嵌入式智能计算系统的设计思路和技术优势,并实验验证了该系统的功能及性能指标.实验结果表明:基于ARM+DLP+SRIO的嵌入式智能计算系统AI峰值算力达到114.9TOPS,能效比达到1.03TFLOPS/W,IO带宽达到20Gbps.在智能计算系统领域,其能效比优于国内其它已知同类板卡或系统,嵌入式环境适应能力优于传统台式机和服务器,可作为物端及边缘环境下AI计算任务的通用硬件加速平台. 展开更多
关键词 人工智能 深度学习处理器 嵌入式智能计算系统 串行RAPIDIO 能效比
下载PDF
DLPlib: A Library for Deep Learning Processor 被引量:5
5
作者 Hui-Ying Lan Lin-Yang Wu +6 位作者 Xiao Zhang Jin-Hua Tao Xun-Yu Chen Bing-Rui Wang Yu-Qing Wang Qi Guo Yun-Ji Chen 《Journal of Computer Science & Technology》 SCIE EI CSCD 2017年第2期286-296,共11页
Recently, deep learning processors have become one of the most promising solutions of accelerating deep learning algorithms. Currently, the only method of programming the deep learning processors is through writing as... Recently, deep learning processors have become one of the most promising solutions of accelerating deep learning algorithms. Currently, the only method of programming the deep learning processors is through writing assembly instructions by bare hands, which costs a lot of programming efforts and causes very low efficiency. One solution is to integrate the deep learning processors as a new back-end into one prevalent high-level deep learning framework (e.g., TPU (tensor processing unit) is integrated into Tensorflow directly). However, this will obstruct other frameworks to profit from the programming interface, The alternative approach is to design a framework-independent low-level library for deep learning processors (e.g., the deep learning library for GPU, cuDNN). In this fashion, the library could be conveniently invoked in high-level programming frameworks and provides more generality. In order to allow more deep learning frameworks to gain benefits from this environment, we envision it as a low-level library which could be easily embedded into current high-level frameworks and provide high performance. Three major issues of designing such a library are discussed. The first one is the design of data structures. Data structures should be as few as possible while being able to support all possible operations. This will allow us to optimize the data structures easier without compromising the generality. The second one is the selection of operations, which should provide a rather wide range of operations to support various types of networks with high efficiency. The third is the design of the API, which should provide a flexible and user-friendly programming model and should be easy to be embedded into existing deep learning frameworks. Considering all the above issues, we propose DLPIib, a tensor-filter based library designed specific for deep learning processors. It contains two major data structures, tensor and filter, and a set of operators including basic neural network primitives and matrix/vector operations. It provides a descriptor-based API exposed as a C++ interface. The library achieves a speedup of 0.79x compared with the performance of hand-written assembly instructions. 展开更多
关键词 deep learning processor API LIBRARY dlplib
原文传递
实时车牌识别边缘系统设计及FPGA实现 被引量:1
6
作者 汤诺辉 林志坚 +1 位作者 陈平平 郭里婷 《福州大学学报(自然科学版)》 CAS 北大核心 2023年第3期333-339,共7页
为解决边缘设备端车牌识别系统适应性差和识别率低的问题,提出一种基于深度学习处理单元(DPU)的车牌识别系统设计方法.该方法首先将车牌识别网络进行改造使其可在DPU上运行,并通过压缩与激励(SE)模块组合优化神经网络识别率.将DPU部署... 为解决边缘设备端车牌识别系统适应性差和识别率低的问题,提出一种基于深度学习处理单元(DPU)的车牌识别系统设计方法.该方法首先将车牌识别网络进行改造使其可在DPU上运行,并通过压缩与激励(SE)模块组合优化神经网络识别率.将DPU部署在现场可编程门阵列(FPGA)上,调用神经网络对视频图像进行车牌识别,设计出可兼顾新能源车牌的车牌识别系统.实验结果表明,以大规模数据集作为图像输入,车牌识别系统的平均识别准确率可达94.1%,运行速率可达4 ms. 展开更多
关键词 车牌识别 深度学习处理单元 神经网络 现场可编程门阵列
下载PDF
嵌入式异构智能计算系统并行多流水线设计
7
作者 赵二虎 吴济文 +2 位作者 肖思莹 晋振杰 徐勇军 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3354-3364,共11页
嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+D... 嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+DLP+SRIO嵌入式异构智能计算架构,利用智能处理器多片多核多内存通道特性,提出了并行多流水线设计方法.该方法充分考虑智能计算业务中数据传输、拷贝、推理、结果反馈等环节时间开销,为不同的神经网络模型合理分配智能算力资源,以达到最大的端到端智能计算业务吞吐率.实验结果表明,采用并行多流水线设计方法的深度学习处理器利用率较单流水线平均提高约25.2%,较无流水线平均提高约30.7%,满足可见光、红外、SAR等多模图像实时智能处理需求,具有实际应用价值. 展开更多
关键词 嵌入式智能计算系统 异构计算架构 神经网络模型 并行多流水线 深度学习处理器
下载PDF
基于视觉处理器芯片的遥感图像智能处理系统设计与验证
8
作者 于双铭 武文波 +3 位作者 窦润江 刘力源 刘剑 吴南健 《航天返回与遥感》 CSCD 北大核心 2023年第5期54-64,共11页
随着遥感卫星成像技术向高分辨率、高帧率的方向快速发展,星上遥感图像处理技术面临海量数据处理速度慢、有效信息提取能力不足、载荷功耗高等瓶颈问题。文章提出一种面向星上处理的遥感图像智能处理系统,系统架构设计基于一款边缘型视... 随着遥感卫星成像技术向高分辨率、高帧率的方向快速发展,星上遥感图像处理技术面临海量数据处理速度慢、有效信息提取能力不足、载荷功耗高等瓶颈问题。文章提出一种面向星上处理的遥感图像智能处理系统,系统架构设计基于一款边缘型视觉处理器芯片,该芯片为可重构并行处理器架构,可通过指令编程兼容支持图像预处理算法、计算机视觉算法和深度学习神经网络算法。基于算法-硬件协同设计思想,对图像处理算法进行了剪枝和量化等压缩优化,在芯片上实现算法的高效部署。搭建基于视觉处理器芯片的遥感图像智能处理系统,进行实验验证。结果表明,该系统能够完成对遥感图像的实时目标检测等智能化处理,系统处理能力达到200 M像素/s,芯片峰值计算能效达到2×1012次/W(300 MHz时)。 展开更多
关键词 遥感图像 图像处理 视觉处理器 深度学习神经网络
下载PDF
融合循环划分的张量指令生成优化
9
作者 梁佳利 华保健 苏少博 《计算机科学》 CSCD 北大核心 2023年第2期374-383,共10页
张量编译器支持将算子的张量描述和计算调度编译为目标硬件的代码。为加速张量运算,深度学习领域专用处理器被设计为包含特殊指令的专有架构,支持多核并行、多级专用内存架构和张量计算,在硬件之上还有与硬件特性紧密相关的张量指令集... 张量编译器支持将算子的张量描述和计算调度编译为目标硬件的代码。为加速张量运算,深度学习领域专用处理器被设计为包含特殊指令的专有架构,支持多核并行、多级专用内存架构和张量计算,在硬件之上还有与硬件特性紧密相关的张量指令集。在这样复杂的架构上,张量指令的使用有着许多约束与限制,并存在以下问题和挑战:首先,因计算任务划分或数据切块等循环分段引入的条件分支增加了模式匹配难度;其次,张量指令有对齐、数据布局等硬件约束。针对上述问题和挑战,提出了一种融合循环划分的张量指令生成优化算法。算法通过划分循环区间,来消除因任务划分或数据切分引入的条件分支;通过补零、等价指令替换和添加额外计算来解决指令和硬件约束;并使用模式匹配的方法生成张量指令。研究并扩展开源深度学习编译器TVM 0.7版本,实现了支持DianNao架构机器学习加速器的张量指令生成的编译器原型系统。为评测算法的有效性,在DianNao架构机器学习加速器硬件平台上,对逐元素二元张量操作算子、原地一元张量操作算子和卷积操作算子3类算子的性能和开发效率进行了测试,实验结果表明3类算子性能平均加速比为125.00%,最大加速比为194.00%,开发效率最高提升了7倍。 展开更多
关键词 深度学习 张量编译器 领域专用处理器 张量化 循环划分
下载PDF
半导体智能视觉系统芯片
10
作者 吴南健 《中兴通讯技术》 2020年第2期38-42,共5页
介绍半导体智能视觉系统芯片的研究背景、基本概念、体系架构的演变、设计案例及今后的发展方向。认为半导体智能视觉系统芯片是一种支持图像获取、计算视觉和深度学习融合处理的典型边缘计算型视觉系统芯片,具备实现或超越人类视觉系... 介绍半导体智能视觉系统芯片的研究背景、基本概念、体系架构的演变、设计案例及今后的发展方向。认为半导体智能视觉系统芯片是一种支持图像获取、计算视觉和深度学习融合处理的典型边缘计算型视觉系统芯片,具备实现或超越人类视觉系统的功能及其性能的潜力,在高速运动目标的实时追踪、图像识别、智能交通、虚拟现实、机器人、生产线自动产品质量检测及各类智能化玩具等领域具有广泛的应用前景。 展开更多
关键词 智能 视觉系统芯片 图像传感 视觉处理器 计算视觉 深度学习
下载PDF
基于Jetson Nano处理器的大蒜鳞芽朝向调整装置设计与试验 被引量:10
11
作者 李玉华 刘全程 +3 位作者 李天华 吴彦强 牛子孺 侯加林 《农业工程学报》 EI CAS CSCD 北大核心 2021年第7期35-42,共8页
为满足大蒜定向播种的农艺要求,针对现有大蒜鳞芽调整方法对杂交蒜适应性差的问题,该研究设计了一种基于Jetson Nano处理器的大蒜鳞芽朝向自动调整装置。采用双卷积神经网络模型结构,其中一个神经网络模型对大蒜是否被喂入进行实时监测... 为满足大蒜定向播种的农艺要求,针对现有大蒜鳞芽调整方法对杂交蒜适应性差的问题,该研究设计了一种基于Jetson Nano处理器的大蒜鳞芽朝向自动调整装置。采用双卷积神经网络模型结构,其中一个神经网络模型对大蒜是否被喂入进行实时监测,检测到大蒜喂入调整装置后,一个ResNet-18网络模型对蒜种鳞芽朝向进行判断,当鳞芽朝上时大蒜鳞芽调整机构打开Y型料斗使大蒜以鳞芽朝上的姿态直接落下,当鳞芽朝下时大蒜鳞芽调整机构翻转180°带动大蒜一起翻转后以鳞芽朝上的姿态落下,实现大蒜鳞芽朝向实时调整。神经网络模型推理及舵机控制采用英伟达边缘计算处理器Jetson Nano进行处理。利用离散元分析软件EDEM结合正交试验方法对调整装置的关键结构参数进行优化,并以杂交大蒜为试验对象进行台架试验,试验结果表明:大蒜鳞芽调整成功率为96.25%,模型推理时间0.045 s,平均每粒大蒜调整时间为0.785 s,满足大蒜播种机播种要求。该文研究结果可为解决杂交大蒜直立播种问题及边缘计算在精密播种设备中的应用提供有益参考。 展开更多
关键词 机器视觉 深度学习 边缘计算 Jetson Nano处理器 大蒜 鳞芽朝向
下载PDF
面向图像识别的深度学习VLIW处理器设计 被引量:2
12
作者 李林 张盛兵 吴鹃 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期216-224,共9页
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中... 为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。 展开更多
关键词 图像识别 深度学习 卷积神经网络 超长指令字(VLIW) 处理器 可扩展
下载PDF
基于DPU的低功耗嵌入式手势识别系统设计 被引量:2
13
作者 黎海涛 刘鸣 张帅 《北京信息科技大学学报(自然科学版)》 2021年第3期1-7,共7页
为了解决嵌入式手势识别系统的速度慢和功耗高的问题,提出基于深度学习处理单元(deep-learning processor unit,DPU)的手势识别系统设计方法。通过把DPU部署于现场可编程门阵列(field programmable gate array,FPGA)器件,再调用ResNet-5... 为了解决嵌入式手势识别系统的速度慢和功耗高的问题,提出基于深度学习处理单元(deep-learning processor unit,DPU)的手势识别系统设计方法。通过把DPU部署于现场可编程门阵列(field programmable gate array,FPGA)器件,再调用ResNet-50网络对手势图片进行识别,设计并实现了一套低功耗的手势识别系统。实验结果表明,系统在工作频率为150 MHz时识别准确率为97.7%,运行速率可以达到129 GOPS,其能效比为26.3 GOPS/W,优于一些现有嵌入式FPGA神经网络手势识别实现方法。 展开更多
关键词 深度学习处理单元 手势识别 神经网络 现场可编程门阵列
下载PDF
一种运算和数据协同优化的深度学习编译框架 被引量:3
14
作者 吴林阳 杜伟健 +1 位作者 陈小兵 庄毅敏 《高技术通讯》 EI CAS 北大核心 2020年第2期120-125,共6页
近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不... 近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不能发挥深度学习处理器的峰值性能。本文分析了深度学习算法和硬件平台的特点,提出一种运算和数据协同优化的深度学习编译框架CDUCA,它包含计算图引擎、代码生成器、数据优化器3个不同层次的组件,在多个层次对运算和数据进行协同优化,最终生成高效的可部署模型。本文在现场可编程门阵列(FPGA)平台上评估了CDUCA,实验结果表明,对于典型的深度学习应用,CDUCA生成的模型性能能达到手工优化模型性能的86.5%。 展开更多
关键词 深度学习 深度学习处理器 编译器 编译优化
下载PDF
面向多核处理器的机器学习推理框架 被引量:6
15
作者 张潇 支天 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1977-1987,共11页
近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处... 近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度.然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性.传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源.考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能.提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延. 展开更多
关键词 深度学习框架 多核处理器 低延迟推理 算子拆分 循环神经网络
下载PDF
深度学习在电网智能调控系统中应用研究 被引量:8
16
作者 肖倩宏 康鹏 +2 位作者 杜江 宋弦 安甦 《机械与电子》 2021年第1期38-42,共5页
基于对人工智能深度学习的研究,将该技术与电力智能调控深入融合,实现以数据、知识为基础的实时在线分析控制型电力调控。首先,分析深度学习的发展及其对电网调度的影响,针对深度学习在出力预测、状态估计和故障诊断方面的应用进行说明... 基于对人工智能深度学习的研究,将该技术与电力智能调控深入融合,实现以数据、知识为基础的实时在线分析控制型电力调控。首先,分析深度学习的发展及其对电网调度的影响,针对深度学习在出力预测、状态估计和故障诊断方面的应用进行说明。然后,提出基于人工智能深度学习的电力调控系统构架,分析其与传统调控系统的区别,突出了该系统所实现的功能。接着,采用基于多核图像处理器(MGP)系统,阐明了所提出的智能调控系统实现的方法。最后,通过分析人工智能化调控系统的应用案例,说明该系统具有广泛的应用性。 展开更多
关键词 深度学习 电力系统调度 人工智能 多核图像处理
下载PDF
一种类CPU的深度学习协处理器架构 被引量:2
17
作者 丁然 林建文 +1 位作者 朱振华 刘弋波 《中国集成电路》 2020年第7期41-52,共12页
深度学习是当前人工智能领域的关键技术之一,它在图像识别、语音识别、自然语言处理等领域均取得了突破性的成绩,大大推进了人工智能的发展。然而,随着深度学习的发展,它的核心问题也愈显突出,如高计算量、高数据带宽、应用碎片化等,这... 深度学习是当前人工智能领域的关键技术之一,它在图像识别、语音识别、自然语言处理等领域均取得了突破性的成绩,大大推进了人工智能的发展。然而,随着深度学习的发展,它的核心问题也愈显突出,如高计算量、高数据带宽、应用碎片化等,这些问题成为近年来制约相关技术发展的关键因素。本文融合了CPU和专用处理器各自的优势,提出了一种类CPU的深度学习协处理器架构,该架构具有可灵活编程、高计算密度等的特点,同时,由于该处理器还采用了存算紧耦的计算架构,因此能有效重复利用权重等数据,降低了对带宽的需求。本文从硬件架构、软件架构、软件编程模型、软件运行模型等多个角度介绍类CPU的深度学习协处理器架构,同时基于该架构的处理器芯片也已经在28nm下流片成功,进一步验证了该架构的可行性。 展开更多
关键词 深度学习 处理器 存算紧耦
下载PDF
基于Vitis-AI架构的语义分割ENET模型实现 被引量:2
18
作者 胡凯 刘彤 +1 位作者 武亚恒 谢达 《电子与封装》 2022年第3期74-78,共5页
随着人工智能(Artificial Intelligence,AI)在自动驾驶和可穿戴等复杂环境中得到广泛应用,一种高效率的语义分割模型成为神经网络模型重要的解决对象。以传统ENET网络模型为基础,提出改进ENET网络,可利用深度学习处理单元(DPU)内部的EeL... 随着人工智能(Artificial Intelligence,AI)在自动驾驶和可穿戴等复杂环境中得到广泛应用,一种高效率的语义分割模型成为神经网络模型重要的解决对象。以传统ENET网络模型为基础,提出改进ENET网络,可利用深度学习处理单元(DPU)内部的EeLU激活函数硬件模式减少参数以改进ENET网络,提高DPU的工作性能。通过搭建语义分割的Vitis-AI架构平台,完成构建量化模型和模型网络的训练学习。对比分析多种语义分割试验结果,改进ENET网络,使用更少计算资源达到最优精度,在ZCU106的硬件平台上进行部署,对改进ENET网络的性能进行分析,结果表明试验结果和仿真结果一致。 展开更多
关键词 深度学习处理单元 ENET网络 语义分割
下载PDF
BENCHIP: Benchmarking Intelligence Processors 被引量:2
19
作者 Jin-Hua Tao Zi-Dong Du +12 位作者 Qi Guo Hui-Ying Lan Lei Zhang Sheng-Yuan Zhou Ling-Jie Xu Cong Liu Hai-Feng Liu Shah Tang Allen Rush Willian Chen Shao-Li Liu Yun-Ji Chen Tian-Shi Chen 《Journal of Computer Science & Technology》 SCIE EI CSCD 2018年第1期1-23,共23页
The increasing attention on deep learning has tremendously spurred the design of intelligence processing hardware. The variety of emerging intelligence processors requires standard benchmarks for fair comparison and s... The increasing attention on deep learning has tremendously spurred the design of intelligence processing hardware. The variety of emerging intelligence processors requires standard benchmarks for fair comparison and system optimization (in both software and hardware). However, existing benchmarks are unsuitable for benchmarking intelligence processors due to their non-diversity and nonrepresentativeness. Also, the lack of a standard benchmarking methodology further exacerbates this problem. In this paper, we propose BENCHIP, a benchmark suite and benchmarking methodology for intelligence processors. The benchmark suite in BENCHIP consists of two sets of benchmarks: microbenchmarks and macrobenchmarks. The microbenchmarks consist of single-layer networks, They are mainly designed for bottleneck analysis and system optimization. The macrobenchmarks contain state-of-the-art industrial networks, so as to offer a realistic comparison of different platforms. We also propose a standard benchmarking methodology built upon an industrial software stack and evaluation metrics that comprehensively reflect various characteristics of the evaluated intelligence processors, BENCHIP is utilized for evaluating various hardware platforms, including CPUs, GPUs, and accelerators. BENCHIP will be open-sourced soon. 展开更多
关键词 deep learning intelligence processor BENCHMARK
原文传递
基于通用向量DSP的深度学习硬件加速技术 被引量:3
20
作者 王慧丽 郭阳 屈婉霞 《中国科学:信息科学》 CSCD 北大核心 2019年第3期256-276,共21页
随着深度学习在众多领域发挥着越来越重要的作用,如何设计高性能、低功耗、低延迟的深度学习硬件加速器成为体系结构领域的研究热点.本文基于深度学习算法模型的结构和优化方法,分析了深度学习硬件实现中面临的困难和挑战,并对比当前主... 随着深度学习在众多领域发挥着越来越重要的作用,如何设计高性能、低功耗、低延迟的深度学习硬件加速器成为体系结构领域的研究热点.本文基于深度学习算法模型的结构和优化方法,分析了深度学习硬件实现中面临的困难和挑战,并对比当前主流的深度学习硬件加速平台的优势和不足,提出了基于飞腾–迈创通用向量DSP的深度学习硬件加速方案,对其向量广播、矩阵转换等加速技术进行了阐述.并围绕目前通用向量DSP硬件加速的不足,对兼顾通用向量计算和专用深度学习计算的可重构计算阵列等优化技术进行了深入的探讨与研究. 展开更多
关键词 深度学习 体系结构 硬件设计 加速器 数字信号处理器(DSP)
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部