期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于CUDA技术的卷积神经网络识别算法 被引量:9
1
作者 张佳康 陈庆奎 《计算机工程》 CAS CSCD 北大核心 2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP... 针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。 展开更多
关键词 流处理器 单指令多线程 GTX200硬件架构 CUDA技术 卷积神经网络
下载PDF
面向粗粒度数据流网络处理器的混合定制硬件加速
2
作者 李韬 孙志刚 《计算机工程与科学》 CSCD 北大核心 2011年第11期40-47,共8页
本文针对控制流网络处理器固定拓扑结构的限制及指令集并行性开发的不足,将粗粒度数据流设计思想引入到网络处理器体系结构设计中,提出了一种新型粗粒度数据流网络处理器体系结构-DynaNP。DynaNP利用处理引擎(PE)内控制流执行方式获得... 本文针对控制流网络处理器固定拓扑结构的限制及指令集并行性开发的不足,将粗粒度数据流设计思想引入到网络处理器体系结构设计中,提出了一种新型粗粒度数据流网络处理器体系结构-DynaNP。DynaNP利用处理引擎(PE)内控制流执行方式获得较高的可编程性,还利用PE间数据流执行方式开发了报文处理中的任务级并行性。为了进一步提高DynaNP的系统流量,面向DynaNP的多核及数据流特性,设计了混合定制硬件加速机制,并详细介绍了实现混合定制硬件加速的关键技术,通过提供统一的混合定制硬件加速接口,可以支持定制指令和协处理器两种典型硬件加速器。 展开更多
关键词 网络处理器 数据流 定制硬件 协处理器 定制指令
下载PDF
基于RISC-V的图卷积神经网络加速器设计
3
作者 周理 赵祉乔 +2 位作者 潘国腾 铁俊波 赵王 《计算机工程与科学》 CSCD 北大核心 2023年第12期2113-2120,共8页
图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活... 图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活性,提出一种基于RSIC-V SoC的定制GCN加速器,在蜂鸟E203的SoC平台中通过点积运算扩展指令和硬件加速器软硬件协同的方法实现了针对GCN的加速,通过神经网络参数分析确定了从浮点数到32位定点数的硬件量化方案。实验结果表明,在Cora数据集上运行GCN算法时,该加速器没有精度损失,速度最高提高了6.88倍。 展开更多
关键词 RISC-V 图卷积神经网络 硬件加速器 指令集
下载PDF
基于RISC-V的卷积神经网络专用指令集处理器 被引量:4
4
作者 廖汉松 吴朝晖 李斌 《计算机工程》 CAS CSCD 北大核心 2021年第7期196-204,共9页
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,... 针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理Squeeze Net网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。 展开更多
关键词 RISC-V指令集 卷积神经网络 领域专用架构 专用指令集处理器 硬件加速
下载PDF
新型纯硬件多媒体教学网的设计与实现 被引量:1
5
作者 蒋丽 李令达 《现代教育技术》 2003年第1期66-69,共4页
该文介绍了一种新型纯硬件多媒体教学网的组网技术和方法,给出了纯硬件多媒体教学网的网络布局和教学流程图。该教学网能够方便地实现广播教学、个别辅导和自由练习等多种教学方式,具有经济实用、组网简单、操作方便等特点。该技术还特... 该文介绍了一种新型纯硬件多媒体教学网的组网技术和方法,给出了纯硬件多媒体教学网的网络布局和教学流程图。该教学网能够方便地实现广播教学、个别辅导和自由练习等多种教学方式,具有经济实用、组网简单、操作方便等特点。该技术还特别适合将老机房改造为多媒体网络教室。 展开更多
关键词 多媒体教学网 纯硬件 网络教学
下载PDF
网络环境下地学可视化软件实时性能瓶颈分析
6
作者 段文超 《勘探地球物理进展》 2008年第3期225-230,共6页
就网络环境下地学可视化软件目前普遍存在的实时性问题展开讨论,对本地和网络环境下硬件指令协议流的流向和流量进行分析,认为网络环境下地学可视化软件存在实时性能瓶颈的本质原因是网络带宽不足,并结合实例进行了解释。在此基础上讨论... 就网络环境下地学可视化软件目前普遍存在的实时性问题展开讨论,对本地和网络环境下硬件指令协议流的流向和流量进行分析,认为网络环境下地学可视化软件存在实时性能瓶颈的本质原因是网络带宽不足,并结合实例进行了解释。在此基础上讨论了3种相应的解决方案:①以三维网络游戏为代表的胖客户端方案;②以集群或者大型机的强劲计算能力代替硬件加速的并行绘制方案;③远程硬件加速方案。通过分析指出,远程硬件加速是适合石油勘探行业可视化软件应用部署的最佳方案。 展开更多
关键词 网络环境 实时性能瓶颈 远程硬件加速 并行绘制 OpenGL指令流
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部