-
题名基于CUDA技术的卷积神经网络识别算法
被引量:9
- 1
-
-
作者
张佳康
陈庆奎
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第15期179-181,共3页
-
基金
国家自然科学基金资助项目(60573108)
上海教委发展基金资助项目(09YZ428)
+1 种基金
上海教委科研创新基金资助重点项目(08ZZ76)
上海市重点学科建设基金资助项目(S30501)
-
文摘
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。
-
关键词
流处理器
单指令多线程
GTX200硬件架构
CUDA技术
卷积神经网络
-
Keywords
stream processor
Single-instruction Multiple-Thread(SIMT)
GTX200 hardware architecture
Compute Unified Device Architecture(CUDA) technology
Convolutional Neural networks(CNNs)
-
分类号
TP193
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向粗粒度数据流网络处理器的混合定制硬件加速
- 2
-
-
作者
李韬
孙志刚
-
机构
国防科学技术大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2011年第11期40-47,共8页
-
文摘
本文针对控制流网络处理器固定拓扑结构的限制及指令集并行性开发的不足,将粗粒度数据流设计思想引入到网络处理器体系结构设计中,提出了一种新型粗粒度数据流网络处理器体系结构-DynaNP。DynaNP利用处理引擎(PE)内控制流执行方式获得较高的可编程性,还利用PE间数据流执行方式开发了报文处理中的任务级并行性。为了进一步提高DynaNP的系统流量,面向DynaNP的多核及数据流特性,设计了混合定制硬件加速机制,并详细介绍了实现混合定制硬件加速的关键技术,通过提供统一的混合定制硬件加速接口,可以支持定制指令和协处理器两种典型硬件加速器。
-
关键词
网络处理器
数据流
定制硬件
协处理器
定制指令
-
Keywords
network processor
dataflow
custom hardware
coprocessor
custom instruction
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于RISC-V的图卷积神经网络加速器设计
- 3
-
-
作者
周理
赵祉乔
潘国腾
铁俊波
赵王
-
机构
国防科技大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2023年第12期2113-2120,共8页
-
文摘
图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活性,提出一种基于RSIC-V SoC的定制GCN加速器,在蜂鸟E203的SoC平台中通过点积运算扩展指令和硬件加速器软硬件协同的方法实现了针对GCN的加速,通过神经网络参数分析确定了从浮点数到32位定点数的硬件量化方案。实验结果表明,在Cora数据集上运行GCN算法时,该加速器没有精度损失,速度最高提高了6.88倍。
-
关键词
RISC-V
图卷积神经网络
硬件加速器
指令集
-
Keywords
RISC-V
graph convolutional neural network
hardware accelerator
instruction set
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于RISC-V的卷积神经网络专用指令集处理器
被引量:4
- 4
-
-
作者
廖汉松
吴朝晖
李斌
-
机构
华南理工大学微电子学院
人工智能与数字经济广东省实验室(广州)
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第7期196-204,共9页
-
基金
广东省重点领域研发计划项目(2018B010142001)。
-
文摘
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理Squeeze Net网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。
-
关键词
RISC-V指令集
卷积神经网络
领域专用架构
专用指令集处理器
硬件加速
-
Keywords
RISC-V instruction set
Convolutional Neural network(CNN)
Domain Specific Architecture(DSA)
special instruction set processor
hardware acceleration
-
分类号
TP332
[自动化与计算机技术—计算机系统结构]
-
-
题名新型纯硬件多媒体教学网的设计与实现
被引量:1
- 5
-
-
作者
蒋丽
李令达
-
机构
杭州商学院
浙江水利水电专科学校
-
出处
《现代教育技术》
2003年第1期66-69,共4页
-
文摘
该文介绍了一种新型纯硬件多媒体教学网的组网技术和方法,给出了纯硬件多媒体教学网的网络布局和教学流程图。该教学网能够方便地实现广播教学、个别辅导和自由练习等多种教学方式,具有经济实用、组网简单、操作方便等特点。该技术还特别适合将老机房改造为多媒体网络教室。
-
关键词
多媒体教学网
纯硬件
网络教学
-
Keywords
whole hardware, multi-media, instruction network
-
分类号
G434
[文化科学—教育技术学]
-
-
题名网络环境下地学可视化软件实时性能瓶颈分析
- 6
-
-
作者
段文超
-
机构
中国石油化工股份有限公司石油勘探开发研究院南京石油物探研究所
-
出处
《勘探地球物理进展》
2008年第3期225-230,共6页
-
文摘
就网络环境下地学可视化软件目前普遍存在的实时性问题展开讨论,对本地和网络环境下硬件指令协议流的流向和流量进行分析,认为网络环境下地学可视化软件存在实时性能瓶颈的本质原因是网络带宽不足,并结合实例进行了解释。在此基础上讨论了3种相应的解决方案:①以三维网络游戏为代表的胖客户端方案;②以集群或者大型机的强劲计算能力代替硬件加速的并行绘制方案;③远程硬件加速方案。通过分析指出,远程硬件加速是适合石油勘探行业可视化软件应用部署的最佳方案。
-
关键词
网络环境
实时性能瓶颈
远程硬件加速
并行绘制
OpenGL指令流
-
Keywords
network environment
real-time performance bottleneck
remote hardware acceleration
parallel rendering
OpenGL instruction flow
-
分类号
TE19
[石油与天然气工程—油气勘探]
-