期刊文献+
共找到86篇文章
< 1 2 5 >
每页显示 20 50 100
面向RISC-V适配开发的x86 built-in函数转换方法
1
作者 丁志远 朱家鑫 +1 位作者 吴国全 王伟 《广西大学学报(自然科学版)》 CAS 北大核心 2024年第3期620-636,共17页
新兴架构RISC-V的生态建设需要将其他架构函数或软件包向RISC-V架构迁移适配。在研究GCC特定架构适配的built-in函数向RISC-V架构迁移时,提出一套x86到RISC-V的built-in函数转换方法,对于非扩展指令集(属非向量类型)built-in函数,采用RI... 新兴架构RISC-V的生态建设需要将其他架构函数或软件包向RISC-V架构迁移适配。在研究GCC特定架构适配的built-in函数向RISC-V架构迁移时,提出一套x86到RISC-V的built-in函数转换方法,对于非扩展指令集(属非向量类型)built-in函数,采用RISC-V架构下相同功能的built-in或标准库函数替代;对于SSE扩展指令集built-in函数,建立数据类型映射和向量函数操作映射实现向RISC-V架构向量扩展函数或标准库函数的迁移,其中RVV函数迁移方式占比67%。实验结果表明:方法迁移的程序功能正确,方法有效。本文方法对其他扩展指令集built-in函数的迁移提供了指导,且与现有工作相比,更易扩展、覆盖面更广。 展开更多
关键词 函数迁移 built-in函数 指令扩展集 risc-V迁移
下载PDF
基于RISC-V架构的行人定位SoC系统设计
2
作者 喻胜 史超凡 《太赫兹科学与电子信息学报》 2024年第9期959-966,共8页
行人定位方法中,捷联式惯导定位系统需要处理惯性测量单元(IMU)传感器的数据,通过算法处理后得到行人的位置,因此对于芯片实时性以及低功耗有很高的要求。由于行人定位算法大多基于浮点传感器数据开发,一般要求终端设备能够处理浮点数... 行人定位方法中,捷联式惯导定位系统需要处理惯性测量单元(IMU)传感器的数据,通过算法处理后得到行人的位置,因此对于芯片实时性以及低功耗有很高的要求。由于行人定位算法大多基于浮点传感器数据开发,一般要求终端设备能够处理浮点数据。第五代精简指令集(RISC-V)架构作为一种开源架构,能节约架构授权费,在物联网领域有着广泛应用,并且其浮点(F)和向量(V)等高性能扩展指令能够很好地满足行人定位算法对实时性的要求。针对行人定位系统的特定性能要求,提出了一种基于浮点内核向量处理器优化RISC-V架构的行人定位片上系统(SoC),并在实际系统中进行验证。与多个准32位架构RISC-V处理器以及高层次综合组件(HLS)生成的算法专用IP(locate_IP)的标准处理器方案的性能对比分析表明,该设计实现了34倍的性能提升以及5.6倍的能效提升,满足了微终端的要求。 展开更多
关键词 行人定位系统 第五代精简指令集计算 现场可编程逻辑阵列 片上系统
下载PDF
基于RISC-V的图卷积神经网络加速器设计
3
作者 周理 赵祉乔 +2 位作者 潘国腾 铁俊波 赵王 《计算机工程与科学》 CSCD 北大核心 2023年第12期2113-2120,共8页
图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活... 图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活性,提出一种基于RSIC-V SoC的定制GCN加速器,在蜂鸟E203的SoC平台中通过点积运算扩展指令和硬件加速器软硬件协同的方法实现了针对GCN的加速,通过神经网络参数分析确定了从浮点数到32位定点数的硬件量化方案。实验结果表明,在Cora数据集上运行GCN算法时,该加速器没有精度损失,速度最高提高了6.88倍。 展开更多
关键词 risc-V 图卷积神经网络 硬件加速器 指令集
下载PDF
基于SoC-FPGA的RISC-V处理器软硬件系统级平台 被引量:2
4
作者 齐乐 常轶松 +4 位作者 陈欲晓 张旭 陈明宇 包云岗 张科 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1204-1215,共12页
构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软... 构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软硬件设计的快速部署与系统级原型高效评测.针对上述目标,发掘紧耦合SoC-FPGA器件的潜力,构建了一套RISC-V软核与ARM硬核(SoC侧)之间的信息交互机制.通过共享内存和虚拟核间中断等方法,可使目标RISC-V处理器灵活使用平台丰富的I/O外设资源,并充分利用硬核ARM处理器算力协同运行复杂软件系统.此外,为提升软硬件系统级平台的敏捷性,构建了灵活可配置的云上自动化开发框架.通过对平台上目标RISC-V软核处理器各方面的分析评估,验证了该平台可有效缩短系统级测试的迭代周期,提升RISC-V处理器软硬件原型评测效率. 展开更多
关键词 硅前系统级平台 软硬件全系统评估 risc-V指令集处理器 SoC-FPGA
下载PDF
以RISC-V为目标的动态二进制翻译代码质量优化方法
5
作者 余子濠 陈璐 +1 位作者 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2322-2334,共13页
动态二进制翻译是解决一款指令集面临生态系统壁垒问题的主流技术,通过将二进制程序从源指令集翻译成目标指令集,可以在目标指令集的处理器上运行源指令集的应用程序.动态二进制翻译技术的一大挑战是如何生成高质量的目标指令序列,尤其... 动态二进制翻译是解决一款指令集面临生态系统壁垒问题的主流技术,通过将二进制程序从源指令集翻译成目标指令集,可以在目标指令集的处理器上运行源指令集的应用程序.动态二进制翻译技术的一大挑战是如何生成高质量的目标指令序列,尤其当源指令集和目标指令集存在差异时.为探究该问题,以RISC-V64指令集为目标指令集,分析了当RISC-V64,RISC-V32,MIPS32,x86分别作为源指令集时,影响动态二进制翻译技术翻译质量的因素.针对这些因素,分别提出相应优化方法,并借助RISC-V B扩展和RISC-V P扩展中的部分指令提升翻译质量.最后,提出一个新的动态二进制翻译程序DBT-FEMU实现优化.在模拟器和FPGA中的评估数据显示,运行SPEC CPU2006的整数基准程序时,优化方法可使目标程序所执行的动态指令数平均减少57%,平均性能达QEMU-i386的4.12倍. 展开更多
关键词 动态二进制翻译 risc-V 指令集 翻译质量 优化
下载PDF
RISC-V指令集子集RV32I的译码电路设计与优化
6
作者 陈勇 毛宇鹏 +2 位作者 朱玉全 黄盛杰 陈宇宸 《电子器件》 CAS 北大核心 2023年第2期297-302,共6页
面向RISC-V处理器五级流水线数据通路,设计了基于FPGA的RISC-V指令集子集RV32I的指令译码电路。电路分为主译码电路和程序计数器输入选择(PCSel)译码电路,使用Verilog HDL编程设计,并进行了系列优化:使用时序约束工具分析时序状态,设定... 面向RISC-V处理器五级流水线数据通路,设计了基于FPGA的RISC-V指令集子集RV32I的指令译码电路。电路分为主译码电路和程序计数器输入选择(PCSel)译码电路,使用Verilog HDL编程设计,并进行了系列优化:使用时序约束工具分析时序状态,设定约束后对电路进行综合,降低电路延迟;利用无关项化简组合逻辑,减少模块输入输出项,减少电路级联;构建独立的32位串并行数值比较器;插入流水线,提高电路工作频率。电路基于FPGA芯片CycloneⅣEP4CE6F17C6进行设计,使用Quartus Prime 17.1对电路进行仿真,仿真结果表明:在Slow 1200 m V 85℃条件下,指令译码电路达到295.6 MHz的工作频率,相比同类设计具有高速和低资源消耗的特点。 展开更多
关键词 risc-V RV32I指令集 指令译码电路
下载PDF
基于RISC的MPEG-4音频解码软件优化 被引量:1
7
作者 梅优良 刘鹏 +1 位作者 周建 陈科明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第4期603-606,692,共5页
为了提高MPEG-4先进音频编码(AAC)的解码效率,提出了在通用32位精简指令集计算机(reduced in-struction set computing,RISC)上实现MPEG-4 AAC低复杂度框架解码的软件优化技术.解码过程可以分成比特流解码部分和运算部分.应用存储器分... 为了提高MPEG-4先进音频编码(AAC)的解码效率,提出了在通用32位精简指令集计算机(reduced in-struction set computing,RISC)上实现MPEG-4 AAC低复杂度框架解码的软件优化技术.解码过程可以分成比特流解码部分和运算部分.应用存储器分层结构加速比特流解码;基于运算过程、对象和乘法运算的优化技术提高运算部分的解码效率.结果表明,在35 MHz的处理器频率上实现了立体声实时解码,提高了解码效率. 展开更多
关键词 MPEG-4 先进音频编码 精简指令集计算机 瞬时噪声整形
下载PDF
下一代云计算基础设施架构与关键技术 被引量:1
8
作者 陆钢 孙梦宇 +1 位作者 任慧蕾 黄志兰 《通信技术》 2024年第1期26-32,共7页
云计算不仅是一种商业模式,更加是软硬件技术集大成者,通过基础设施软硬件服务整合、资源高度集约,以更加灵活、可扩展的方式支持数字化业务的变革和创新。基于云计算市场趋势和业务需求的迭代更新,提出了下一代云计算基础设施架构,包... 云计算不仅是一种商业模式,更加是软硬件技术集大成者,通过基础设施软硬件服务整合、资源高度集约,以更加灵活、可扩展的方式支持数字化业务的变革和创新。基于云计算市场趋势和业务需求的迭代更新,提出了下一代云计算基础设施架构,包括分布式的云网资源、通智融合的软硬件基础设施及异构管理及协同调度平台,并通过介绍各组件功能范围和关键要素,引出下一代云计算高效能、广分布和超大规模等特性。由于云计算新型基础设施层是下一代云计算技术创新的热点,从算力、运力和存力3方面分别介绍了云基础设施软硬件资源的关键技术,并分析了平台层的资源纳管和协同调度技术,最后对下一代云计算基础设施相关技术进行了展望。 展开更多
关键词 下一代云计算 云基础设施 第五代精简指令集 异构资源 智能协同调度
下载PDF
基于CISC/RISC的混合指令集构建 被引量:2
9
作者 陈瑞森 《现代电子技术》 2007年第16期49-52,共4页
CISC与RISC是微处理器设计中的2种主要指令体系,他们各具优势,共存共融是其发展方向之一。首先介绍了硬件上基于CISC/RISC的混合架构设计,然后重点具体介绍CISC/RISC混合指令集的构建方法,并以65C02S的指令集为例,通过仿真说明了按该方... CISC与RISC是微处理器设计中的2种主要指令体系,他们各具优势,共存共融是其发展方向之一。首先介绍了硬件上基于CISC/RISC的混合架构设计,然后重点具体介绍CISC/RISC混合指令集的构建方法,并以65C02S的指令集为例,通过仿真说明了按该方法构建的混合指令集在基于CISC/RISC混合架构的硬件上运行具有良好的优势。 展开更多
关键词 CISC risc 指令集 微处理器
下载PDF
基于现场可编程门阵列的RISC处理器设计 被引量:1
10
作者 东野长磊 《计算机工程》 CAS CSCD 北大核心 2011年第11期242-244,共3页
基于现场可编程门阵列(FPGA)平台,设计嵌入式精简指令集计算机(RISC)中央处理器(CPU)。参考无内部互锁流水级微处理器(MIPS)指令集制定原则设计CPU指令集,通过分析指令处理过程构建嵌入式CPU的5级流水线,结合数据前推技术和软件编译方... 基于现场可编程门阵列(FPGA)平台,设计嵌入式精简指令集计算机(RISC)中央处理器(CPU)。参考无内部互锁流水级微处理器(MIPS)指令集制定原则设计CPU指令集,通过分析指令处理过程构建嵌入式CPU的5级流水线,结合数据前推技术和软件编译方法解决流水线相关性问题,并实现CPU的算术逻辑单元、控制单元、指令cache等关键模块设计。验证结果表明,该嵌入式RISC CPU的速度和稳定性均达到设计要求。 展开更多
关键词 现场可编程门阵列 精简指令集计算机处理器 流水线相关性 算术逻辑单元
下载PDF
低功耗、高性能RISC-Ⅴ处理器的研究与设计 被引量:6
11
作者 唐俊龙 袁攀 +2 位作者 吴圳羲 卢英龙 邹望辉 《单片机与嵌入式系统应用》 2021年第9期6-9,13,共5页
针对嵌入式物联网设备对处理器小面积、低功耗、高性能的需求,提出一种顺序发射、乱序执行、乱序写回的三级流水线结构,设计了一款基于开源RISC-Ⅴ指令集的32位低功耗高性能处理器,支持RISC-Ⅴ基本整数运算、乘除法指令集,采用WFI休眠... 针对嵌入式物联网设备对处理器小面积、低功耗、高性能的需求,提出一种顺序发射、乱序执行、乱序写回的三级流水线结构,设计了一款基于开源RISC-Ⅴ指令集的32位低功耗高性能处理器,支持RISC-Ⅴ基本整数运算、乘除法指令集,采用WFI休眠指令与时钟门控技术实现休眠模式。在VCS环境下验证了处理器的逻辑功能,通过SMIC 110 nm工艺库在DC环境下完成了逻辑综合,得到了处理器功耗为0.21 mW,面积开销为20.5k个逻辑门,最后通过运行CoreMark跑分程序测试处理器性能,指令执行速度为2.54 CoreMark/MHz。验证结果表明,本设计同时兼顾了处理器功耗与性能,可以很好地应用于小面积、低功耗、高性能的嵌入式场景。 展开更多
关键词 嵌入式系统 乱序 三级流水线 risc-Ⅴ指令集
下载PDF
基于FPGA的32位RISC微处理器设计 被引量:4
12
作者 刘览 郑步生 施慧彬 《数据采集与处理》 CSCD 北大核心 2011年第3期367-373,共7页
提出了一种与MIPS32指令集兼容的32位RISC微处理器(HP-MIPS)的设计方法。在对经典的MIPS体系结构分析之后,对处理器的整体结构进行重新划分,通过增加流水线级数设计出一种拥有8级流水线的微处理器数据路径结构,并且对设计中由于增加流... 提出了一种与MIPS32指令集兼容的32位RISC微处理器(HP-MIPS)的设计方法。在对经典的MIPS体系结构分析之后,对处理器的整体结构进行重新划分,通过增加流水线级数设计出一种拥有8级流水线的微处理器数据路径结构,并且对设计中由于增加流水线级数而引入的流水线数据冲突问题给出了完整的解决方案。此外还设计了一种流水线结构的动态分支预测器用以解决微处理器分支冒险问题,其优点在于既能降低微处理器的CPI,同时又不会使流水线出现局部逻辑拥堵从而降低微处理器的主频。最后给出了设计的综合结果,并对该设计进行了软件仿真和硬件验证。在FPGA芯片上的运行时钟频率可达146.628 MHz。 展开更多
关键词 精简指令集计算机 微处理器 流水线 分支预测
下载PDF
SMP与RISC的功能对比
13
作者 许维平 张宏烈 +1 位作者 崔建君 许静瑶 《齐齐哈尔师范学院学报(自然科学版)》 1997年第2期20-22,共3页
本文对SMP和RISC技术加以比较,以便展望计算机硬件技术的发展.
关键词 对称多处理 指令系统 硬件 计算机 risc
下载PDF
基于RISC-V的卷积神经网络专用指令集处理器 被引量:4
14
作者 廖汉松 吴朝晖 李斌 《计算机工程》 CAS CSCD 北大核心 2021年第7期196-204,共9页
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,... 针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理Squeeze Net网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。 展开更多
关键词 risc-V指令集 卷积神经网络 领域专用架构 专用指令集处理器 硬件加速
下载PDF
基于RISC-V的卷积神经网络处理器设计与实现 被引量:5
15
作者 傅思扬 陈华 郁发新 《微电子学与计算机》 北大核心 2020年第4期49-54,共6页
针对卷积神经网络对于运算资源需求的不断增长,和传统的硬件卷积加速方案在功耗、面积敏感的边缘计算领域难以应用的问题,设计并实现了一个低功耗嵌入式卷积神经网络加速处理器.目标处理器基于RISC-V指令集架构,内核扩展4条自定义神经... 针对卷积神经网络对于运算资源需求的不断增长,和传统的硬件卷积加速方案在功耗、面积敏感的边缘计算领域难以应用的问题,设计并实现了一个低功耗嵌入式卷积神经网络加速处理器.目标处理器基于RISC-V指令集架构,内核扩展4条自定义神经网络指令,并在硬件层面实现加速处理.该卷积神经网络处理器最大程度的复用了原RISC-V的数据通路和功能模块,减小了额外的功耗和芯片面积等资源开销.目标处理器通过RISC-V官方标准测试集验证,并对MNIST手写数据集进行识别测试,正确率达到97.23%.在TSMC 40nm标准数字工艺下,目标处理器面积仅为0.34 mm^(2,),动态功耗仅为11.1μw/MHz,与同期处理器相比,面积和功耗方面均具有一定优势. 展开更多
关键词 处理器 卷积神经网络 定制指令集 risc-V
下载PDF
基于Verilog-HDL的RISC/DSP微处理器IP核的设计 被引量:3
16
作者 陈芙蓉 张向文 曹梅双 《微电子学与计算机》 CSCD 北大核心 2009年第11期70-73,共4页
设计了一种新的既能用作通用微处理器又能用于32位定点DSP运算的RISC/DSP架构.DSP操作与ALU运算共享寄存器组,并行执行.为了提高该处理器的性能又不增加硬件复杂性,运用了可变长度的指令来提高代码密度,四级流水线提高程序执行效率,有... 设计了一种新的既能用作通用微处理器又能用于32位定点DSP运算的RISC/DSP架构.DSP操作与ALU运算共享寄存器组,并行执行.为了提高该处理器的性能又不增加硬件复杂性,运用了可变长度的指令来提高代码密度,四级流水线提高程序执行效率,有限状态机来快速响应中断/例外.所有的模块都是基于Verilog-HDL语言,经过EDA工具的综合分析后给出了整机的RTL视图和功能仿真波形图. 展开更多
关键词 risc DSP 微处理器 有限状态机 RTL
下载PDF
支持RISC-V向量指令的汇编器设计与实现 被引量:1
17
作者 邓平 朱小龙 +1 位作者 孙海燕 任怡 《计算机工程与科学》 CSCD 北大核心 2020年第12期2179-2185,共7页
向量运算可以有效提高计算机的运算效率,减少不必要的硬件开销,随着CPU运算能力的提升和寄存器位数扩展等硬件的进一步发展,向量运算成为实际芯片架构设计中最常用的提高处理器性能的技术。受到业界广泛关注的RISC-V体系结构也借助向量... 向量运算可以有效提高计算机的运算效率,减少不必要的硬件开销,随着CPU运算能力的提升和寄存器位数扩展等硬件的进一步发展,向量运算成为实际芯片架构设计中最常用的提高处理器性能的技术。受到业界广泛关注的RISC-V体系结构也借助向量技术提高性能,但目前开源版本的RISC-V汇编器只支持标量指令程序,不支持向量指令的汇编。基于GNU的Binutils汇编器,设计并实现了支持RISC-V向量指令的汇编器,该汇编器可完成向量指令的汇编和反汇编工作,同时其扩展实现也可以为其他指令模块的扩展支持提供参考。 展开更多
关键词 risc-V 向量指令 指令集 汇编器
下载PDF
用于IToF传感器的极低功耗RISC-V专用处理器设计 被引量:4
18
作者 黄正伟 刘宏伟 徐渊 《计算机工程》 CAS CSCD 北大核心 2022年第9期146-154,共9页
IToF深度探测技术是当前主流的3D感知实现方案之一,该技术的核心部件是IToF传感芯片。随着当今社会数字化与智能化进程的加快,各科技领域对IToF传感芯片的需求日益提高,然而IToF传感芯片产能的提升引起了由芯片运行所带来的功耗问题。针... IToF深度探测技术是当前主流的3D感知实现方案之一,该技术的核心部件是IToF传感芯片。随着当今社会数字化与智能化进程的加快,各科技领域对IToF传感芯片的需求日益提高,然而IToF传感芯片产能的提升引起了由芯片运行所带来的功耗问题。针对IToF传感器设计一款基于第五代精简指令集架构(RISC-V)的极低功耗专用处理器IToF-miniRV。IToF-miniRV包含支持RV32I指令集、RV32M指令集和自定义IToF型指令的处理器,以及用于加速深度计算和光幅度运算的IToF硬件加速器。将IToF-miniRV处理器与蜂鸟E203、PULPissimo这两款开源的基于RISC-V的超低功耗处理器分别部署在Xilinx Zynq-7000芯片上,进行FPGA资源使用情况和运行功耗的对比实验,结果表明,相比蜂鸟E203和PULPissimo,IToF-miniRV处理器的FPGA资源使用率分别减少5.2和10.9个百分点,运行功耗分别下降37.6%和89.7%。 展开更多
关键词 光电传感器 硬件加速器 专用处理器 第五代精简指令集架构 现场可编程门阵列
下载PDF
基于FPGA快速实现定制化RISC-V处理器 被引量:3
19
作者 陆松 蒋句平 任会峰 《计算机工程与科学》 CSCD 北大核心 2022年第10期1747-1752,共6页
随着RISC-V指令集的流行,出现了一批应用于IoT智能硬件、嵌入式系统、人工智能芯片、安全设备及高性能计算等不同领域的开源和商业IP软核。性能、功耗和面积三者之间的平衡需要指令集可裁剪、易扩展,以及软件开发环境的配套支持。为此,... 随着RISC-V指令集的流行,出现了一批应用于IoT智能硬件、嵌入式系统、人工智能芯片、安全设备及高性能计算等不同领域的开源和商业IP软核。性能、功耗和面积三者之间的平衡需要指令集可裁剪、易扩展,以及软件开发环境的配套支持。为此,按照增加自定义指令、扩展ALU功能单元、连接控制信号和数据通路、FPGA原型验证、定制交叉编译环境和应用程序测试的流程,基于FPGA快速实现了定制化RISC-V处理器。以加速矩阵运算为例,基于FPGA在开源IP蜂鸟E203上设计了一条计算向量内积的自定义指令,并在FPGA上进行了原型验证。应用测试程序表明,定制化的RISC-V处理器的计算性能有显著提升,矩阵乘法运算的性能加速比达到了5.3~7.6。 展开更多
关键词 risc-V 指令集 定制化 处理器 FPGA
下载PDF
RISC-V向量指令集的Compute Library函数库移植 被引量:4
20
作者 叶锡聪 庄灿锋 +4 位作者 王宇木 吴鹏飞 潘志铭 廖力灵 孙轶群 《单片机与嵌入式系统应用》 2021年第1期8-13,共6页
ARM Compute Library是一类针对ARM Cortex-A系列CPU处理器和ARM Mali系列GPU特定优化的软件算法函数库,内部实现了卷积滤波器、卷积神经网络等算法,并且使用Cortex-A CPU NEON、Mali GPU的SIMD技术加速算法运行。RISC-V指令集作为一种... ARM Compute Library是一类针对ARM Cortex-A系列CPU处理器和ARM Mali系列GPU特定优化的软件算法函数库,内部实现了卷积滤波器、卷积神经网络等算法,并且使用Cortex-A CPU NEON、Mali GPU的SIMD技术加速算法运行。RISC-V指令集作为一种开源的指令集,目前发布了相对稳定的SIMD指令集版本,并且C-SKY开源了支持v0.7.1 intrinsics的GCC和QEMU。在这些基础上,本文尝试将ARM Compute Library函数库移植至支持RISC V向量指令集,其中函数移植的核心思想是在不修改源文件的前提下,通过编写一个头文件,用宏定义把ARM NEON向量类型接口逐一替换成RISC-V intrinsics中定义的向量类型和向量函数接口。 展开更多
关键词 Compute Library risc-V 向量指令集 函数库移植 QEMU ARM
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部