期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于Gem5的CM3仿真器的研究与实现
1
作者 余涛 刘芹 赵紫微 《计算机仿真》 2024年第1期365-371,384,共8页
在嵌入式领域,业界主要使用ARM公司Keil系列仿真工具进行ARM嵌入式系统开发,芯片仿真是其重要功能之一。然而ARM Keil是国外商业软件,购买License价格不菲,且仿真器也是影响芯片验证和软件开发的关键技术之一。针对上述情况,以Cortex-M... 在嵌入式领域,业界主要使用ARM公司Keil系列仿真工具进行ARM嵌入式系统开发,芯片仿真是其重要功能之一。然而ARM Keil是国外商业软件,购买License价格不菲,且仿真器也是影响芯片验证和软件开发的关键技术之一。针对上述情况,以Cortex-M3芯片为例设计了一种基于开源模拟器Gem5的系统调用仿真方法。首先,分析Gem5模拟器的源码结构、运行过程以及指令集仿真流程,描述Gem5仿真原理。然后,通过为Gem5添加Cortex-M3寄存器和指令集支持实现Cortex-M3在Atomic SimpleCPU的SE(System Emulation)模式下的仿真。最后,设计了灵活可扩展的指令集自动化测试工具,以验证指令功能是否正确仿真。实验结果表明,经过充分测试实现的仿真器能够正确仿真,且仿真效率较高,提供了一种开源、技术可控的Cortex-M3的软仿真方案。 展开更多
关键词 嵌入式系统 仿真 开源模拟器 指令集 自动化测试
下载PDF
Optimizing pipeline for a RISC processor with multimedia extension ISA 被引量:1
2
作者 肖志斌 刘鹏 +1 位作者 姚英彪 姚庆栋 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2006年第2期269-274,共6页
The 32-bit extensible embedded processor RISC3200 originating from an RTL prototype core is intended for low-cost consumer multimedia products. In order to incorporate the reduced instruction set and the multimedia ex... The 32-bit extensible embedded processor RISC3200 originating from an RTL prototype core is intended for low-cost consumer multimedia products. In order to incorporate the reduced instruction set and the multimedia extension instruction set in a unifying pipeline, a scalable super-pipeline technique is adopted. Several other optimization techniques are proposed to boost the frequency and reduce the average CPI of the unifying pipeline. Based on a data flow graph (DFG) with delay information, the critical path of the pipeline stage can be located and shortened. This paper presents a distributed data bypass unit and a centralized pipeline control scheme for achieving lower CPI. Synthesis and simulation showed that the optimization techniques enable RISC3200 to operate at 200 MHz with an average CPI of 1.16. The core was integrated into a media SOC chip taped out in SMIC 0.18-micron technology. Preliminary testing result showed that the processor works well as we expected. 展开更多
关键词 PIPELINE RISC Single-instruction-multiple-data (SIMD) instruction set architecture isa Multimedia extension
下载PDF
Development of a Web-based Interface for the ISA Simulator
3
作者 Hideaki Yanagisasa Minoru Uehara Hideki Mori 《通讯和计算机(中英文版)》 2010年第4期35-42,共8页
关键词 界面开发 模拟器 Web isa 软件开发环境 硬件设计 设计工具 南南合作
下载PDF
基于RISC-V的FFmpeg多媒体算法库优化策略 被引量:3
4
作者 张桢 梁军 +2 位作者 贾海鹏 张云泉 李青 《计算机工程》 CAS CSCD 北大核心 2023年第4期159-165,173,共8页
RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗... RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。 展开更多
关键词 开源指令集架构 FFmpeg多媒体算法库 向量化访存 汇编优化 指令流水优化
下载PDF
A TSE based design for MMSE and QRD of MIMO systems based on ASIP
5
作者 冯雪林 SHI Jinglin +3 位作者 CHEN Yang FU Yanlu ZHANG Qineng XIAO Feng 《High Technology Letters》 EI CAS 2023年第2期166-173,共8页
A Taylor series expansion(TSE) based design for minimum mean-square error(MMSE) and QR decomposition(QRD) of multi-input and multi-output(MIMO) systems is proposed based on application specific instruction set process... A Taylor series expansion(TSE) based design for minimum mean-square error(MMSE) and QR decomposition(QRD) of multi-input and multi-output(MIMO) systems is proposed based on application specific instruction set processor(ASIP), which uses TSE algorithm instead of resource-consuming reciprocal and reciprocal square root(RSR) operations.The aim is to give a high performance implementation for MMSE and QRD in one programmable platform simultaneously.Furthermore, instruction set architecture(ISA) and the allocation of data paths in single instruction multiple data-very long instruction word(SIMD-VLIW) architecture are provided, offering more data parallelism and instruction parallelism for different dimension matrices and operation types.Meanwhile, multiple level numerical precision can be achieved with flexible table size and expansion order in TSE ISA.The ASIP has been implemented to a 28 nm CMOS process and frequency reaches 800 MHz.Experimental results show that the proposed design provides perfect numerical precision within the fixed bit-width of the ASIP, higher matrix processing rate better than the requirements of 5G system and more rate-area efficiency comparable with ASIC implementations. 展开更多
关键词 multi-input and multi-output(MIMO) minimum mean-square error(MMSE) QR decomposition(QRD) Taylor series expansion(TSE) application specific instruction set processor(ASIP) instruction set architecture(isa) single instruction multiple data(SIMD) very long instruction word(VLIW)
下载PDF
夯实嵌入式赛道,RISCV产业大有可为
6
作者 何小庆 《单片机与嵌入式系统应用》 2023年第3期2-6,共5页
本文阐述了RISCV处理器产业的现状、标准制定和高性能计算方面的最新进展,重点介绍了包括操作系统、工具链、高校教育和电子大赛在内的生态建设情况。应用层面着重阐述了RISCV在汽车处理器方面的研发成果,论文最后分享了笔者对我国RISC... 本文阐述了RISCV处理器产业的现状、标准制定和高性能计算方面的最新进展,重点介绍了包括操作系统、工具链、高校教育和电子大赛在内的生态建设情况。应用层面着重阐述了RISCV在汽车处理器方面的研发成果,论文最后分享了笔者对我国RISCV产业发展的思考。 展开更多
关键词 RISCV 生态建设 汽车电子 开源指令集 玄铁处理器 香山处理器
下载PDF
美国第五代精简指令集技术产业发展现状
7
作者 田林琳 《中国科技人才》 2023年第6期75-80,共6页
第五代精简指令集(RISC-V)是一种基于计算机精简指令集原理的开源指令集架构,具有完全开源、架构简单、易于移植、模块化设计等特点。美国作为RISC-V发源地,其产业生态、商业模式、技术前沿和政府战略布局对我国发展开源硬件、实现芯片... 第五代精简指令集(RISC-V)是一种基于计算机精简指令集原理的开源指令集架构,具有完全开源、架构简单、易于移植、模块化设计等特点。美国作为RISC-V发源地,其产业生态、商业模式、技术前沿和政府战略布局对我国发展开源硬件、实现芯片产业自主可控具有重要借鉴意义。 展开更多
关键词 RISC-V 开源 指令集 芯片产业
下载PDF
基于二进制插桩的共享指令集异构多核处理器进程迁移方法 被引量:1
8
作者 刘宏伟 邱吉 +1 位作者 高翔 陈云霁 《高技术通讯》 CAS CSCD 北大核心 2014年第1期23-28,共6页
研究了异构多核处理器进程迁移的特点,针对目前解决共享指令集异构多核处理器异构多核间进程迁移方法存在效率、代价、兼容性或者可编程性上的不足,提出了一种基于二进制插桩的进程迁移方法,该方法能够充分利用共享指令集异构多核的优势... 研究了异构多核处理器进程迁移的特点,针对目前解决共享指令集异构多核处理器异构多核间进程迁移方法存在效率、代价、兼容性或者可编程性上的不足,提出了一种基于二进制插桩的进程迁移方法,该方法能够充分利用共享指令集异构多核的优势,以很低的代价大大提升运行效率,并且无需修改源代码和编译系统,有良好的兼容性。在SPEC等测试程序上的实验数据表明,这种方法的效率为内核模拟的2.25倍。 展开更多
关键词 共享指令集(isa) 异构多核处理器 进程迁移 二进制插桩 内核模拟
下载PDF
面向固件代码分析的虚拟指令集体系结构设计
9
作者 赵远 曾光裕 +2 位作者 王炜 崔晨 高洪博 《计算机工程》 CAS CSCD 2012年第9期271-274,共4页
传统虚拟指令集体系结构不能同时满足简单性和高效性的要求。为此,提出一种面向固件代码分析的虚拟指令集体系结构构造方法。设计多目标固件代码分析平台,在可配置虚拟硬件结构的基础上,获取最小完备指令集,并说明扩展虚拟指令集的方法... 传统虚拟指令集体系结构不能同时满足简单性和高效性的要求。为此,提出一种面向固件代码分析的虚拟指令集体系结构构造方法。设计多目标固件代码分析平台,在可配置虚拟硬件结构的基础上,获取最小完备指令集,并说明扩展虚拟指令集的方法。实验结果表明,该方法能降低翻译代码膨胀率,目标指令模拟时间比传统方法减少19%~35%。 展开更多
关键词 固件代码 虚拟指令集体系结构 翻译代码膨胀率 最小完备指令集 虚拟硬件
下载PDF
x86指令集兼容处理器中微指令的设计与验证
10
作者 安建峰 樊晓桠 《西北工业大学学报》 EI CAS CSCD 北大核心 2010年第2期280-285,共6页
研发x86兼容处理器的难点之一是微指令的设计与验证,一方面是因为微指令的开发设计复杂度高且容易出错,另一方面是因为微指令的仿真验证难于在整个设计完成之前独立进行。针对这些问题,文章提出构建一个可以满足微指令设计与验证需求的... 研发x86兼容处理器的难点之一是微指令的设计与验证,一方面是因为微指令的开发设计复杂度高且容易出错,另一方面是因为微指令的仿真验证难于在整个设计完成之前独立进行。针对这些问题,文章提出构建一个可以满足微指令设计与验证需求的微指令开发平台。在该平台中,首先定义微汇编语言,提高微指令的编写效率,降低编写出错几率。然后构建微指令汇编器,支持将微汇编语言格式的微指令编译为二进制格式的微指令。最后构建微指令仿真器,可以对微指令进行独立仿真验证。文中使用SPLASH-2测试程序对提出的微指令开发平台进行了性能评估,微指令汇编器的编译速度约为400行/s,微指令仿真器的仿真速度约为60 KIPS。 展开更多
关键词 X86 处理器 微指令
下载PDF
精简指令集计算机协处理器设计 被引量:3
11
作者 李辉楷 韩军 +2 位作者 翁新钎 贺中柱 曾晓洋 《计算机工程》 CAS CSCD 2012年第23期240-242,246,共4页
针对AES与SHA-3候选算法中Gr stl软件运算速度慢的问题,提出一种通过精简指令集计算机(RISC)协处理器来加速算法运算的设计方案。该协处理器复用片上高速缓存充当查找表来加速运算,并在RISC处理器的基本指令集架构中增加特殊指令。实验... 针对AES与SHA-3候选算法中Gr stl软件运算速度慢的问题,提出一种通过精简指令集计算机(RISC)协处理器来加速算法运算的设计方案。该协处理器复用片上高速缓存充当查找表来加速运算,并在RISC处理器的基本指令集架构中增加特殊指令。实验结果表明,与传统基于并行查找表的方案相比,该方案能够以较小的硬件代价加速AES与Gr stl运算。 展开更多
关键词 精简指令集计算机 协处理器 高速缓存 并行表查找 寄存器堆 指令集架构
下载PDF
开源芯片、RISC-V与敏捷开发 被引量:8
12
作者 王诲喆 唐丹 +3 位作者 余子濠 刘志刚 解壁伟 包云岗 《大数据》 2019年第4期50-66,共17页
随着摩尔定理的几近失效,传统的追求通用性能的芯片开发策略将难以持续,但芯片领域过高的门槛和商业限制阻碍了进一步的创新和对市场的响应速度。因此需要通过开源芯片、统一的生态平台和现代化的设计方法激发芯片领域的创造力和生产效... 随着摩尔定理的几近失效,传统的追求通用性能的芯片开发策略将难以持续,但芯片领域过高的门槛和商业限制阻碍了进一步的创新和对市场的响应速度。因此需要通过开源芯片、统一的生态平台和现代化的设计方法激发芯片领域的创造力和生产效率。介绍了开源芯片的作用和发展历史,讨论了有望成为下一代芯片开发根基的RISC-V指令集架构的特点和影响以及前端设计中的敏捷开发实践,并对芯片开发的新发展与不足做出了总结。 展开更多
关键词 开源芯片 敏捷开发 计算机架构 指令集架构
下载PDF
二进制翻译控制转移的软硬件协同设计 被引量:1
13
作者 郝守青 刘奇 +1 位作者 沈海华 章隆兵 《高技术通讯》 CAS CSCD 北大核心 2012年第6期583-588,共6页
针对控制转移开销是影响二进制翻译和优化系统性能的主要因素,进行了提高二进制翻译优化系统性能的研究,提出并实现了硬件设计开销较小的基于硬件内容可寻址存储器(CAM)机制的软硬件协同设计方法。通过实验充分分析了CAM大小、软件... 针对控制转移开销是影响二进制翻译和优化系统性能的主要因素,进行了提高二进制翻译优化系统性能的研究,提出并实现了硬件设计开销较小的基于硬件内容可寻址存储器(CAM)机制的软硬件协同设计方法。通过实验充分分析了CAM大小、软件替换算法对CAM命中率的影响,并根据分析提出了一种新颖的、软硬件结合的降低CAM访问缺失率的方法。该方法相对于传统的软件和硬件优化方法,硬件实现及验证复杂度低且优化效果明显。实验结果表明该方法使得二进制翻译系统整体性能提高了13.44%。该方法已实际应用于龙芯x86二进制翻译系统中。 展开更多
关键词 软硬件协同设计 二进制翻译和优化 控制转移 龙芯 指令集架构(isa)
下载PDF
一种电机FOC算法DSP系统设计及实现 被引量:14
14
作者 岳梦云 白冰 《电子学报》 EI CAS CSCD 北大核心 2020年第10期2041-2046,共6页
本文设计了一种适用于电机矢量控制算法的数字信号处理系统的微架构定义,包括其指令集定义、存储器模型以及与主CPU的交互模式.该设计具有通过固定部分多操作数有效缩减指令编码长度提高代码密度以及后台执行多周期指令提高ALU并行效率... 本文设计了一种适用于电机矢量控制算法的数字信号处理系统的微架构定义,包括其指令集定义、存储器模型以及与主CPU的交互模式.该设计具有通过固定部分多操作数有效缩减指令编码长度提高代码密度以及后台执行多周期指令提高ALU并行效率的显著优点.文中给出了典型的FOC控制算法在DSP(Digital Signal Processor)指令集上实现的指令周期数,也给出了对应架构的电路实现情况,最终以ARM CORTEX-M0及几款主流DSP作为比较基线,通过实测实验数据证明了体系结构的高能效比,以较为有限的电路面积代价,极大提高了集成DSP的嵌入式系统的运行效率. 展开更多
关键词 电机控制 嵌入式系统 矢量控制 数字信号处理器 微架构 指令集
下载PDF
基于双TLB的二进制翻译访存性能优化
15
作者 李晖 王振华 靳国杰 《计算机工程》 CAS CSCD 北大核心 2015年第12期75-81,共7页
现有二进制翻译系统主要采用纯软件的方法实现访存指令模拟,用于目标访存指令的翻译后代码规模过高,导致模拟效率低下。针对该问题,提出一种高效的龙芯二进制翻译系统,设计一种双翻译后备缓冲(TLB)结构,通过在CPU核中新增一个专门用于... 现有二进制翻译系统主要采用纯软件的方法实现访存指令模拟,用于目标访存指令的翻译后代码规模过高,导致模拟效率低下。针对该问题,提出一种高效的龙芯二进制翻译系统,设计一种双翻译后备缓冲(TLB)结构,通过在CPU核中新增一个专门用于转换宿主机地址的硬件TLB,实现由硬件直接进行地址转换,并通过降低用于X86访存指令的翻译后代码规模减少模拟开销。实验结果表明,与采用纯软件模拟方法的二进制翻译系统相比,优化后的内存拷贝性能提高约100倍,模拟X86Linux内核的启动时间缩短19.12%。 展开更多
关键词 指令集架构 二进制翻译 翻译后备缓冲 命中率 龙芯处理器
下载PDF
Single-Cycle Bit Permutations with MOMR Execution
16
作者 李佩露 杨骁 史志杰 《Journal of Computer Science & Technology》 SCIE EI CSCD 2005年第5期577-585,共9页
Secure computing paradigms impose new architectural challenges for general-purpose processors. Cryptographic processing is needed for secure communications, storage, and computations. We identify two categories of ope... Secure computing paradigms impose new architectural challenges for general-purpose processors. Cryptographic processing is needed for secure communications, storage, and computations. We identify two categories of operations in symmetric-key and public-key cryptographic algorithms that are not common in previous general-purpose workloads: advanced bit operations within a word and multi-word operations. We define MOMR (Multiple Operands Multiple Results) execution or datarich execution as a unified solution to both challenges. It allows arbitrary n-bit permutations to be achieved in one or two cycles, rather than O(n) cycles as in existing RISC processors. It also enables significant acceleration of multiword multiplications needed by public-key ciphers. We propose two implementations of MOMR: one employs only hardware changes while the other uses Instruction Set Architecture (ISA) support. We show that MOMR execution leverages available resources in typical multi-issue processors with minimal additional cost. Multi-issue processors enhanced with MOMR units provide additional speedup over standard multi-issue processors with the same datapath. MOMR is a general architectural solution for word-oriented processor architectures to incorporate datarich operations. 展开更多
关键词 PERMUTATION bit permutations CRYPTOGRAPHY cryptographic acceleration security multi-word operation datarich execution MOMR instruction set architecture isa PROCESSOR high performance secure computing
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部