期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
带Cache和精确中断响应的CPU设计 被引量:5
1
作者 刘秋菊 李飞 刘书伦 《实验室研究与探索》 CAS 北大核心 2012年第3期68-74,95,共8页
提出了带Cache和精确中断响应的CPU设计方案,实现指令集MIPS中选取15条指令作为本CPU的基本指令。采用基本5步流水线CPU设计,给出了指令Cache、数据Cache和精确中断响应的设计与实现。测试结果表明,该方案符合设计要求。
关键词 5步流水线 指令cache 精确中断响应 CPU设计
下载PDF
YHFT-DX高性能DSP中Cache失效流水设计 被引量:2
2
作者 郭阳 傅祎晖 +1 位作者 刘胜 李勇 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第6期6-11,共6页
YHFT-DX是国防科技大学自主研制的一款高性能DSP。以提升YHFT-DX的Cache性能为目标,研究了降低Cache失效延迟的优化策略,设计并实现了一种针对高频高性能DSP的一级数据Cache优化策略——失效流水。与传统优化策略相比,该策略将连续访问C... YHFT-DX是国防科技大学自主研制的一款高性能DSP。以提升YHFT-DX的Cache性能为目标,研究了降低Cache失效延迟的优化策略,设计并实现了一种针对高频高性能DSP的一级数据Cache优化策略——失效流水。与传统优化策略相比,该策略将连续访问Cache的失效请求并进行流水化处理,使多个Cache失效延迟重叠,从而达到降低平均Cache失效代价的目的。将该策略应用到YHFT-DX芯片的一级数据Cache控制器的设计与优化中,使访问Cache失效引起的流水线停顿从8拍降为2拍,显著提升了系统性能。 展开更多
关键词 DSP 失效流水 非阻塞cache 数据预取
下载PDF
避免模调度中cache代价的优化方法 被引量:1
3
作者 刘利 李文龙 +2 位作者 郭振宇 李胜梅 汤志忠 《软件学报》 EI CSCD 北大核心 2005年第10期1842-1852,共11页
软件流水能够加快循环的执行速度.模调度是一种被广泛采用的软件流水的启发式.为了改善存储系统,cache使用了分级机制,但这也带来了额外的存储延迟-cache代价.证明了模调度可能导致cache代价,并提出了一种可以避免模调度的cache代价的PC... 软件流水能够加快循环的执行速度.模调度是一种被广泛采用的软件流水的启发式.为了改善存储系统,cache使用了分级机制,但这也带来了额外的存储延迟-cache代价.证明了模调度可能导致cache代价,并提出了一种可以避免模调度的cache代价的PCPMS(preventcachepenaltyinmoduloscheduling)算法.实验结果表明,PCPMS能够避免模调度中的cache代价,提高程序性能. 展开更多
关键词 软件流水 模调度 存储优化 cache代价
下载PDF
面向大规模计算系统的Cache式并行检查点 被引量:1
4
作者 刘勇燕 刘勇鹏 +1 位作者 冯华 迟万庆 《计算机科学》 CSCD 北大核心 2011年第5期287-289,F0003,共4页
检查点机制是高性能并行计算系统中重要的容错手段,随着系统规模的增大,并行检查点的可扩展性受文件访问的制约。针对大规模并行计算系统的多级文件系统结构,提出了cache式并行检查点技术。它将全局同步并行检查点转化为局部文件操作,... 检查点机制是高性能并行计算系统中重要的容错手段,随着系统规模的增大,并行检查点的可扩展性受文件访问的制约。针对大规模并行计算系统的多级文件系统结构,提出了cache式并行检查点技术。它将全局同步并行检查点转化为局部文件操作,并利用多处理器结构进行乱序流水线式写回调度,将检查点的写回时机合理分布,从而有效地隐藏了检查点的写回开销,保证了并行检查点文件访问的高性能和高可扩展性。 展开更多
关键词 cache式检查点 并行计算 多级文件系统 多处理器 乱序流水线
下载PDF
一种带Cache的嵌入式CPU的设计与实现 被引量:4
5
作者 东野长磊 戚梅 《微型机与应用》 2010年第14期17-19,22,共4页
基于FPGA平台实现了嵌入式RISC CPU的设计。根据项目要求,实现指令集为MIPSCPU指令集的一个子集,分析指令处理过程,构建了嵌入式CPU的5级数据通路。分析了流水线产生的相关性问题,采用数据前推技术和软件编译结合的解决方案。给出了控... 基于FPGA平台实现了嵌入式RISC CPU的设计。根据项目要求,实现指令集为MIPSCPU指令集的一个子集,分析指令处理过程,构建了嵌入式CPU的5级数据通路。分析了流水线产生的相关性问题,采用数据前推技术和软件编译结合的解决方案。给出了控制单元、运算单元、指令Cache的实现与设计。在FPGA平台上实现并验证了CPU的设计。 展开更多
关键词 嵌入式CPU 流水线 数据相关 指令cache
下载PDF
处理器中非阻塞cache技术的研究 被引量:5
6
作者 孟锐 《电子设计工程》 2015年第19期85-88,共4页
现代高速处理器的设计中对于cache技术的研究已经成为了提高处理器性能的关键技术,本文针对在流水线结构中采用非阻塞cache技术进行分析研究,提高cache的命中率,降低缺少代价,提高处理器的性能,并介绍了"龙腾"R2处理器的流水... 现代高速处理器的设计中对于cache技术的研究已经成为了提高处理器性能的关键技术,本文针对在流水线结构中采用非阻塞cache技术进行分析研究,提高cache的命中率,降低缺少代价,提高处理器的性能,并介绍了"龙腾"R2处理器的流水线结构的非阻塞cache的设计。 展开更多
关键词 处理器 非阻塞 cache一致性 流水线
下载PDF
无延迟Cache:减少Load相关停顿的有效方法
7
作者 张晨曦 张春元 +1 位作者 刘依 张大方 《计算机工程与科学》 CSCD 2002年第1期97-99,共3页
Load相关会导致流水线停顿。解决这个问题的一种办法是提前执行Load指令 ,以减少Load延迟。本文提出了一种易于实现的方案。模拟结果表明 。
关键词 Load相关 流水线停顿 cache CPU 指令操作码
下载PDF
一种面向超标量处理器的低功耗指令Cache设计
8
作者 肖建青 李伟 +1 位作者 张洵颖 沈绪榜 《微电子学与计算机》 CSCD 北大核心 2015年第7期103-106,111,共5页
针对超标量结构中多体并行的流水化指令Cache提出了三种低功耗优化策略,首先是基于Cache路的条件放大技术,它根据标志匹配结果来关闭无关路中敏感放大器对存储阵列的驱动输出;其次是基于Cache行的动态电压调节技术,它只对当前访问的Cach... 针对超标量结构中多体并行的流水化指令Cache提出了三种低功耗优化策略,首先是基于Cache路的条件放大技术,它根据标志匹配结果来关闭无关路中敏感放大器对存储阵列的驱动输出;其次是基于Cache行的动态电压调节技术,它只对当前访问的Cache行提供正常的操作电压,而其他Cache行都处于低电压休眠状态;最后是基于短循环程序的指令回收技术,它通过重复利用过期指令来减少对Cache的冗余访问.实验表明,这个低功耗设计在SPEC和PowerStone基准程序下可以将指令Cache的总功耗分别降低72.4%和84.3%,而处理器的IPC损失分别只有1.1%和0.8%,并且不会带来任何时序开销. 展开更多
关键词 超标量 流水化指令cache 条件放大 动态电压调节 指令回收
下载PDF
基于流水化和滑动窗口结构的低功耗指令Cache设计
9
作者 李伟 肖建青 《计算机工程与科学》 CSCD 北大核心 2015年第6期1037-1042,共6页
嵌入式处理器中Cache的应用极大地提高了处理器的性能,同时Cache,尤其是指令Cache功耗占据了处理器很大一部分功耗,关闭不必要的tag SRAM和data SRAM的访问,可以极大地降低功耗。提出了一种流水化的指令Cache访问机制,关闭不必要的data ... 嵌入式处理器中Cache的应用极大地提高了处理器的性能,同时Cache,尤其是指令Cache功耗占据了处理器很大一部分功耗,关闭不必要的tag SRAM和data SRAM的访问,可以极大地降低功耗。提出了一种流水化的指令Cache访问机制,关闭不必要的data SRAM的访问;并且通过记录指令Cache行的信息和预测下一行的Cache形成一个Cache行滑动窗口,关闭不必要的tag SRAM访问。所提出的方法没有性能损失,在SMIC 90nm工艺下进行功耗分析,其指令访问的功耗降低50%。 展开更多
关键词 指令cache 低功耗 流水化 滑动窗口 CPU
下载PDF
基于流水线的指令Cache设计技术
10
作者 龙文光 《商丘师范学院学报》 CAS 2004年第2期83-85,共3页
介绍了基于流水线技术的cache原理.并利用它的基本原理和技术,提出了设计指令cache关键技术和方法.
关键词 流水线 cache 设计 寻址原理 替换算法 指令
下载PDF
一种基于流水线的指令CACHE优化设计 被引量:3
11
作者 田芳芳 樊晓桠 +1 位作者 靖朝鹏 靳战鹏 《微电子学与计算机》 CSCD 北大核心 2006年第1期93-96,共4页
在现代微处理器的设计中,CACHE是整个微处理器性能的决定性因素。本文详细介绍了32位RISC微处理器“龙腾”R2中指令CACHE的体系结构,着重研究了其设计和实现问题。为了提高性能,采用了预取技术和流水线技术来优化设计,仿真结果表明得到... 在现代微处理器的设计中,CACHE是整个微处理器性能的决定性因素。本文详细介绍了32位RISC微处理器“龙腾”R2中指令CACHE的体系结构,着重研究了其设计和实现问题。为了提高性能,采用了预取技术和流水线技术来优化设计,仿真结果表明得到了预期的效果。 展开更多
关键词 指令cache 流水线 存储子系统
下载PDF
cache profiling信息指导的软件流水 被引量:1
12
作者 周谦 冯晓兵 张兆庆 《计算机研究与发展》 EI CSCD 北大核心 2008年第5期834-840,共7页
软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的... 软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的,如何在软件流水中预测并掩盖这些访存指令的延迟是非常重要的.与前人预测访存延迟的方法不同,引入cache profiling技术,通过动态收集到profile信息来预测访存延迟,并进行适当的调度.当增加模调度循环中的访存指令的延迟时,启动间隔也会随之增大,导致性能不会随之上升.CSMS算法和FLMS算法在尽量不增大启动间隔的情况下,改变访存指令的延迟.改进了CSMS算法和FLMS算法,根据cache profiling的信息来改变访存延迟,所以比前人的方法更为准确.实验表明,新方法可以有效地提高程序性能,对SPEC2000测试程序平均性能提高1%左右,个别例子的性能改进高达11%. 展开更多
关键词 软件流水 模调度 cache PROFILING 访存延迟 高性能计算
下载PDF
一种通用DSP单端口指令Cache设计
13
作者 曾晓文 陈杰 胡访宇 《微电子学与计算机》 CSCD 北大核心 2004年第11期141-145,共5页
在一款采用改进HARVARD总线结构的通用DSP中,通过设置一个小型指令CACHE来缓解流水线上的资源冲突。它采用两路组相连结构,仅在流水线上发生资源冲突时才会被访问。出于减小CACHE的面积和功耗考虑,该CACHE采用了单地址端口的设计,也就... 在一款采用改进HARVARD总线结构的通用DSP中,通过设置一个小型指令CACHE来缓解流水线上的资源冲突。它采用两路组相连结构,仅在流水线上发生资源冲突时才会被访问。出于减小CACHE的面积和功耗考虑,该CACHE采用了单地址端口的设计,也就意味着在同一时钟周期内,CACHE只能完成一次读或写的操作。当读写请求同时发生的时候,必须采用一定的优先策略。本文结合DSP的结构特点,对一些优先策略进行了分析,最后对比了各种策略所付出的代价以及在一些benchmark下的性能。从结果可以看出,通过采取某些策略,该单端口指令CACHE可以获得与双端口CACHE几乎相同的命中率。 展开更多
关键词 DSP流水线 cache冲突 策略
下载PDF
双簇结构DSP的数据Cache优化
14
作者 马鹏勇 陈书明 孙锁林 《计算机工程与科学》 CSCD 2008年第9期119-121,125,共4页
数字信号处理常常包含大量数据运算,这使得数据Cache成为影响其性能的关键因素。特别是对于我们研制的双簇VLIW结构YHFT DSP系列处理器,Cache的失效会导致整个内核八条流水线同时停顿。所以,减小Cache失效延迟能给处理器性能带来显著的... 数字信号处理常常包含大量数据运算,这使得数据Cache成为影响其性能的关键因素。特别是对于我们研制的双簇VLIW结构YHFT DSP系列处理器,Cache的失效会导致整个内核八条流水线同时停顿。所以,减小Cache失效延迟能给处理器性能带来显著的提升。本文研究的主要问题是如何针对一级数据Cache的读失效操作进行优化,从四个方面进行,分别为提前发读请求、请求字优先、合并并行失效读和后台处理Snooping。模拟结果表明,采用这些优化措施后,处理器的性能提高了8.36%。 展开更多
关键词 数字信号处理器 高速缓存 失效 超长指令字 双簇 流水线
下载PDF
面向机器学习的高性能SIMT处理器cache的设计与实现 被引量:3
15
作者 许晓燕 李涛 +1 位作者 孙哲 邢立冬 《计算机应用与软件》 北大核心 2019年第7期282-286,333,共6页
为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求,设计基于自主研发的SIMT处理器的流水线cache结构。依据局部性原理与LRU替换算法相结合设计专用的伪LRU替换算法,与通用的轮询、LFU、LRU替换算法共同完成cache... 为了满足机器学习中大数据、并行计算及降低处理器与主存之间的差距等要求,设计基于自主研发的SIMT处理器的流水线cache结构。依据局部性原理与LRU替换算法相结合设计专用的伪LRU替换算法,与通用的轮询、LFU、LRU替换算法共同完成cache替换算法的可配置要求,实现处理器与主存之间的快速交互。采用Xilinx公司virtex ultrascale系列的xcvu440-flga2892-2-e FPGA芯片对设计进行综合。结果表明该结构指令cache最大时延为2.923 ns,数据cache最大时延为3.258 ns,满足SIMT处理器性能要求。 展开更多
关键词 SIMT处理器 流水线cache结构 替换算法
下载PDF
通用处理器的高带宽访存流水线研究 被引量:6
16
作者 张浩 林伟 +2 位作者 周永彬 叶笑春 范东睿 《计算机学报》 EI CSCD 北大核心 2009年第1期142-151,共10页
存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的... 存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体性能平均提高了8.6%. 展开更多
关键词 高带宽 访存流水 高速缓存 TLB
下载PDF
一种面向嵌入式应用的片上系统:腾跃-1 被引量:4
17
作者 王蕾 陆洪毅 +2 位作者 王进 戴葵 王志英 《电子学报》 EI CAS CSCD 北大核心 2005年第11期2036-2039,共4页
本文介绍了面向嵌入式应用的片上系统芯片:腾跃-1的设计和实现技术.该芯片包括32位嵌入式RISC微处理器内核、通用存储器控制器、LCD控制器、片上总线和各种外围设备.微处理器内核采用自主设计的指令集体系结构.该芯片已经在中芯国际0.18... 本文介绍了面向嵌入式应用的片上系统芯片:腾跃-1的设计和实现技术.该芯片包括32位嵌入式RISC微处理器内核、通用存储器控制器、LCD控制器、片上总线和各种外围设备.微处理器内核采用自主设计的指令集体系结构.该芯片已经在中芯国际0.18μm工艺上通过验证,主频300MHz@1.8V,可以应用于信息安全领域的身份认证和数据加密等应用.本文最后对芯片的进行了性能评测. 展开更多
关键词 片上系统 嵌入式微处理器 体系结构 流水线 cache 存储器控制器
下载PDF
龙芯1号处理器结构设计 被引量:53
18
作者 胡伟武 唐志敏 《计算机学报》 EI CSCD 北大核心 2003年第4期385-396,共12页
首先介绍了龙芯处理器的研制背景及其技术路线 .分析了龙芯处理器坚持高性能定位、稳扎稳打的设计策略以及兼容主流处理器的原因 ,并指出在目前达到与国外相同主频的客观条件不具备的情况下 ,应走通过优化处理器结构来提高性能的道路 ,... 首先介绍了龙芯处理器的研制背景及其技术路线 .分析了龙芯处理器坚持高性能定位、稳扎稳打的设计策略以及兼容主流处理器的原因 ,并指出在目前达到与国外相同主频的客观条件不具备的情况下 ,应走通过优化处理器结构来提高性能的道路 ,并以处理器结构技术的突破为根本 .然后介绍了龙芯 1号处理器的体系结构设计 ,包括基于操作队列复用的动态流水线设计、在乱序执行的情况下实现精确例外处理、取指与转移控制结构、存储管理以及针对缓冲区溢出攻击的系统安全设计等等 .测试表明龙芯 1号处理器的指令流水线效率高 ,其安全设计能有效防范使用缓冲区溢出技术进行的网络攻击 .但龙芯 1号处理器的Cache过小 。 展开更多
关键词 龙芯1号处理器 结构设计 指令流水线 性能分析 计算机 微处理器
下载PDF
龙芯2号处理器设计和性能分析 被引量:37
19
作者 胡伟武 张福新 李祖松 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期959-966,共8页
介绍龙芯2号处理器设计及其性能测试结果.龙芯2号采用四发射超标量超流水结构。片内一级指令和数据高速缓存各64KB,片外二级高速缓存最多可达8MB.为了充分发挥流水线的效率,龙芯2号实现了先进的转移猜测、寄存器重命名、动态调度等... 介绍龙芯2号处理器设计及其性能测试结果.龙芯2号采用四发射超标量超流水结构。片内一级指令和数据高速缓存各64KB,片外二级高速缓存最多可达8MB.为了充分发挥流水线的效率,龙芯2号实现了先进的转移猜测、寄存器重命名、动态调度等乱序执行技术以及非阻塞的Cache访问和load Speculation等动态存储访问机制.龙芯2号处理器采用0.18gm的CMOS工艺实现,在正常电压下的最高工作频率为500MHz,500MHz时的实测功耗为3~5W.龙芯2号单精度峰值浮点运算速度为20亿a/秒,双精度浮点运算速度为10亿a/秒,SPECCPU2000的实测性能是龙芯1号的8~10倍,综合性能已经达到PentiumⅢ的水平.目前芯片样机能流畅运行完整的64位中文Linux操作系统,全功能的Mozilla浏览器、多媒体播放器和OpenOffice办公套件,可以满足绝大多数桌面应用的要求. 展开更多
关键词 超标量流水线 乱序执行 转移猜测 寄存器重命名 动态调度 非阻塞的cache load指令猜测执行 性能分析
下载PDF
基于简化Trace的动态隐式断言执行 被引量:1
20
作者 唐遇星 邓鹍 +1 位作者 窦勇 周兴铭 《计算机学报》 EI CSCD 北大核心 2007年第11期1972-1981,共10页
分支指令与分支预测失败限制了处理器发掘指令级并行(ILP)的潜力.通过If-conversion或Predicated执行将程序中的控制相关转化为数据相关,能较好地降低分支预测开销.提出一种基于简化Trace结构的动态隐式断言执行机制(Dynamic Implicit P... 分支指令与分支预测失败限制了处理器发掘指令级并行(ILP)的潜力.通过If-conversion或Predicated执行将程序中的控制相关转化为数据相关,能较好地降低分支预测开销.提出一种基于简化Trace结构的动态隐式断言执行机制(Dynamic Implicit Predication,DIP),而早期的相关研究主要集中于由编译器显式为宽发射处理器产生静态Predicated指令.无需编译器或者其他二进制工具的帮助,DIP可以在程序运行过程中识别可以进行断言变换的指令片断,完成指令转换与优化,并在以后的执行中使用优化后的指令Trace.基于SPEC2000模拟测试表明DIP可以有效避免错误的分支预测,提高并行度,单个程序的IPC平均提高10.3%,基准程序的平均加速比可达7.59%. 展开更多
关键词 指令级并行 断言 动态隐式断言执行 踪迹缓冲 流水线
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部