期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
一种有效的同时多线程处理器取指控制机制 被引量:4
1
作者 何立强 刘志勇 《计算机学报》 EI CSCD 北大核心 2006年第4期535-543,共9页
同时多线程处理器通过每时钟周期从多个运行的线程取指令执行,极大地提高了处理器的性能.分支预测器的预测精度和取指策略的效率是影响同时多线程处理器性能的关键.通过将一个基于值的分支预测器和一个基于线程推进速度的取指策略相结合... 同时多线程处理器通过每时钟周期从多个运行的线程取指令执行,极大地提高了处理器的性能.分支预测器的预测精度和取指策略的效率是影响同时多线程处理器性能的关键.通过将一个基于值的分支预测器和一个基于线程推进速度的取指策略相结合,提出一种新的取指控制机制.该结构的硬件开销较小,实现复杂度较低.实验结果表明,该取指控制机制有效地提高了处理器的性能,其相对于传统取指控制机制的性能加速比为28%且该加速比也高于目前基于流缓冲区和基于分支分类器的取指控制机制. 展开更多
关键词 同时多线程处理器 取指策略 分支预测器 分支分类器 取指控制机制
下载PDF
基于多个取指优先级的同时多线程处理器取指策略 被引量:3
2
作者 孙彩霞 张民选 《电子学报》 EI CAS CSCD 北大核心 2006年第5期790-795,共6页
同时多线程(SMT,SimultaneousMultithreading)处理器中,同时运行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT... 同时多线程(SMT,SimultaneousMultithreading)处理器中,同时运行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT处理器的总体性能.本文提出了一种基于多个取指优先级的同时多线程取指策略MFP(Multiple Fetch Priorities),用于减少L2 cache失效给处理器性能带来的负面影响.模拟结果表明,无论使用IPC作为度量标准还是使用Hmean作为度量标准,对于所有类型的工作负载,尤其是存储器访问密集的工作负载,MFP都要优于现有的其他取指策略.此外,对于不同的取指策略,MFP表现出不同程度的提升.相对于PDG的提升最明显,平均IPC以及平均Hmean分别提高了19.2%和27.7%. 展开更多
关键词 同时多线程 cache失效 取指策略 取指优先级 资源分配
下载PDF
基于同时多线程的IFSBSMT取指策略研究
3
作者 李静梅 关海洋 《计算机科学》 CSCD 北大核心 2012年第8期311-315,共5页
取指策略直接影响处理器的指令吞吐率。针对传统处理器取指策略存在取指带宽利用不均衡、指令队列冲突率高的缺点,提出基于同时多线程处理器的取指策略IFSBSMT。该策略以线程的IPC值为基础,选取优先级高的线程进行取指,并利用预取指令... 取指策略直接影响处理器的指令吞吐率。针对传统处理器取指策略存在取指带宽利用不均衡、指令队列冲突率高的缺点,提出基于同时多线程处理器的取指策略IFSBSMT。该策略以线程的IPC值为基础,选取优先级高的线程进行取指,并利用预取指令条数预算的方式分配取指带宽,采取线程IPC值和L2Cache缺失率的双优先级动态资源分配机制分配处理器的系统资源。研究结果表明,IFSBSMT策略有效地解决了取指带宽、指令队列冲突及资源浪费问题,进一步提高了指令吞吐率,且具有较好的取指公平性。 展开更多
关键词 同时多线程 取指策略 IFSBSMT 取指带宽 令队列冲突 双优先级动态资源分配
下载PDF
基于取指执行时序范畴的多核共享Cache干扰分析 被引量:4
4
作者 陈芳园 张冬松 +1 位作者 刘聪 王志英 《计算机研究与发展》 EI CSCD 北大核心 2013年第1期206-217,共12页
在多核结构中,获得并行应用线程的安全、精确的最坏情况执行时间(worst case execution time,WCET)的最大挑战之一在于共享资源的竞争冲突检测.在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导... 在多核结构中,获得并行应用线程的安全、精确的最坏情况执行时间(worst case execution time,WCET)的最大挑战之一在于共享资源的竞争冲突检测.在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导致了线程间在共享Cache上的干扰,因此多核结构下线程WCET需要考虑并行线程间在共享Cache上的干扰.在现有的简单地址映射干扰分析基础上,考虑了指令取指执行时序因素对干扰的影响,提出了非干扰状态的充分不必要条件,根据指令的取指执行时序范畴判断线程在共享Cache上的干扰状态.通过排除非干扰状态,可以进一步精确多核结构中线程的WCET估值.理论分析证明了该方法的有效性.实验结果表明,与当前现有的考虑执行周期和基于逻辑访问先后顺序的方法相比,基于时序方法下的WCET估值分别可以提高12%和7%的精确度. 展开更多
关键词 多核体系结构 共享CACHE 干扰 取指执行时序 最坏情况下执行时间
下载PDF
JE-Java芯片中取指部件的设计和性能分析 被引量:2
5
作者 陈虎 戴葵 +1 位作者 杨晓东 胡守仁 《计算机研究与发展》 EI CSCD 北大核心 2001年第3期368-374,共7页
首先介绍了 JE- Java芯片中取指部件的设计 .为了选择合适的指令预取策略和参数 ,需要对其进行性能分析 .利用理论分析和模拟两种方法对其进行性能分析 ,对指令预取策略和参数的选择提出了合理的建议 ,并与实际测试结果进行了比较 .
关键词 取指部件 性能分析 JE-Java芯片 微处理器
下载PDF
使用取指策略控制同时多线程处理器中个体线程的性能 被引量:3
6
作者 孙彩霞 张民选 《计算机学报》 EI CSCD 北大核心 2008年第2期309-317,共9页
当前,对同时多线程(Si multaneous Multithreading,SMT)处理器取指策略的研究大都集中在总体性能的优化上.文中提出一种新颖的SMT处理器取指策略(Controlling Performance of Individual Thread,CPIT),用于控制个体线程的执行.结果表明... 当前,对同时多线程(Si multaneous Multithreading,SMT)处理器取指策略的研究大都集中在总体性能的优化上.文中提出一种新颖的SMT处理器取指策略(Controlling Performance of Individual Thread,CPIT),用于控制个体线程的执行.结果表明,对于模拟的所有负载,CPIT在94%以上的情况下都能保证受控线程获得期望性能.而对于失败的情况,受控线程的平均性能偏差不超过1.25%.此外,CPIT策略对处理器总体性能的影响并不大.与ICOUNT这种以优化性能为目标的取指策略相比,总体性能的平均降低不超过3%,而除受控线程外的其他线程的性能平均只降低了1.75%. 展开更多
关键词 同时多线程 取指策略 性能 资源分配 期望性能
下载PDF
一种具有QoS特性的同时多线程处理器取指策略 被引量:4
7
作者 何立强 刘志勇 《计算机研究与发展》 EI CSCD 北大核心 2006年第11期1980-1984,共5页
同时多线程处理器通过每时钟周期从多个运行的线程取指令执行,从而极大地提高了处理器的性能.建议了一种具有QoS特性的同时多线程处理器取指策略,并讨论了其在QoS管理方面的问题.该策略的核心思想是利用线程的优先级和流速来同时控制线... 同时多线程处理器通过每时钟周期从多个运行的线程取指令执行,从而极大地提高了处理器的性能.建议了一种具有QoS特性的同时多线程处理器取指策略,并讨论了其在QoS管理方面的问题.该策略的核心思想是利用线程的优先级和流速来同时控制线程的取指过程,从而满足线程在执行速度上的QoS需求.与传统的基于纯优先级的取指策略相比,该策略不但具有QoS特性,同时还可以更加有效地分配取指带宽,从而能获得更高的处理器性能.该策略的物理实现非常简单.模拟实验的结果表明,该策略在提供QoS支持的基础上,可以在传统的基于优先级的取指策略ICOUNT的基础上提高15%的系统性能. 展开更多
关键词 同时多线程处理器 取指策略 服务质量
下载PDF
DWarn+:一种改进的同时多线程处理器取指策略 被引量:3
8
作者 孙彩霞 张民选 《小型微型计算机系统》 CSCD 北大核心 2007年第9期1720-1723,共4页
同时多线程(SMT,Simultaneous Multithreading)处理器通过每个周期同时运行来自多个线程的指令来提高性能.同时执行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度... 同时多线程(SMT,Simultaneous Multithreading)处理器通过每个周期同时运行来自多个线程的指令来提高性能.同时执行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT处理器的总体性能.为了减小L2 cache失效给SMT处理器性能带来的负面影响,许多取指策略被提了出来,DWarn就是其中比较有效的一种.本文在DWarn的基础上进行改进,提出了DWarn+取指策略.模拟结果表明,当同时运行的线程数目不超过4时,无论使用IPC作为度量标准还是使用Hmean作为度量标准,DWarn+都要明显优于DWarn;当同时运行的线程数目大于4时,DWarn+相对于DWarn的提高主要体现在存储器访问密集的工作负载上,而对于所有类型工作负载,DWarn+相对于DWarn的平均提高非常有限. 展开更多
关键词 同时多线程 二级cache失效 DWarn取指策略 资源分配
下载PDF
一种基于VLIW DSP架构的高性能取指流水线 被引量:1
9
作者 杨惠 陈书明 万江华 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第4期102-106,共5页
以超长指令字(VLIW)数字信号处理器(DSP)作为平台,针对现有提高单线程取指流水线效率的方法中存在的弊端,提出了一种高性能的取指流水架构。该架构支持无效取指的检测与作废,从而降低不必要的cache访问,减少取指流水停顿周期,该结构还... 以超长指令字(VLIW)数字信号处理器(DSP)作为平台,针对现有提高单线程取指流水线效率的方法中存在的弊端,提出了一种高性能的取指流水架构。该架构支持无效取指的检测与作废,从而降低不必要的cache访问,减少取指流水停顿周期,该结构还引入专用硬件支持编译调度的循环软流水,有效提高指令并行性,降低代码存储空间,由此释放出的单线程取指流水线的空闲周期约达46.34%。实验结果表明,相比优化前的取指流水而言,代码空间压缩约11.93%,执行周期缩短约8.67%,cache访问次数下降约12.84%,指令cache暂停周期缩短约7.86%,处理器单线程的指令吞吐率平均提高约11.7%。 展开更多
关键词 数字信号处理器 无效取指 软件流水 循环缓冲
下载PDF
一种提高同时多线程VLIW处理器中取指单元吞吐率的方法 被引量:2
10
作者 万江华 陈书明 《计算机工程与科学》 CSCD 2007年第6期97-101,共5页
在同时多线程处理器中,提高取指单元的吞吐率意味着各线程之间的Cache竞争更加激烈,而这种竞争又制约着取指单元吞吐率的提高。本文针对当前超长指令字体系结构的新特点,提出了一种同时提高取指单元和处理器吞吐率的方法。该方法通过尽... 在同时多线程处理器中,提高取指单元的吞吐率意味着各线程之间的Cache竞争更加激烈,而这种竞争又制约着取指单元吞吐率的提高。本文针对当前超长指令字体系结构的新特点,提出了一种同时提高取指单元和处理器吞吐率的方法。该方法通过尽可能早地作废取指流水线中的无效地址,减少了由无效取指导致的程序Cache冲突,也提高了整个处理器的性能。实验结果表明,该方法使处理器和取指单元的吞吐率均相对提高了12%~23%,而一级程序Cache的失效率则略微增加甚至降低。另外,它还能够减少10%~25%的一级程序Cache读访问,从而降低了处理器的功耗。 展开更多
关键词 同时多线程 超长令字 cache冲突 取指 无效地址
下载PDF
基于负载瞬时IPC性能的同时多线程处理器取指策略 被引量:1
11
作者 何立强 刘志勇 《计算机学报》 EI CSCD 北大核心 2007年第4期629-637,共9页
同时多线程处理器在每时钟周期从多个线程读取指令执行,极大地提高了指令吞吐率.文中简单介绍了SMT技术,讨论了常用的取指策略,比较了各策略在提高性能方面的优劣.给出特定负载下理论上的最优取指策略,在此基础上提出一种基于负载瞬时IP... 同时多线程处理器在每时钟周期从多个线程读取指令执行,极大地提高了指令吞吐率.文中简单介绍了SMT技术,讨论了常用的取指策略,比较了各策略在提高性能方面的优劣.给出特定负载下理论上的最优取指策略,在此基础上提出一种基于负载瞬时IPC性能的动态取指策略IPCBFP.实验表明,该策略可以有效地提高负载的性能,平均加速比对于两线程负载可以达到17%,对于四线程负载可以达到8%.该策略还具有平均占用指令队列项少,指令队列冲突率低的特点,而且,对降低SMT的Cache失效率和TLB失效率方面也有一定的作用. 展开更多
关键词 同时多线程处理器 取指策略 令队列 IPC 令吞吐率
下载PDF
NRS4000取指单元的设计 被引量:2
12
作者 王巍 高德远 《航空电子技术》 北大核心 1998年第3期1-4,共4页
NRS4000是一种采用全正向设计思路的嵌入式32位RISC微处理器,它与Intel80960二进制兼容。本文在对NRS4000体系结构分析研究的基础上,对NRS4000的取指部件的设计作了较详细阐述。
关键词 微处理器 体系结构 取指单元 设计
下载PDF
基于EPIC的同时多线程处理器取指策略
13
作者 贾小敏 孙彩霞 张民选 《计算机工程》 CAS CSCD 北大核心 2007年第4期256-258,262,共4页
EPIC硬件简单,同时多线程易于开发线程级并行,在EPIC上实现同时多线程可以结合二者的优点。取指策略对同时多线程处理器的性能有重要影响。该文介绍了几种有代表性的超标量同时多线程处理器取指策略,分析了这些策略在EPIC同时多线程处... EPIC硬件简单,同时多线程易于开发线程级并行,在EPIC上实现同时多线程可以结合二者的优点。取指策略对同时多线程处理器的性能有重要影响。该文介绍了几种有代表性的超标量同时多线程处理器取指策略,分析了这些策略在EPIC同时多线程处理器上的适用性,提出了一种新的适用于EPIC的取指策略SICOUNT。分析表明SICOUNT策略可以充分利用EPIC软硬件协同的优势,在选择取指线程时使用编译器所提供的停顿信息,能更精确地估计各个线程的流动速度,使取出指令的质量更高。 展开更多
关键词 显式并行令计算 同时多线程 取指策略 ITANIUM SICOUNT
下载PDF
M5-EDGE分布式取指模型设计
14
作者 张超 喻明艳 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2017年第5期16-21,共6页
为解决M5-edge模拟器的理想化集总式取指令结构对基于EDGE体系结构设计空间探索的限制问题,对原模拟器的取指令前段进行分布式设计,包括总体的功能、具体的取指单元及单元间的互连网络设计,并在取指令块头的方式上设计了固定方式和循环... 为解决M5-edge模拟器的理想化集总式取指令结构对基于EDGE体系结构设计空间探索的限制问题,对原模拟器的取指令前段进行分布式设计,包括总体的功能、具体的取指单元及单元间的互连网络设计,并在取指令块头的方式上设计了固定方式和循环方式两种方案.通过对实现后的结构进行在不同分布单元数量条件下的仿真分析,得到从理想集总式取指结构到实际分布式结构的性能下降关系和不同取指令块头方式的优劣.通过进一步分析,得出通信延迟和缓存缺失率对处理器性能的影响. 展开更多
关键词 EDGE体系结构 分布式取指 通信延迟 缓存缺失率
下载PDF
统一染色器阵列中取指译码单元的设计与实现
15
作者 魏艳艳 田泽 +1 位作者 牛少平 史嘉涛 《航空计算技术》 2020年第3期102-104,108,共4页
统一染色器阵列是图形处理器(GPU)的重要功能部件,主要完成顶点、像素的统一染色功能。在统一染色器阵列中,提出了采用双发射指令并行执行4个周期的结构来隐藏流水线延迟,提升染色处理器的指令吞吐率。进行了取指译码单元(FDU)的方案设... 统一染色器阵列是图形处理器(GPU)的重要功能部件,主要完成顶点、像素的统一染色功能。在统一染色器阵列中,提出了采用双发射指令并行执行4个周期的结构来隐藏流水线延迟,提升染色处理器的指令吞吐率。进行了取指译码单元(FDU)的方案设计、关键功能点的分析与设计,基于虚拟仿真平台和XilinxFPGA原型系统对设计进行了验证,结果表明设计各项功能正确且性能满足设计要求。在SMIC 65 nm CMOS工艺下,采用Synopsys Design Compiler对设计进行综合,电路工作频率达到600 MHz,满足系统应用要求。 展开更多
关键词 GPU 统一染色器阵列 取指译码单元
下载PDF
一种改进的SMT模拟器——支持Oracle机制和多种取指策略
16
作者 唐新民 董岚 +2 位作者 季振洲 唐朔飞 崔光佐 《计算机工程与应用》 CSCD 北大核心 2005年第14期57-60,共4页
模拟器是计算机系统设计中非常重要的一种技术。O racle研究能够用来确定所研究问题的最优或最差情况,为正常研究提供有用的辅助信息。但是现在常用的一些同步多线程(SM T)模拟器都不能提供支持O racle研究所需的信息。文章结合原有模... 模拟器是计算机系统设计中非常重要的一种技术。O racle研究能够用来确定所研究问题的最优或最差情况,为正常研究提供有用的辅助信息。但是现在常用的一些同步多线程(SM T)模拟器都不能提供支持O racle研究所需的信息。文章结合原有模拟器的基础,提供了一种新的支持O racle研究的模拟平台。同时原SM T模拟器只支持ICO UNT这一种取指策略,文章在原模拟器基础上,又增加了BR COU NT和M ISSCO UNT这两种通用的取指策略。 展开更多
关键词 同步多线程 模拟器 Oracle研究 取指策略
下载PDF
浮点与整数资源区别分配的SMT处理器取指策略
17
作者 蒋生健 胡向东 杨剑新 《计算机工程》 CAS CSCD 北大核心 2017年第4期46-51,共6页
在同时多线程处理器中,各线程对于浮点和整数资源需求不同,合理分配线程的共享资源是提升处理器整体性能的重要因素。为此,提出一种浮点与整数资源区别分配的取指策略,合理分配各个线程对于浮点和整数资源的使用情况。实验结果表明,与IC... 在同时多线程处理器中,各线程对于浮点和整数资源需求不同,合理分配线程的共享资源是提升处理器整体性能的重要因素。为此,提出一种浮点与整数资源区别分配的取指策略,合理分配各个线程对于浮点和整数资源的使用情况。实验结果表明,与ICOUNT,STALL等策略相比,该策略在算术平均IPC和调和平均IPC方面均取得一定的性能提升,同时其在处理浮点和整数混合型程序时也具有优势。 展开更多
关键词 同时多线程 取指策略 资源分配 线程级并行 浮点 整数
下载PDF
一种限制单片微型机取指范围的方法 被引量:1
18
作者 杨睿 《微型机与应用》 1991年第12期41-41,共1页
单片微型机系统在受到干扰时,其最常发生的情况是PC值出错,从而使微机取指超出用户程序范围而进行杂乱无章的操作。这对一般控制系统来讲是不能允许的。因此很有必要对微机的取指范围进行限定,一旦其取指超出用户设定的范围时,应使其立... 单片微型机系统在受到干扰时,其最常发生的情况是PC值出错,从而使微机取指超出用户程序范围而进行杂乱无章的操作。这对一般控制系统来讲是不能允许的。因此很有必要对微机的取指范围进行限定,一旦其取指超出用户设定的范围时,应使其立即得到复位。实现上述任务可以有多种方法,本文提供的方法具有简便,经济、实用的特点。其可以做成一个具有独立结构的小装置,该装置可以在不改动用户系统软、硬件情况下方便地插在单片机芯片上工作。 展开更多
关键词 微处理机 取指范围
下载PDF
一种16位专用微控器存储器接口取指逻辑的设计
19
作者 李艳军 沈绪榜 《微电子学与计算机》 CSCD 北大核心 2012年第8期47-49,共3页
为了弥合微控器和存储器的速度差,加速复杂指令集微控器取指过程,在存储器接口处设计了从PC,从而加速CPU的取指过程,并给出了从PC的电路结构.进一步详细介绍了主PC和从PC配合取指的过程,并对从PC进行了功能验证和性能分析,结果表明,采用... 为了弥合微控器和存储器的速度差,加速复杂指令集微控器取指过程,在存储器接口处设计了从PC,从而加速CPU的取指过程,并给出了从PC的电路结构.进一步详细介绍了主PC和从PC配合取指的过程,并对从PC进行了功能验证和性能分析,结果表明,采用从PC技术能有效加速CPU的取指过程. 展开更多
关键词 从PC 加速取指 存储器接口 复杂令集 微控器
下载PDF
Chord协议的指取表优化研究
20
作者 杜江 吴小俊 邹益民 《重庆邮电大学学报(自然科学版)》 北大核心 2010年第2期248-251,共4页
针对Chord协议的指取表在对比试验中表现欠佳,对其关键数据结构—指取表进行优化。原Chord协议的指取表采用具有折半查找性质的分布,在仿真实验中,采用了域内均匀分布的指取表,取代了原有指取表。仿真试验结果表明,在节点数固定的Chord... 针对Chord协议的指取表在对比试验中表现欠佳,对其关键数据结构—指取表进行优化。原Chord协议的指取表采用具有折半查找性质的分布,在仿真实验中,采用了域内均匀分布的指取表,取代了原有指取表。仿真试验结果表明,在节点数固定的Chord环中,新的指取表的效率比原有协议的效率高,与F-chord的效率大致相当,明显改善了网络的性能,提高了搜索效率。 展开更多
关键词 CHORD 对等系统
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部