期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
片上多核处理器存储一致性验证 被引量:13
1
作者 王朋宇 陈云霁 +2 位作者 沈海华 陈天石 张珩 《软件学报》 EI CSCD 北大核心 2010年第4期863-874,共12页
存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执... 存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执行时间不重叠的操作之间存在确定的时间序.通过引入时间序的概念,设计并实现了一种线性时间复杂度的存储一致性验证工具LCHECK.LCHECK利用时间序将验证局部化,使得在表示程序执行结果的有向图中,序关系边的推导和正确性检测都被限定在有限范围内.与现有其他方法相比,LCHECK时间复杂度低,对程序长度和访存地址数没有限制,因此验证效率更高.作为国产片上多核处理器龙芯3号的重要验证工具,LCHECK发现了一些存储系统的设计错误. 展开更多
关键词 存储一致性模型 验证 时间序 片上多核处理器 缓存一致性
下载PDF
片上多核处理器共享资源分配与调度策略研究综述 被引量:9
2
作者 王磊 刘道福 +2 位作者 陈云霁 陈天石 李玲 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2212-2227,共16页
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问... 对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory,DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望. 展开更多
关键词 片上多核处理器 多线程 共享缓存 缓存分区 访存调度
下载PDF
Amdahl定律在层次化片上多核处理器中的扩展 被引量:7
3
作者 陈书明 陈胜刚 尹亚明 《计算机研究与发展》 EI CSCD 北大核心 2012年第1期83-92,共10页
层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务... 层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务计算开销的新元素,构建了层次化片上多核处理器的Amdahl加速比扩展模型.基于该扩展模型,就层次化片上多核处理器的加速比与超节点配置的关系问题展开研究.模拟分析发现,要获得良好的加速比性能,层次化片上多核处理器需要在超节点数目与超节点的大小(超节点内核的个数)之间作仔细的权衡;对于给定核数目的层次化片上多核处理器,使系统性能最优的超节点大小往往出现在中间某个值而不是最大或者最小,并且该值随着系统规模的变化会发生相应的变化. 展开更多
关键词 层次化结构 片上多核处理器 数据通信 性能模型 AMDAHL定律
下载PDF
片上多核处理器验证:挑战、现状与展望 被引量:7
4
作者 郭阳 李思昆 屈婉霞 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2012年第12期1521-1532,共12页
随着集成电路工艺水平的不断提升以及应用对处理器性能要求的日益增长,验证已成为未来片上多核处理器发展的主要技术瓶颈.文中深入分析了片上多核处理器验证中状态空间大、完备性不足、存储结构与互连网络验证复杂、硅后验证困难等突出... 随着集成电路工艺水平的不断提升以及应用对处理器性能要求的日益增长,验证已成为未来片上多核处理器发展的主要技术瓶颈.文中深入分析了片上多核处理器验证中状态空间大、完备性不足、存储结构与互连网络验证复杂、硅后验证困难等突出问题,系统地总结了片上多核处理器模拟验证、硬件仿真、形式验证、硅后验证等方面的研究进展,并对该领域未来的发展方向进行了分析与展望. 展开更多
关键词 片上多核处理器 模拟验证 形式验证 片上网络 集成电路
下载PDF
片上多核处理器容软错误执行模型 被引量:3
5
作者 龚锐 戴葵 王志英 《计算机学报》 EI CSCD 北大核心 2008年第11期2047-2059,共13页
随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了... 随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了结果比较以后才能提交.每个内核增加了硬件实现的现场保存与恢复机制,以实现对软错误的恢复.文中选择的现场保存点有利于隐藏现场保存带来的时间开销,并且采用了特殊的机制保证恢复执行和原始执行过程中load数据的一致性.TCR执行模型通过在3个不同的内核上运行相同的线程实现对软错误的屏蔽.在检测到软错误以后,TCR可以进行动态重构,屏蔽被软错误破坏的内核.实验结果表明,与传统的软错误恢复执行模型CRTR相比,DCR和TCR对核间通信带宽的需求分别降低了57.5%和54.2%.在检测到软错误的情况下,DCR的恢复执行带来5.2%的性能开销,而TCR的重构带来的性能开销为1.3%.错误注入实验表明,DCR能够恢复99.69%的软错误,而TCR实现了对SEU(Single Event Upset)型故障的全面屏蔽. 展开更多
关键词 片上多核处理器 执行模型 软错误恢复 软错误屏蔽 冗余 冗余
下载PDF
片上多核处理器的结构级功耗建模与优化技术研究 被引量:3
6
作者 张戈 胡伟武 +2 位作者 黄琨 曾洪博 王君 《自然科学进展》 北大核心 2009年第12期1398-1409,共12页
功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素。如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米... 功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素。如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米级工艺下片上多核处理器的功耗建模与评估方法,及其不同构件的低功耗优化技术。通过提出创新高效的多核处理器结构级功耗评估方法及其模拟平台,提高多核结构功耗模拟的准确性与灵活性,并以此为依托,开展处理器核、片上网络、片上存储及其一致性协议的各方面优化,寻求提高多核处理器功耗有效性的微体系结构,为国产多核处理器的低功耗设计提供一定借鉴与参考。 展开更多
关键词 片上多核处理器 功耗建模 功耗评估 低功耗结构
下载PDF
片上多核处理器共享Cache划分的公平性研究 被引量:1
7
作者 方娟 蒲江 张欣 《计算机工程与设计》 CSCD 北大核心 2010年第15期3413-3415,3517,共4页
公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题。以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案。通过提出... 公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题。以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案。通过提出一个新的多线程公平性评价指标并改进了已有的公平划分策略,从而提高多线程运行的公平性。实验结果表明,该共享Cache划分方案显著提高了系统公平性,并且系统吞吐量也有提高。 展开更多
关键词 片上多核处理器 共享CACHE划分 公平性 缺失 评价参数
下载PDF
层次化片上多核处理器性能研究
8
作者 侯宁 赵红梅 宋宇鲲 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第10期1226-1230,共5页
层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点... 层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点"大小对系统性能的影响。仿真发现,一定系统规模下,要获得良好的系统性能,层次化片上多核处理器需要在"簇节点"数目与"簇节点"的大小(节点内处理核的数目)之间仔细权衡。 展开更多
关键词 层次化结构 片上多核处理器 建模 性能分析
下载PDF
片上多核处理器Cache一致性协议优化研究综述 被引量:5
9
作者 胡森森 计卫星 +3 位作者 王一拙 陈旭 付文飞 石峰 《软件学报》 EI CSCD 北大核心 2017年第4期1027-1047,共21页
现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.介绍了片上多核处理器一致性问题的由来.总结了多核时代高速... 现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.介绍了片上多核处理器一致性问题的由来.总结了多核时代高速缓存一致性协议设计的关键问题,综述了近年来学术界对一致性的研究.从程序访存行为模式、目录组织结构、一致性粒度、一致性协议流量、目录协议的可扩展性等方面,阐述了近年来缓存一致性协议性能优化的方向.对目前片上多核处理器缓存一致性协议设计中存在的问题进行了讨论,并指出了未来进一步研究的方向. 展开更多
关键词 片上多核处理器 缓存一致性协议 性能优化
下载PDF
片上多核处理器Cache访问均衡性研究 被引量:3
10
作者 王子聪 陈小文 郭阳 《计算机学报》 EI CSCD 北大核心 2019年第11期2403-2416,共14页
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网... 随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%. 展开更多
关键词 片上多核处理器 非一致缓存体系结构 片上网络 均衡性 缓存访问
下载PDF
片上多核处理器共享末级缓存动静结合地址映射机制 被引量:1
11
作者 曹非 刘志勇 《计算机科学》 CSCD 北大核心 2012年第8期304-310,共7页
片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加... 片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加。针对该问题,提出了一种动静结合的共享末级cache地址映射方法。该方法可将原来静态映射于其他处理器末级cache中的临时私有数据动态映射于访问者处理器的本地末级cache中,减少了大量静态映射所造成的长延时非本地末级cache访问,从而有效降低了整个共享末级cache的访问延时,在提高性能的同时降低了功耗和带宽使用。实验结果表明,动静结合的地址映射方式应用于采用环连接互连结构和侦听顺序环协议的CMP结构时,可获得的平均性能提升为9%,最大性能提升为38%。 展开更多
关键词 片上多核处理器 共享末级高速缓存 地址映射机制 侦听顺序环协议
下载PDF
基于FPGA模拟片上多核处理器的新方法
12
作者 陈新科 黄帅 +2 位作者 王焕东 吴瑞阳 曾露 《高技术通讯》 CAS CSCD 北大核心 2014年第7期661-668,共8页
为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA... 为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA的容量限制问题,同时又不过多损害对多核处理器行为特征的有效模拟。用此方法实现了周期精确的全芯片模拟,并使用流片后的片上多核处理器芯片对此模拟方法进行了有效性验证。实验很容易地实现了50MHz以上的模拟速度,比基于相同设计的软件仿真快10万倍以上。模拟速度的大幅度提升,使得可以启动未经修改的Linux操作系统和运行完整的多用户SPEC CPU2006 train测试集。这种混合真实处理器核与伪造处理器核的模拟方法为片上多核处理器的功能验证和性能评估提供了一种简单高效的途径。 展开更多
关键词 模拟 仿真 模型 现场可编程门阵列(FPGA) 片上多核处理器 伪造的处理器
下载PDF
面向多线程应用的片上多核处理器私有LLC优化
13
作者 吴建宇 彭蔓蔓 《计算机工程》 CAS CSCD 北大核心 2015年第1期316-321,共6页
片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处... 片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。 展开更多
关键词 片上多核处理器 存储墙 末级Cache 失效开销 缓冲器
下载PDF
片上多核处理器的区域共享的双粒度目录
14
作者 曾露 陈新科 王焕东 《高技术通讯》 CAS CSCD 北大核心 2015年第7期669-676,共8页
研究了双粒度目录(DGD)下片上多核处理器的访存行为以及DGD对不同共享行为的目录开销,以进一步降低DGD结构的面积开销。针对DGD需要为共享缓存区域创建额外的块目录项的问题,提出了创新的区域共享的双粒度目录(RSDGD)结构。该结构可用... 研究了双粒度目录(DGD)下片上多核处理器的访存行为以及DGD对不同共享行为的目录开销,以进一步降低DGD结构的面积开销。针对DGD需要为共享缓存区域创建额外的块目录项的问题,提出了创新的区域共享的双粒度目录(RSDGD)结构。该结构可用一个区域共享目录项同时维护最多3个共享者共享同一个缓存区域的一致性,从而能有效减少所需的块目录项数量,降低总的目录开销。实验结果表明,和原有的DGD相比,该结构平均减少了25%的目录空间需求,而仅产生了不到0.6%的性能损失。该结构有效地降低了芯片的面积开销,提高了目录结构的可伸缩性。 展开更多
关键词 双粒度目录(DGD) 片上多核处理器 缓存一致性 区域共享 目录一致性协议 访存优化
下载PDF
多核处理器共享Cache的划分算法
15
作者 吕海玉 罗广 +1 位作者 朱嘉炜 张凤登 《电子科技》 2024年第9期27-33,共7页
针对多核处理器性能优化问题,文中深入研究多核处理器上共享Cache的管理策略,提出了基于缓存时间公平性与吞吐率的共享Cache划分算法MT-FTP(Memory Time based Fair and Throughput Partitioning)。以公平性和吞吐率两个评价性指标建立... 针对多核处理器性能优化问题,文中深入研究多核处理器上共享Cache的管理策略,提出了基于缓存时间公平性与吞吐率的共享Cache划分算法MT-FTP(Memory Time based Fair and Throughput Partitioning)。以公平性和吞吐率两个评价性指标建立数学模型,并分析了算法的划分流程。仿真实验结果表明,MT-FTP算法在系统吞吐率方面表现较好,其平均IPC(Instructions Per Cycles)值比UCP(Use Case Point)算法高1.3%,比LRU(Least Recently Used)算法高11.6%。MT-FTP算法对应的系统平均公平性比LRU算法的系统平均公平性高17%,比UCP算法的平均公平性高16.5%。该算法实现了共享Cache划分公平性并兼顾了系统的吞吐率。 展开更多
关键词 片上多核处理器 内存墙 划分 公平性 吞吐率 共享CACHE 缓存时间 集成计算机
下载PDF
面向低功耗的多核处理器Cache设计方法 被引量:2
16
作者 方娟 郭媚 +1 位作者 杜文娟 雷鼎 《计算机应用》 CSCD 北大核心 2013年第9期2404-2409,共6页
针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目... 针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目的,同时保证系统的性能良好。在LPHP和CRA中,程序运行时动态地关闭Cache中空闲的Cache列,节省了对空闲列的访问功耗。在WPP-L2中,利用路预测技术在Cache访问前给出预测路信息,预测命中时则可用最短的访问延时和最少的访问功耗完成Cache访问;预测失效时,则结合Cache划分策略,降低由路预测失效导致的额外功耗开销。通过SPEC2000测试程序验证,与传统使用最近最少使用(LRU)替换策略的共享L2 Cache相比,本方案提出的三种算法虽然对程序执行时间稍有影响,但分别节省了20.5%、17%和64.6%的平均L2 Cache访问功耗,甚至还提高了系统吞吐率。实验表明,所提方法在保持系统性能的同时可以显著降低多核处理器的功耗。 展开更多
关键词 片上多核处理器 二级缓存 动态划分 低功耗 性能
下载PDF
面向多核处理器的共享cache优化研究进展 被引量:2
17
作者 陈占龙 张丁文 +1 位作者 吴亮 臧英 《计算机应用研究》 CSCD 北大核心 2014年第10期2881-2887,共7页
由于技术的发展,片上多核处理器上的核数量和片上缓存的大小一直在增长,且缓存占据了芯片的大部分面积,使得片上缓存所消耗的能量成为存储器子系统中功率损耗的主要贡献者,因此对片上缓存进行优化是提高存储器系统效率的主要途径,增强... 由于技术的发展,片上多核处理器上的核数量和片上缓存的大小一直在增长,且缓存占据了芯片的大部分面积,使得片上缓存所消耗的能量成为存储器子系统中功率损耗的主要贡献者,因此对片上缓存进行优化是提高存储器系统效率的主要途径,增强了片上多核处理器的运算性能。针对共享缓存的管理、一致性等方面介绍了共享缓存的主流优化技术,并探讨了未来的研究方向。 展开更多
关键词 片上多核处理器 共享缓存 优化
下载PDF
纳米级工艺下多处理器功耗评估与优化技术 被引量:2
18
作者 张戈 张量 杨荣秋 《中国集成电路》 2008年第7期25-31,36,共8页
随着处理器设计进入纳米级工艺,功耗不可避免地成为阻碍摩尔定律继续快速前进的主要因素之一。与此同时片上多核处理器(Chip Multiple Processors——CMP)已成为当今处理器设计的主流。本文主要从体系结构设计的角度,对纳米级工艺下片... 随着处理器设计进入纳米级工艺,功耗不可避免地成为阻碍摩尔定律继续快速前进的主要因素之一。与此同时片上多核处理器(Chip Multiple Processors——CMP)已成为当今处理器设计的主流。本文主要从体系结构设计的角度,对纳米级工艺下片上多核处理器的功耗评估方法及不同构件的低功耗技术进行概括性介绍,为目前片上多核处理器的结构设计提供参考。 展开更多
关键词 片上多核处理器 低功耗 纳米级工艺 结构设计
下载PDF
片上多核中一种共享感知的数据主动推送Cache技术 被引量:3
19
作者 王得利 高德远 《西安交通大学学报》 EI CAS CSCD 北大核心 2010年第10期18-23,共6页
针对片上多核处理器的二级Cache访问延时持续增加以及并行程序在运行时线程间执行速率差异大的问题,提出了一种基于共享感知的数据主动推送Cache技术(SAAPC).SAAPC技术充分考虑并行程序的系统性能由速度最慢的线程所决定这一重要特性,... 针对片上多核处理器的二级Cache访问延时持续增加以及并行程序在运行时线程间执行速率差异大的问题,提出了一种基于共享感知的数据主动推送Cache技术(SAAPC).SAAPC技术充分考虑并行程序的系统性能由速度最慢的线程所决定这一重要特性,根据并行线程间读数据共享程度高以及共享读数据访问局部性好的特征,采用基于指令的方法来预测共享读数据流,在后行线程需要共享数据之前将其主动推送至该线程的一级Cache中去,从而减少较慢线程的数据访问延时,提高执行速率,降低较慢线程与先行线程间执行速率的差异.SAAPC技术避免了预取技术所带来的额外片外带宽增加的缺点.使用SESC模拟器对来自于SPLASH2测试程序集的5个存储敏感型并行程序进行了测试仿真,结果表明,与传统的共享Cache相比,使用SAAPC技术减少了并行线程间执行速率的差异,系统的每周期指令数平均提高了7%,最高达到13.1%. 展开更多
关键词 片上多核处理器 并行程序 共享感知 主动推送 执行速率
下载PDF
多核环境下边缘提取并行算法研究 被引量:7
20
作者 张思乾 程果 +1 位作者 陈荦 熊伟 《计算机科学》 CSCD 北大核心 2012年第1期295-298,共4页
随着处理器由高主频的单核处理器逐步转向片上多核处理器(CMP),计算机并行处理能力不断提升。通过分析GIS串行算法面临的性能瓶颈,利用CMP的优势,采用线程级并行处理栅格数据。针对边缘提取算法,深入分析和比较了MPI、OpenMP等当前主流... 随着处理器由高主频的单核处理器逐步转向片上多核处理器(CMP),计算机并行处理能力不断提升。通过分析GIS串行算法面临的性能瓶颈,利用CMP的优势,采用线程级并行处理栅格数据。针对边缘提取算法,深入分析和比较了MPI、OpenMP等当前主流的并行编程模式,提出了并行性能估计模型。基于OpenMP编程模型分析线程数、调度方式和分块大小对算法并行性能的影响,实现边缘提取最优并行。实验证明,性能评估模型能够准确预测CMP环境下的并行性能,基于OpenMP实现的边缘提取并行算法能够提高图像边缘提取效率。 展开更多
关键词 片上多核处理器 OPENMP 边缘提取
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部