期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于NUMA云计算架构的多资源分配可信拍卖机制
1
作者 徐嘉 张骥先 +1 位作者 王喆民 刘林杰 《计算机工程与科学》 CSCD 北大核心 2024年第5期761-775,共15页
随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内... 随着互联网不断发展,云计算和虚拟化等技术广泛投入使用,设计可信拍卖机制为云服务商进行社会福利最大化的虚拟资源分配,是当前云计算领域的研究重点之一。同时,随着服务器规模不断扩展,诸多主流数据中心的服务器正在升级为非统一性内存访问NUMA架构,其主要特征为,每台服务器可由多个计算节点构成,每个节点包含若干处理器和存储器,既可作为独立计算单元,也可以相互连通访问。但是,当前的研究主要着眼于传统的统一性内存访问架构,无法适应NUMA架构下的应用场景。因此,提出了一种适用于NUMA架构下的多资源可信拍卖机制,以虚拟机的形式进行多种资源的组合分配。具体而言,在资源分配问题中,提出一种单调启发式分配算法,考虑了NUMA架构下的部署约束和资源优势密度等因素,有效提升了社会福利。在价格支付问题中,使用二分法设计一种符合关键价格理论的定价支付算法,从而保证机制的可信特征。经过实验测试,该机制在社会福利、用户支付费用和资源利用率等方面,整体性能达到最优解的96%左右。 展开更多
关键词 云计算 资源分配 非统一性内存访问 拍卖机制 可信
下载PDF
基于NUMA延迟发送的时变图弱连通分量求解
2
作者 梁锐杰 程永利 《计算机系统应用》 2023年第3期322-329,共8页
时变图连通分量已经被广泛应用到不同场景,如交通路网建设、推荐系统的信息推送等.然而当前多数连通分量求解方法忽视了NUMA体系结构对计算效率产生的影响,即过高的远程内存访问延迟导致低下的算法执行效率.本文针对时变图的弱连通分量... 时变图连通分量已经被广泛应用到不同场景,如交通路网建设、推荐系统的信息推送等.然而当前多数连通分量求解方法忽视了NUMA体系结构对计算效率产生的影响,即过高的远程内存访问延迟导致低下的算法执行效率.本文针对时变图的弱连通分量求解问题,提出一种基于NUMA延迟发送的时变图弱连通分量求解方法,它通过合理的数据内存布局,合理控制NUMA节点间的信息交换次数,最大限度减少远程内存访问数量,显著提高了算法执行效率.实验结果表明,该方法的性能明显优于当前流行的图处理系统Ligra和Polymer提供的方法. 展开更多
关键词 弱连通分量 numa 延迟发送 时变图 图计算
下载PDF
多GPU系统非一致存储访问优化:研究进展与展望
3
作者 李晨 刘畅 +1 位作者 葛一漩 郭阳 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1783-1800,共18页
随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问... 随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问(Non-Uniform Memory Access,NUMA)问题,严重影响多GPU系统的性能.为了减少非一致存储访问所导致的性能损失,本文首先分析了非一致存储访问出现的原因,并对现有的非一致存储访问解决方案进行了对比.针对不同维度的非一致存储访问,本文从减少远程访问流量和提升远程访问性能两个方向出发,对非一致存储访问的优化方案进行了总结.最后,结合这些方案的优缺点,提出了未来多GPU系统非一致存储访问优化的发展方向. 展开更多
关键词 多GPU系统 非一致存储访问 GPU访存
下载PDF
基于cc-NUMA多核处理器构架的虚拟机监控器原型设计与实现 被引量:1
4
作者 戴月华 史椸 +2 位作者 谢锋涛 冯雨声 齐勇 《计算机与数字工程》 2010年第8期46-51,共6页
基于cc-NUMA构架的多核处理器是未来的主流。系统内集成百处理器核心也会在几年内出现,而现有的系统软件并不能充分发挥这一构架的优势。文章设计实现了一个虚拟机原型,通过虚拟机向上层操作系统屏蔽底层cc-NU-MA构架的特性,使操作系统... 基于cc-NUMA构架的多核处理器是未来的主流。系统内集成百处理器核心也会在几年内出现,而现有的系统软件并不能充分发挥这一构架的优势。文章设计实现了一个虚拟机原型,通过虚拟机向上层操作系统屏蔽底层cc-NU-MA构架的特性,使操作系统无需修改可高效的运行并且应用程序降低开发的难度。实验结果表明运行在虚拟化后同一NUMA节点内的Linux可以达到很好的性能。 展开更多
关键词 多核 操作系统 虚拟机 非一致性内存访问
下载PDF
CC-NUMA并行系统通信优化的变换技术
5
作者 陈渝 nudt.edu.cn +2 位作者 李春江 杨学军 陈福接 《软件学报》 EI CSCD 北大核心 2000年第4期507-514,共8页
减少通信开销是并行编译优化的主要目标之一 .该文针对具有 cache一致性的非一致存储访问并行系统 ( CC- NUMA)的特点 ,提出通过结合计算变换和数据变换 ,在统一的代数框架下对并行程序进行通信优化的策略和方法 .通过实验测试 。
关键词 并行编译 通信优化 数据变换 CC-numa
下载PDF
NUMA架构内多个节点间访存延时平衡的内存分配策略 被引量:4
6
作者 李慧娟 栾钟治 +2 位作者 王辉 杨海龙 钱德沛 《计算机学报》 EI CSCD 北大核心 2017年第9期2111-2126,共16页
随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linu... 随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linux的系统开发者为了实现充分利用NUMA本地访存低延时的特点,在为进程分配内存时,选择进程当前正在运行的NUMA节点作为分配内存的目标节点.这种分配会导致进/线程之间共享内存的不公平.例如,一个在当前本地节点被分配很多内存的进程,可能被调度到远端节点运行,这样会导致进程的性能波动.针对这一问题,该文设计了一种保证NUMA架构内各内存节点间访存延时平衡的内存分配策略,并在Linux系统中实现和验证.延时的获取方法依赖平台,但是系统内核的策略是通用的.实验结果表明,与Linux默认的内存分配策略相比,进/线程间的不公平性平均降低了16%(最多34%),并且各进/线程的性能没有较大抖动. 展开更多
关键词 numa架构 内存分配策略 访存延时 访存延时感知 访存延时平衡
下载PDF
NUMA结构的高效实时稳定的垃圾回收算法
7
作者 廖彬 傅杰 +4 位作者 靳国杰 王一光 王磊 章隆兵 王剑 《高技术通讯》 CAS CSCD 北大核心 2015年第2期125-134,共10页
针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机... 针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机制的堆空间布局,然后通过控制GC过程中扫描活跃对象阶段的初始根对象选取、动态负载均衡阶段截取任务队列的选取以及复制活跃对象阶段对象复制位置的选取,大大减少GC过程中的远程访问次数。这种改进的GC机制对所有NUMA结构具有通用性。以Godson-3处理器的NUMA平台为例进行的实验结果显示,优化的GC机制极大地缩短了GC的时间,而且提高了应用程序的性能以及稳定性。在SPECjvm2008测试中,GC时间平均缩短了14.6%(GC总时间缩短4.1%-41.58%),应用程序的性能平均提升了4.68%(最高提升17.8%),应用程序的性能稳定性提升了76.2%。 展开更多
关键词 非一致性内存访问架构(numa) 垃圾回收(GC) 分代GC 活跃对象 根对象 动态负载均衡
下载PDF
内存管理系统对NUMA的支持及优化
8
作者 杨梦梦 卢凯 卢锡城 《计算机工程》 EI CAS CSCD 北大核心 2005年第16期80-82,109,共4页
阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。... 阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。通过实际系统的验证,文中所提出的技术方案较好地支持了NUMA系统复杂存储结构的管理需求,减少了存储访问延迟,提高了系统性能。 展开更多
关键词 操作系统 内存管理 非一致性存储访问体系结构 numa
下载PDF
NUMA架构下数据热度的内存数据库日志恢复技术 被引量:5
9
作者 吴刚 阿卜杜热西提·热合曼 +2 位作者 李梁 乔百友 韩东红 《计算机科学与探索》 CSCD 北大核心 2019年第6期941-949,共9页
在内存数据库故障恢复技术中,命令日志是针对内存数据库设计的粗粒度的、轻量级的日志记录方式。但在非统一内存访问(non-uniform memory access,NUMA)体系架构下面向数据的数据库设计中利用命令日志进行故障恢复时,由于数据访问频率不... 在内存数据库故障恢复技术中,命令日志是针对内存数据库设计的粗粒度的、轻量级的日志记录方式。但在非统一内存访问(non-uniform memory access,NUMA)体系架构下面向数据的数据库设计中利用命令日志进行故障恢复时,由于数据访问频率不均衡,导致负责高频数据恢复的CPU线程负载加重,而其他CPU相对空闲。针对这种工作负载不均衡所导致的恢复时间开销增大的情况,提出了NUMA体系架构下基于热度记录的内存数据库日志恢复算法。该算法中,每一条数据的访问次数作为该数据的热度记录下来。在并行恢复时,根据数据热度,将数据比较均衡地划分到各个节点的CPU线程执行恢复操作,以此来提高数据库的恢复速度。实验结果表明,该方案比NUMA架构下的常规恢复方案快,而且数据的热度越高,恢复速度的提升越明显,最高提升了19%。 展开更多
关键词 内存数据库 日志 检查点 故障恢复 非统一内存访问(numa)架构
下载PDF
基于NUMA架构的解释器访存优化设计与实现
10
作者 任彤 傅杰 靳国杰 《高技术通讯》 CAS CSCD 北大核心 2015年第7期661-668,共8页
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案... 为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。 展开更多
关键词 非一致内存访问(numa) 虚拟机 解释器 响应速度 启动性能 访存优化
下载PDF
NUMA架构的龙芯3A板级设计及工程化技术研究 被引量:1
11
作者 赵东阳 刘瑞 孟英谦 《计算机工程与应用》 CSCD 北大核心 2017年第8期260-266,共7页
针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动... 针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动速度等问题。通过测试验证,性能可以满足关键应用对信息处理能力的要求,从而有效解决了龙芯3A访存能力有限的问题。同时对SMP和NUMA架构下,龙芯3A处理器CPU数量的增加对访存性能的提升的关系进行了探讨。 展开更多
关键词 非统一内存访问架构(numa) 龙芯3A VPX COTS
下载PDF
Elastic pointer directory organization for scalable shared memory multiprocessors
12
作者 Yuhang Liu Mingfa Zhu Limin Xiao 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2014年第1期158-167,共10页
In the field of supercomputing, one key issue for scal-able shared-memory multiprocessors is the design of the directory which denotes the sharing state for a cache block. A good direc-tory design intends to achieve t... In the field of supercomputing, one key issue for scal-able shared-memory multiprocessors is the design of the directory which denotes the sharing state for a cache block. A good direc-tory design intends to achieve three key attributes: reasonable memory overhead, sharer position precision and implementation complexity. However, researchers often face the problem that gain-ing one attribute may result in losing another. The paper proposes an elastic pointer directory (EPD) structure based on the analysis of shared-memory applications, taking the fact that the number of sharers for each directory entry is typical y smal . Analysis re-sults show that for 4 096 nodes, the ratio of memory overhead to the ful-map directory is 2.7%. Theoretical analysis and cycle-accurate execution-driven simulations on a 16 and 64-node cache coherence non uniform memory access (CC-NUMA) multiproces-sor show that the corresponding pointer overflow probability is reduced significantly. The performance is observed to be better than that of a limited pointers directory and almost identical to the ful-map directory, except for the slight implementation complex-ity. Using the directory cache to explore directory access locality is also studied. The experimental result shows that this is a promis-ing approach to be used in the state-of-the-art high performance computing domain. 展开更多
关键词 DIRECTORY scalabUity memory overhead positioningprecision OVERFLOW cache coherence non uniform memory access(CC-numa).
下载PDF
SMP、MPP、NUMA技术比较与其应用分析 被引量:2
13
作者 陈秋宁 《科技广场》 2006年第1期118-119,共2页
本文首先对目前主流的并行处理技术:SMP技术、MPP技术和NUMA技术的特点进行了阐述,重点分析了各种技术存在的主要问题、主要影响以及各种问题的解决措施。之后本文结合业界主流服务器:IBM、HP、NCR等,对每种技术的实际应用进行了分析。
关键词 SMP MPP numa
下载PDF
MPD:结点具有多个并行缓存一致性域的CC-NUMA系统
14
作者 陈继承 赵雅倩 +3 位作者 李一韩 王恩东 史宏志 唐士斌 《计算机研究与发展》 EI CSCD 北大核心 2017年第4期775-786,共12页
大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点... 大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点互连,形成结点间一致性域.然而,受限于处理器直连能力与处理器可识别ID数,系统的单结点规模有限,系统规模的扩展不得不依靠增加结点数来实现,使得大规模CC-NUMA系统的结点间互连复杂度上升,跨结点访问带宽和延迟急剧增长,影响了系统性能的有效扩展.MPD系统通过在结点内构建多个并行缓存一致性域,突破了处理器直连能力与可识别ID数对单结点规模的限制,能够大幅减少结点数量,并将部分结点间访问转化为结点内访问,实现系统性能的有效扩展.理论分析和实验结果表明:采用同规格处理器的32路系统中,结点内4个并行缓存一致性域的MPD系统可实现结点数目减少75%、一致性目录存储开销节省40%以上、平均访问延迟降低约27.9%、系统整体性能提升约14.4%. 展开更多
关键词 CC-numa系统 两级一致性域 并行缓存一致性域 一致性协同芯片 系统可扩展性
下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
15
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
多核处理器片上存储系统研究 被引量:5
16
作者 黄安文 高军 张民选 《计算机工程》 CAS CSCD 北大核心 2010年第4期4-6,共3页
针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能... 针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能的束缚以及片上cache设计的复杂化等。 展开更多
关键词 多核 存储系统 非一致cache访问
下载PDF
多核处理器非一致Cache体系结构延迟优化技术研究综述 被引量:4
17
作者 黄安文 高军 张民选 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期118-124,共7页
非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache... 非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache环境下共享/私有机制中的延迟-容量权衡问题,讨论映射、迁移、复制和搜索等数据管理机制在多核环境下的优缺点.最后,针对基于片上网络(network-on-chip,NoC)互连结构的可扩展CMP体系结构,从NUCA模型优化、数据管理和一致性维护机制3个方面讨论和预测未来CMP NUCA延迟优化领域的发展趋势及面临的挑战性问题. 展开更多
关键词 非一致Cache体系结构 多核处理器 片上网络 存储墙 延迟优化
下载PDF
基于写页面热度的混合内存页面管理策略 被引量:2
18
作者 杜娇 钱育蓉 +2 位作者 张猛 赵京霞 张文冲 《东北师大学报(自然科学版)》 CAS 北大核心 2021年第2期53-59,共7页
针对阻变存储器(RRAM)写延迟大的问题,提出一种基于写页面热度的混合内存页面管理策略,将写页面进行冷热区分,存于动态随机访问存储器(DRAM)上,减少RRAM上的写数量.在基准程序集PARSEC下对混合内存系统的性能进行测试与分析.结果表明,... 针对阻变存储器(RRAM)写延迟大的问题,提出一种基于写页面热度的混合内存页面管理策略,将写页面进行冷热区分,存于动态随机访问存储器(DRAM)上,减少RRAM上的写数量.在基准程序集PARSEC下对混合内存系统的性能进行测试与分析.结果表明,所提出的页面管理策略可以有效地提高系统性能. 展开更多
关键词 混合内存架构 非易失存储 阻变存储器 页面管理策略
下载PDF
面向非一致Cache的任意步长预提升技术 被引量:4
19
作者 吴俊杰 杨学军 《计算机科学与探索》 CSCD 2010年第7期577-588,共12页
随着微电子工艺的不断进步,片上大容量非一致cache的研究受到广泛关注。提出了一种面向非一致cache的任意步长预提升技术,它能够优化非一致cache中的数据组织,使得即将访问的数据被放置在距离处理器较近的cachebank中,从而降低访存延迟... 随着微电子工艺的不断进步,片上大容量非一致cache的研究受到广泛关注。提出了一种面向非一致cache的任意步长预提升技术,它能够优化非一致cache中的数据组织,使得即将访问的数据被放置在距离处理器较近的cachebank中,从而降低访存延迟,提升系统性能。详细介绍了任意步长预提升技术的设计,比较了预提升技术与预取技术的差别,并提出了二者的结合技术。通过对来自NPB和SPEC2000的11个基准测试程序在全系统模拟器上的实验评测,发现任意步长预提升技术能够有效减小访存延迟,在访存预测表尺寸为16和32的情况下,系统IPC分别平均增长4.17%和4.91%;在结合预提升和预取技术的情况下,系统IPC分别平均增长8.84%和11.06%。 展开更多
关键词 预提升技术 非一致高速缓存结构 任意步长 访存模式 预取技术
下载PDF
片上多核处理器Cache访问均衡性研究 被引量:3
20
作者 王子聪 陈小文 郭阳 《计算机学报》 EI CSCD 北大核心 2019年第11期2403-2416,共14页
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网... 随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%. 展开更多
关键词 片上多核处理器 非一致缓存体系结构 片上网络 均衡性 缓存访问
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部