期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
NUMA架构内多个节点间访存延时平衡的内存分配策略 被引量:4
1
作者 李慧娟 栾钟治 +2 位作者 王辉 杨海龙 钱德沛 《计算机学报》 EI CSCD 北大核心 2017年第9期2111-2126,共16页
随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linu... 随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linux的系统开发者为了实现充分利用NUMA本地访存低延时的特点,在为进程分配内存时,选择进程当前正在运行的NUMA节点作为分配内存的目标节点.这种分配会导致进/线程之间共享内存的不公平.例如,一个在当前本地节点被分配很多内存的进程,可能被调度到远端节点运行,这样会导致进程的性能波动.针对这一问题,该文设计了一种保证NUMA架构内各内存节点间访存延时平衡的内存分配策略,并在Linux系统中实现和验证.延时的获取方法依赖平台,但是系统内核的策略是通用的.实验结果表明,与Linux默认的内存分配策略相比,进/线程间的不公平性平均降低了16%(最多34%),并且各进/线程的性能没有较大抖动. 展开更多
关键词 NUMA架构 分配策略 访存延时 访存延时感知 访存延时平衡
下载PDF
中科SoC共享主存子系统性能的优化
2
作者 程晓东 潘杰 张志敏 《计算机工程》 EI CAS CSCD 北大核心 2006年第18期243-245,共3页
围绕降低中科SoC主设备访问共享内存子系统延迟的目标,从总线模型的角度分析了访存延迟的构成,通过在接口电路中设置操作队列以及在底层采用基于Open-Page的内存控制器等措施,降低了访存平均拒绝率,减少了访存的延迟;对主存子系统建立了... 围绕降低中科SoC主设备访问共享内存子系统延迟的目标,从总线模型的角度分析了访存延迟的构成,通过在接口电路中设置操作队列以及在底层采用基于Open-Page的内存控制器等措施,降低了访存平均拒绝率,减少了访存的延迟;对主存子系统建立了M/M/1/N排队模型,用集成测试环境MMSITE分别对优化前后的子系统进行了测试。结果表明,访存延时、单位时间内读写数据总量以及单位时间内完成读写次数等主要性能指标都有较好的改善。 展开更多
关键词 SOC 访存延时 Open—Page内控制器 排队模型
下载PDF
一种高能效的面向单发射按序处理器的预执行机制 被引量:2
3
作者 王箫音 佟冬 +2 位作者 党向磊 冯毅 程旭 《电子学报》 EI CAS CSCD 北大核心 2011年第2期458-463,共6页
按序处理器凭借其在低成本、低功耗和高可扩展能力等方面的优势,越来越多地应用于多核处理器中.为进一步满足单线程程序的性能需求,有效提升按序处理器的访存性能至关重要.本文面向典型的单发射按序处理器提出一种高能效的预执行机制,... 按序处理器凭借其在低成本、低功耗和高可扩展能力等方面的优势,越来越多地应用于多核处理器中.为进一步满足单线程程序的性能需求,有效提升按序处理器的访存性能至关重要.本文面向典型的单发射按序处理器提出一种高能效的预执行机制,充分利用预执行过程中的有效访存结果与计算结果加速程序的执行.为达到高能效的目标,一方面,本文提出基于收益预测的预执行动态调整策略,该策略采用三种收益预测方法来识别并避免无收益的预执行阶段.另一方面,本文采用基于信心估计的转移预测机制对预执行期间无法及时判定的转移指令进行优化.实验结果表明,在平均情况下,本文方法将基础处理器的性能提升24.14%,而能耗仅增加4.31%.与已有的两种预执行方法相比,本文方法在获取可比的性能优化效果的同时,能耗开销分别降低7.72%和10.72%,从而使能效性分别提高10.3%和11.39%. 展开更多
关键词 单发射按序处理器 预执行 访存延时包容
下载PDF
一种基于值预测和指令复用的按序处理器预执行机制 被引量:1
4
作者 党向磊 王箫音 +3 位作者 佟冬 陆俊林 易江芳 王克义 《电子学报》 EI CAS CSCD 北大核心 2011年第12期2880-2883,共4页
为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时... 为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%. 展开更多
关键词 预执行 值预测 指令复用 访存延时包容
下载PDF
面向按序执行处理器的预执行机制设计空间探索(英文)
5
作者 王箫音 佟冬 +2 位作者 党向磊 陆俊林 程旭 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第1期35-44,共10页
面向按序执行处理器开展预执行机制的设计空间探索,并对预执行机制的优化效果随Cache容量和访存延时的变化趋势进行了量化分析。实验结果表明,对于按序执行处理器,保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都... 面向按序执行处理器开展预执行机制的设计空间探索,并对预执行机制的优化效果随Cache容量和访存延时的变化趋势进行了量化分析。实验结果表明,对于按序执行处理器,保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能,前者还能够有效地降低能耗开销。将两者相结合使用,在平均情况下将基础处理器的性能提升24.07%,而能耗仅增加4.93%。进一步发现,在Cache容量较大的情况下,预执行仍然能够带来较大幅度的性能提升。并且,随着访存延时的增加,预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。 展开更多
关键词 按序执行处理器 预执行 访存延时包容
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部