期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
NUMA架构内多个节点间访存延时平衡的内存分配策略
被引量:
4
1
作者
李慧娟
栾钟治
+2 位作者
王辉
杨海龙
钱德沛
《计算机学报》
EI
CSCD
北大核心
2017年第9期2111-2126,共16页
随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linu...
随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linux的系统开发者为了实现充分利用NUMA本地访存低延时的特点,在为进程分配内存时,选择进程当前正在运行的NUMA节点作为分配内存的目标节点.这种分配会导致进/线程之间共享内存的不公平.例如,一个在当前本地节点被分配很多内存的进程,可能被调度到远端节点运行,这样会导致进程的性能波动.针对这一问题,该文设计了一种保证NUMA架构内各内存节点间访存延时平衡的内存分配策略,并在Linux系统中实现和验证.延时的获取方法依赖平台,但是系统内核的策略是通用的.实验结果表明,与Linux默认的内存分配策略相比,进/线程间的不公平性平均降低了16%(最多34%),并且各进/线程的性能没有较大抖动.
展开更多
关键词
NUMA架构
内
存
分配策略
访存延时
访存延时
感知
访存延时
平衡
下载PDF
职称材料
中科SoC共享主存子系统性能的优化
2
作者
程晓东
潘杰
张志敏
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第18期243-245,共3页
围绕降低中科SoC主设备访问共享内存子系统延迟的目标,从总线模型的角度分析了访存延迟的构成,通过在接口电路中设置操作队列以及在底层采用基于Open-Page的内存控制器等措施,降低了访存平均拒绝率,减少了访存的延迟;对主存子系统建立了...
围绕降低中科SoC主设备访问共享内存子系统延迟的目标,从总线模型的角度分析了访存延迟的构成,通过在接口电路中设置操作队列以及在底层采用基于Open-Page的内存控制器等措施,降低了访存平均拒绝率,减少了访存的延迟;对主存子系统建立了M/M/1/N排队模型,用集成测试环境MMSITE分别对优化前后的子系统进行了测试。结果表明,访存延时、单位时间内读写数据总量以及单位时间内完成读写次数等主要性能指标都有较好的改善。
展开更多
关键词
SOC
访存延时
Open—Page内
存
控制器
排队模型
下载PDF
职称材料
一种高能效的面向单发射按序处理器的预执行机制
被引量:
2
3
作者
王箫音
佟冬
+2 位作者
党向磊
冯毅
程旭
《电子学报》
EI
CAS
CSCD
北大核心
2011年第2期458-463,共6页
按序处理器凭借其在低成本、低功耗和高可扩展能力等方面的优势,越来越多地应用于多核处理器中.为进一步满足单线程程序的性能需求,有效提升按序处理器的访存性能至关重要.本文面向典型的单发射按序处理器提出一种高能效的预执行机制,...
按序处理器凭借其在低成本、低功耗和高可扩展能力等方面的优势,越来越多地应用于多核处理器中.为进一步满足单线程程序的性能需求,有效提升按序处理器的访存性能至关重要.本文面向典型的单发射按序处理器提出一种高能效的预执行机制,充分利用预执行过程中的有效访存结果与计算结果加速程序的执行.为达到高能效的目标,一方面,本文提出基于收益预测的预执行动态调整策略,该策略采用三种收益预测方法来识别并避免无收益的预执行阶段.另一方面,本文采用基于信心估计的转移预测机制对预执行期间无法及时判定的转移指令进行优化.实验结果表明,在平均情况下,本文方法将基础处理器的性能提升24.14%,而能耗仅增加4.31%.与已有的两种预执行方法相比,本文方法在获取可比的性能优化效果的同时,能耗开销分别降低7.72%和10.72%,从而使能效性分别提高10.3%和11.39%.
展开更多
关键词
单发射按序处理器
预执行
访存延时
包容
下载PDF
职称材料
一种基于值预测和指令复用的按序处理器预执行机制
被引量:
1
4
作者
党向磊
王箫音
+3 位作者
佟冬
陆俊林
易江芳
王克义
《电子学报》
EI
CAS
CSCD
北大核心
2011年第12期2880-2883,共4页
为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时...
为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%.
展开更多
关键词
预执行
值预测
指令复用
访存延时
包容
下载PDF
职称材料
面向按序执行处理器的预执行机制设计空间探索(英文)
5
作者
王箫音
佟冬
+2 位作者
党向磊
陆俊林
程旭
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第1期35-44,共10页
面向按序执行处理器开展预执行机制的设计空间探索,并对预执行机制的优化效果随Cache容量和访存延时的变化趋势进行了量化分析。实验结果表明,对于按序执行处理器,保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都...
面向按序执行处理器开展预执行机制的设计空间探索,并对预执行机制的优化效果随Cache容量和访存延时的变化趋势进行了量化分析。实验结果表明,对于按序执行处理器,保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能,前者还能够有效地降低能耗开销。将两者相结合使用,在平均情况下将基础处理器的性能提升24.07%,而能耗仅增加4.93%。进一步发现,在Cache容量较大的情况下,预执行仍然能够带来较大幅度的性能提升。并且,随着访存延时的增加,预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。
展开更多
关键词
按序执行处理器
预执行
访存延时
包容
下载PDF
职称材料
题名
NUMA架构内多个节点间访存延时平衡的内存分配策略
被引量:
4
1
作者
李慧娟
栾钟治
王辉
杨海龙
钱德沛
机构
北京航空航天大学计算机学院中德联合软件研究所
出处
《计算机学报》
EI
CSCD
北大核心
2017年第9期2111-2126,共16页
基金
国家"八六三"高技术研究发展计划项目基金(2012AA01A302)
国家自然科学基金(61133004
+2 种基金
61361126011
61502019
91530324)资助~~
文摘
随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linux的系统开发者为了实现充分利用NUMA本地访存低延时的特点,在为进程分配内存时,选择进程当前正在运行的NUMA节点作为分配内存的目标节点.这种分配会导致进/线程之间共享内存的不公平.例如,一个在当前本地节点被分配很多内存的进程,可能被调度到远端节点运行,这样会导致进程的性能波动.针对这一问题,该文设计了一种保证NUMA架构内各内存节点间访存延时平衡的内存分配策略,并在Linux系统中实现和验证.延时的获取方法依赖平台,但是系统内核的策略是通用的.实验结果表明,与Linux默认的内存分配策略相比,进/线程间的不公平性平均降低了16%(最多34%),并且各进/线程的性能没有较大抖动.
关键词
NUMA架构
内
存
分配策略
访存延时
访存延时
感知
访存延时
平衡
Keywords
Non Uniform Memory Access architecture
memory allocation policy
memory access latency
awareness of memory access latency
the balance of memory access latency
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
中科SoC共享主存子系统性能的优化
2
作者
程晓东
潘杰
张志敏
机构
中国科学院计算技术研究所
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第18期243-245,共3页
基金
国家"863"计划基金资助项目(2002AA1Z1040)
文摘
围绕降低中科SoC主设备访问共享内存子系统延迟的目标,从总线模型的角度分析了访存延迟的构成,通过在接口电路中设置操作队列以及在底层采用基于Open-Page的内存控制器等措施,降低了访存平均拒绝率,减少了访存的延迟;对主存子系统建立了M/M/1/N排队模型,用集成测试环境MMSITE分别对优化前后的子系统进行了测试。结果表明,访存延时、单位时间内读写数据总量以及单位时间内完成读写次数等主要性能指标都有较好的改善。
关键词
SOC
访存延时
Open—Page内
存
控制器
排队模型
Keywords
SoC
Memory accessing delay
Open-Page memory controller
Queuing model
分类号
TP336 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种高能效的面向单发射按序处理器的预执行机制
被引量:
2
3
作者
王箫音
佟冬
党向磊
冯毅
程旭
机构
北京大学微处理器研究开发中心
出处
《电子学报》
EI
CAS
CSCD
北大核心
2011年第2期458-463,共6页
基金
国家863高技术研究发展计划(No.2006AA010202)
文摘
按序处理器凭借其在低成本、低功耗和高可扩展能力等方面的优势,越来越多地应用于多核处理器中.为进一步满足单线程程序的性能需求,有效提升按序处理器的访存性能至关重要.本文面向典型的单发射按序处理器提出一种高能效的预执行机制,充分利用预执行过程中的有效访存结果与计算结果加速程序的执行.为达到高能效的目标,一方面,本文提出基于收益预测的预执行动态调整策略,该策略采用三种收益预测方法来识别并避免无收益的预执行阶段.另一方面,本文采用基于信心估计的转移预测机制对预执行期间无法及时判定的转移指令进行优化.实验结果表明,在平均情况下,本文方法将基础处理器的性能提升24.14%,而能耗仅增加4.31%.与已有的两种预执行方法相比,本文方法在获取可比的性能优化效果的同时,能耗开销分别降低7.72%和10.72%,从而使能效性分别提高10.3%和11.39%.
关键词
单发射按序处理器
预执行
访存延时
包容
Keywords
single-issue in-order microprocessors
executing ahead
load latency tolerance
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种基于值预测和指令复用的按序处理器预执行机制
被引量:
1
4
作者
党向磊
王箫音
佟冬
陆俊林
易江芳
王克义
机构
北京大学微处理器研究开发中心
出处
《电子学报》
EI
CAS
CSCD
北大核心
2011年第12期2880-2883,共4页
基金
国家863高技术研究发展计划(No.2006AA010202)
中国博士后科学基金资助项目(No.20110490208)
文摘
为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%.
关键词
预执行
值预测
指令复用
访存延时
包容
Keywords
pre-execution
value prediction
instruction reuse
load latency tolerance
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向按序执行处理器的预执行机制设计空间探索(英文)
5
作者
王箫音
佟冬
党向磊
陆俊林
程旭
机构
北京大学微处理器研究开发中心
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第1期35-44,共10页
基金
863计划(2006AA010202)资助
文摘
面向按序执行处理器开展预执行机制的设计空间探索,并对预执行机制的优化效果随Cache容量和访存延时的变化趋势进行了量化分析。实验结果表明,对于按序执行处理器,保存并复用预执行期间的有效结果和在预执行访存指令之间进行数据传递都能够有效地提升处理器性能,前者还能够有效地降低能耗开销。将两者相结合使用,在平均情况下将基础处理器的性能提升24.07%,而能耗仅增加4.93%。进一步发现,在Cache容量较大的情况下,预执行仍然能够带来较大幅度的性能提升。并且,随着访存延时的增加,预执行在提高按序执行处理器性能和能效性方面的优势都将更加显著。
关键词
按序执行处理器
预执行
访存延时
包容
Keywords
in-order microprocessors
executing ahead
memory latency tolerance
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
NUMA架构内多个节点间访存延时平衡的内存分配策略
李慧娟
栾钟治
王辉
杨海龙
钱德沛
《计算机学报》
EI
CSCD
北大核心
2017
4
下载PDF
职称材料
2
中科SoC共享主存子系统性能的优化
程晓东
潘杰
张志敏
《计算机工程》
EI
CAS
CSCD
北大核心
2006
0
下载PDF
职称材料
3
一种高能效的面向单发射按序处理器的预执行机制
王箫音
佟冬
党向磊
冯毅
程旭
《电子学报》
EI
CAS
CSCD
北大核心
2011
2
下载PDF
职称材料
4
一种基于值预测和指令复用的按序处理器预执行机制
党向磊
王箫音
佟冬
陆俊林
易江芳
王克义
《电子学报》
EI
CAS
CSCD
北大核心
2011
1
下载PDF
职称材料
5
面向按序执行处理器的预执行机制设计空间探索(英文)
王箫音
佟冬
党向磊
陆俊林
程旭
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部