期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
指导cache静态划分的程序性能profiling优化技术 被引量:3
1
作者 贾耀仓 武成岗 张兆庆 《计算机研究与发展》 EI CSCD 北大核心 2012年第1期93-102,共10页
对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.... 对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.为了给程序分配合适大小的cache空间,需要对程序进行性能profiling,即事先多遍运行收集程序在各种cache容量下的性能数据,这种性能profiling方法开销巨大,影响实用.为了解决性能profiling需要多遍运行程序的问题,提出了只需单遍运行的程序性能profiling优化技术.该技术利用在线的phase分析技术识别程序的运行阶段,避免对相同阶段的重复profiling;同时分析程序各phase的性能同cache容量变化的关系趋势,对于性能不敏感的容量变化则不进行profiling,降低开销.在程序运行结束后通过程序各phase在cache各种容量下的性能来估计程序在各容量下的整体性能,以指导cache静态划分.实验表明,该技术的开销仅为7%,而该方法指导的cache划分比未划分时有8%的性能改进,同多遍运行的程序性能profiling指导的cache划分性能相比仅有1%的下降. 展开更多
关键词 多核 CACHE划分 页着色 性能profiling phase分析
下载PDF
一种检测运行栈与静态数据区重叠的新方法 被引量:2
2
作者 谷晓铭 霍玮 +1 位作者 桂剑 贾耀仓 《计算机工程与应用》 CSCD 北大核心 2006年第20期86-88,112,共4页
嵌入式系统中由于内存限制,容易出现运行栈和数据区重叠的错误。已有的两种检测该错误的方法在准确性和易用性方面存在缺陷,不适用于基于软件模拟器的大规模回归测试。文章通过改变运行栈与静态数据区的布局,将运行栈与静态数据区重叠... 嵌入式系统中由于内存限制,容易出现运行栈和数据区重叠的错误。已有的两种检测该错误的方法在准确性和易用性方面存在缺陷,不适用于基于软件模拟器的大规模回归测试。文章通过改变运行栈与静态数据区的布局,将运行栈与静态数据区重叠的错误转化为运行栈超越内存地址空间的错误。新方法大大简化了这种运行时错误的检测和调试。 展开更多
关键词 嵌入式系统工具链 ELF文件格式 运行栈 静态数据区 链接器 软件模拟器
下载PDF
PARBLO:Page-Allocation-Based DRAM Row Buffer Locality Optimization 被引量:2
3
作者 米伟 冯晓兵 +2 位作者 贾耀仓 陈莉 薛京灵 《Journal of Computer Science & Technology》 SCIE EI CSCD 2009年第6期1086-1097,共12页
DRAM row buffer conflicts can increase memory access latency significantly. This paper presents a new pageallocation-based optimization that works seamlessly together with some existing hardware and software optimizat... DRAM row buffer conflicts can increase memory access latency significantly. This paper presents a new pageallocation-based optimization that works seamlessly together with some existing hardware and software optimizations to eliminate significantly more row buffer conflicts. Validation in simulation using a set of selected scientific and engineering benchmarks against a few representative memory controller optimizations shows that our method can reduce row buffer miss rates by up to 76% (with an average of 37.4%). This reduction in row buffer miss rates will be translated into performance speedups by up to 15% (with an average of 5%). 展开更多
关键词 DRAM row buffer page allocation locality optimization
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部