期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于复用距离的cache失效率分析 被引量:1
1
作者 付雄 张昱 陈意云 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1777-1781,共5页
复用距离已经成为程序cache行为的一种重要度量标准,但高复杂度和可能的内存溢出问题使得其难以应用.本文在引入最大cache大小的基础上提出一种受限的复用距离分析方法.该方法有效地避免了一般复用距离分析可能导致的内存溢出问题,同时... 复用距离已经成为程序cache行为的一种重要度量标准,但高复杂度和可能的内存溢出问题使得其难以应用.本文在引入最大cache大小的基础上提出一种受限的复用距离分析方法.该方法有效地避免了一般复用距离分析可能导致的内存溢出问题,同时使得复用距离分析达到线性时间复杂度.文章通过对一系列整数和浮点程序的实验说明基于该复用距离分析的cache失效率分析的可行性和正确性. 展开更多
关键词 复用距离 cache失效 局部性
下载PDF
用于减少远程Cache访问延迟的最后一次写访问预测方法 被引量:1
2
作者 夏军 徐炜遐 +2 位作者 庞征斌 张峻 常俊胜 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第1期14-20,共7页
为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器... 为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。 展开更多
关键词 cache一致性协议 远程cache失效 写突发 最后一次写访问 自降级
下载PDF
适用于多核环境的混合Cache一致性协议
3
作者 李静梅 杨鹏飞 +2 位作者 张健沛 门朝光 吴艳霞 《计算机工程》 CAS CSCD 北大核心 2011年第24期284-286,共3页
提出一种适用于多核环境的混合Cache一致性协议。该协议采用混合值传播策略,引入小容量目录D-Cache,克服传统监听一致性协议发送数据请求时盲目广播的缺点,通过数据块状态的扩展,有效避免乒乓现象的发生。仿真实验结果表明,该协议能减... 提出一种适用于多核环境的混合Cache一致性协议。该协议采用混合值传播策略,引入小容量目录D-Cache,克服传统监听一致性协议发送数据请求时盲目广播的缺点,通过数据块状态的扩展,有效避免乒乓现象的发生。仿真实验结果表明,该协议能减少测试程序的运行时间,降低多核处理器私有L1 Cache的失效率,提高系统性能。 展开更多
关键词 cache一致性协议 多核环境 目录 数据块状态 cache失效
下载PDF
基于实验的测试CACHE性能参数的算法及实现
4
作者 郑玉彤 《计算机工程与应用》 CSCD 北大核心 2005年第9期120-121,228,共3页
论文介绍了一种用高级语言实现、通过实时实验的手段获取CACHE系统性能参数的算法,该算法有较好的实用价值。论文还提出了采用CPU时间戳作为高精度计数器的计数方法,实验结果具有很高的时间精度,同时给出了C语言实现的原代码及在PC机上... 论文介绍了一种用高级语言实现、通过实时实验的手段获取CACHE系统性能参数的算法,该算法有较好的实用价值。论文还提出了采用CPU时间戳作为高精度计数器的计数方法,实验结果具有很高的时间精度,同时给出了C语言实现的原代码及在PC机上的测试结果,粗略分析了实验中可能存在的实验噪声;并指出该算法对若干方面可能具有的重要参考价值。 展开更多
关键词 实时实验 cache性能参数 cache失效损失 组相联度 cache行大小 CPU时间戳 高精度计数器 实验噪声
下载PDF
结合访存失效队列状态的预取策略 被引量:3
5
作者 郇丹丹 李祖松 +1 位作者 胡伟武 刘志勇 《计算机学报》 EI CSCD 北大核心 2007年第7期1104-1114,共11页
随着存储系统的访问速度与处理器的运算速度的差距越来越显著,访存性能已成为提高计算机系统性能的瓶颈.通过对指令Cache和数据Cache失效行为的分析,提出一种预取策略——结合访存失效队列状态的预取策略.该预取策略保持了指令和数据... 随着存储系统的访问速度与处理器的运算速度的差距越来越显著,访存性能已成为提高计算机系统性能的瓶颈.通过对指令Cache和数据Cache失效行为的分析,提出一种预取策略——结合访存失效队列状态的预取策略.该预取策略保持了指令和数据访问的次序,有利于预取流的提取.并将指令流和数据流的预取相分离,避免相互替换.在预取发起时机的选择上,不但考虑当前总线是否空闲,而且结合访存失效队列的状态,减小对处理器正常访存请求的影响.通过流过滤机制提高预取准确性,降低预取对访存带宽的需求.结果表明,采用结合访存失效队列状态的预取策略,处理器的平均访存延时减少30%,SPEC CPU2000程序的IPC值平均提高8.3%. 展开更多
关键词 预取 cache失效 龙芯2号
下载PDF
基于多个取指优先级的同时多线程处理器取指策略 被引量:3
6
作者 孙彩霞 张民选 《电子学报》 EI CAS CSCD 北大核心 2006年第5期790-795,共6页
同时多线程(SMT,SimultaneousMultithreading)处理器中,同时运行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT... 同时多线程(SMT,SimultaneousMultithreading)处理器中,同时运行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT处理器的总体性能.本文提出了一种基于多个取指优先级的同时多线程取指策略MFP(Multiple Fetch Priorities),用于减少L2 cache失效给处理器性能带来的负面影响.模拟结果表明,无论使用IPC作为度量标准还是使用Hmean作为度量标准,对于所有类型的工作负载,尤其是存储器访问密集的工作负载,MFP都要优于现有的其他取指策略.此外,对于不同的取指策略,MFP表现出不同程度的提升.相对于PDG的提升最明显,平均IPC以及平均Hmean分别提高了19.2%和27.7%. 展开更多
关键词 同时多线程 cache失效 取指策略 取指优先级 资源分配
下载PDF
DWarn+:一种改进的同时多线程处理器取指策略 被引量:3
7
作者 孙彩霞 张民选 《小型微型计算机系统》 CSCD 北大核心 2007年第9期1720-1723,共4页
同时多线程(SMT,Simultaneous Multithreading)处理器通过每个周期同时运行来自多个线程的指令来提高性能.同时执行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度... 同时多线程(SMT,Simultaneous Multithreading)处理器通过每个周期同时运行来自多个线程的指令来提高性能.同时执行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT处理器的总体性能.为了减小L2 cache失效给SMT处理器性能带来的负面影响,许多取指策略被提了出来,DWarn就是其中比较有效的一种.本文在DWarn的基础上进行改进,提出了DWarn+取指策略.模拟结果表明,当同时运行的线程数目不超过4时,无论使用IPC作为度量标准还是使用Hmean作为度量标准,DWarn+都要明显优于DWarn;当同时运行的线程数目大于4时,DWarn+相对于DWarn的提高主要体现在存储器访问密集的工作负载上,而对于所有类型工作负载,DWarn+相对于DWarn的平均提高非常有限. 展开更多
关键词 同时多线程 二级cache失效 DWarn取指策略 资源分配
下载PDF
大规模多串匹配算法的访存行为分析 被引量:1
8
作者 陈小军 张志斌 +1 位作者 刘燕兵 郭莉 《计算机工程与应用》 CSCD 北大核心 2007年第26期106-109,共4页
随着网络带宽的日益增长,病毒和非法信息的形式越来越多,网络安全系统处理的压力越来越大。多串匹配算法作为大部分网络安全系统中的核心扫描部分其性能尤为重要。从微处理器体系结构的角度,用模拟的方法分析了SBOM、AC、WM等三种精确... 随着网络带宽的日益增长,病毒和非法信息的形式越来越多,网络安全系统处理的压力越来越大。多串匹配算法作为大部分网络安全系统中的核心扫描部分其性能尤为重要。从微处理器体系结构的角度,用模拟的方法分析了SBOM、AC、WM等三种精确多串匹配算法在大规模规则库的情况下,其性能影响的各种因素,特别是其访存行为特征,并从算法原理上解释了访存性为是如何被影响的。指出当规则库规模增到5000时,由Cache失效引起的性能损失占全部开销的近10%,而且比重随着规则库规模增大而继续变大。 展开更多
关键词 多串匹配 网络安全 访存行为 cache失效
下载PDF
龙芯2F上的访存优化 被引量:7
9
作者 苏波 李凯 +1 位作者 徐志广 何颂颂 《计算机系统应用》 2010年第1期171-175,共5页
一般的数据处理程序中,计算时间在其中往往只起次要作用,因此访存方式是否有效对程序的性能影响很大。在基于龙芯2F处理器研制的高性能计算机系统KD-50-I上安装ATLAS,经测试其性能只达到龙芯2F理论峰值的30%。通过循环展开减少函数存储... 一般的数据处理程序中,计算时间在其中往往只起次要作用,因此访存方式是否有效对程序的性能影响很大。在基于龙芯2F处理器研制的高性能计算机系统KD-50-I上安装ATLAS,经测试其性能只达到龙芯2F理论峰值的30%。通过循环展开减少函数存储访问次数,增大计算访存比;采用数据分块、部分拷贝以增强访存局部性,减少cache失效;利用非阻塞cache加快内存访问速度等访存优化技术,将ATLAS性能提高50%以上。 展开更多
关键词 ATLAS KD-50-I cache失效 非阻塞cache
下载PDF
通过三角形Strip衍生实现三维模型数据的渲染优化 被引量:3
10
作者 陈思远 史广顺 王庆人 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2009年第8期1155-1163,共9页
GPU的顶点Cache命中率对三维渲染性能有着重大影响,而三维模型中的数据组织是GPU顶点Cache命中率的重要因素.为此提出一种全新的模型Mesh优化方法.该方法从造成顶点Cache失效的基本情况出发,在模型Mesh中建立Seed Strip,并挑选与Seed St... GPU的顶点Cache命中率对三维渲染性能有着重大影响,而三维模型中的数据组织是GPU顶点Cache命中率的重要因素.为此提出一种全新的模型Mesh优化方法.该方法从造成顶点Cache失效的基本情况出发,在模型Mesh中建立Seed Strip,并挑选与Seed Strip具有多个关联边的顶点进行Derived Strip衍生;通过反复地建立SeedStrip和衍生Derived Strip,得到一个优化的Mesh三角形序列,以有效地提高GPU的顶点Cache命中率,从而提高渲染效能.此外,该项工作还为进一步解决三维渲染中OverDraw问题预留了扩展的空间. 展开更多
关键词 网格 顶点cache 平均cache失效 渲染优化
下载PDF
针对KASLR的Linux计时攻击方法
11
作者 丛眸 张平 王宁 《计算机工程》 CAS CSCD 北大核心 2021年第8期177-182,共6页
针对开启内核地址空间布局随机化(KASLR)防护的Linux系统,提出一种基于CPU预取指令的Cache计时攻击方法。Intel CPU的预取指令在预取未映射到物理地址的数据时会发生Cache失效,导致消耗的CPU时钟周期比已映射到物理地址的数据要长。根... 针对开启内核地址空间布局随机化(KASLR)防护的Linux系统,提出一种基于CPU预取指令的Cache计时攻击方法。Intel CPU的预取指令在预取未映射到物理地址的数据时会发生Cache失效,导致消耗的CPU时钟周期比已映射到物理地址的数据要长。根据这一特点,通过rdtscp指令获取CPU时钟周期消耗,利用计时攻击绕过KASLR技术防护,从而准确获取内核地址映射的Offset。实验结果表明,该攻击方法能够绕过Linux操作系统的KASLR防护,获得准确的内核地址映射位置,并且避免引起大量Cache失效。 展开更多
关键词 内核地址空间布局随机化 预取指令 计时攻击 内核 cache失效
下载PDF
面向函数的循环优化序列定制方法
12
作者 陈烨 《计算机工程与应用》 CSCD 北大核心 2009年第24期63-66,117,共5页
讨论了一种可针对程序中的不同函数(routine)采用不同的循环优化序列的方法,该方法基于polyhedron模型,使用简化cache失效率方程分别对每一个函数作优化序列评估,以迭代编译方式为每个函数寻找一个独特的循环优化序列。该方法降低了变... 讨论了一种可针对程序中的不同函数(routine)采用不同的循环优化序列的方法,该方法基于polyhedron模型,使用简化cache失效率方程分别对每一个函数作优化序列评估,以迭代编译方式为每个函数寻找一个独特的循环优化序列。该方法降低了变换实施的复杂度,降低了对编译器具体实现的依赖;考虑程序中不同函数的差异以获得更好的优化效果。对SPEC2006的实验数据表明,经过定制优化之后,较之Open64-O3,加速比为1.05~1.13。 展开更多
关键词 polyhedron模型 优化序列定制 cache失效 CMES简化方程
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部