利用循环分割和循环展开避免Cache代价被引量：2

Optimization to Prevent Cache Penalty by Loop Partition and Loop Unrolling

下载PDF

导出

摘要存储系统与处理器之间的速度差距逐渐变大,为此,cache使用了分级机制,但这也带来了额外的存储延迟(cache代价).提出一种利用循环分割和循环展开相结合避免cache代价的PCPLPU(prevent cache penalty by loop partition-unrolling)算法.实验结果表明,PCPLPU算法能够有效避免循环代价,提高程序性能. Due to the increasing speed gap between memory system and processor, cache hierarchies have been implemented into memory system, but additional latency （cache penalty） is introduced. This paper presents an algorithm named as prevent cache penalty by loop partition-unrolling （PCPLPU）, which can prevent cache penalty in loops by the combination of loop partition and unrolling. Experimental results show that PCPLPU can prevent cache penalty and improve the performance of programs.

作者刘利陈彧乔林汤志忠

机构地区清华大学计算机科学与技术系

出处《软件学报》 EI CSCD 北大核心 2008年第9期2228-2242,共15页 Journal of Software

基金国家自然科学基金~~

关键词循环分割循环展开 cache代价 bank冲突 loop partition loop unrolling cache penalty bank conflict

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1刘利,李文龙,陈彧,李胜梅,汤志忠.软件流水中隐藏存储延迟的方法[J].软件学报,2005,16(10):1833-1841. 被引量：6
2刘利,李文龙,郭振宇,李胜梅,汤志忠.避免模调度中cache代价的优化方法[J].软件学报,2005,16(10):1842-1852. 被引量：1
3李文龙,刘利,汤志忠.软件流水中的循环展开优化[J].北京航空航天大学学报,2004,30(11):1111-1115. 被引量：16

二级参考文献34

1刘利,李文龙,陈彧,李胜梅,汤志忠.软件流水中隐藏存储延迟的方法[J].软件学报,2005,16(10):1833-1841. 被引量：6
2Allen V H, Jones R B, Lee R M, et al . Software pipelining [J]. ACM Computing Surveys, 1995,27(3):367-432
3Weiss S, Smith J E. A study of scalar compilation techniques for pipelined supercomputers[J]. ACM Transactions on Mathematical Software, 1990, 16(3):223-245
4Rau B R. Iterative modulo scheduling[R]. HPL-94-115, 1994
5Mowry T C, Lam M S, Gupta A. Design and evaluation of a compiler algorithm for prefetching[A]. In: Proceeding of the Fifth International Conference on Architectural Support for Programming Languages and Operating Systems [C]. Massachusetts: ACM Press, 199
6Roy J, Sun C, Wu C Y. Open research compiler for itanium processor family(IPF) [A]. In:MICRO-34 Tutorial [C]. Texas: ACM Press, 2001
7Intel Corporation. Intel IA-64 architecture software developer's manual. Volume 3: Instruction set reference [M]. Intel Corp, 2000
8Intel Corporation. Intel IA-64 architecture software developer's manual. Volume 1: IA-64 application architecture [M]. Intel Corp, 2000
9Sanchez F, Cortadella J,Badia R M. Optimal exploration of the unrolling degree for software pipelining [R]. UPC-DAC-1996-41, 1996
10Vivek Sarkar. Optimized unrolling of nested loops [A]. In: Proceedings of the 14th International Conference on Supercomputing[C]. New Mexico: ACM Press, 2000. 153-166

共引文献20

1刘利,李文龙,郭振宇,李胜梅,汤志忠.避免模调度中cache代价的优化方法[J].软件学报,2005,16(10):1842-1852. 被引量：1
2伍仲祥,孙名松.浅析嵌入式系统编程中的代码优化[J].自动化技术与应用,2005,24(12):18-21. 被引量：5
3吴俊军,刘东升.S3FC9DC单片机代码优化技术研究[J].微计算机信息,2007(03Z):88-90. 被引量：1
4周谦,冯晓兵,张兆庆.cache profiling信息指导的软件流水[J].计算机研究与发展,2008,45(5):834-840. 被引量：1
5董亚卓,窦勇,宋健,刘明政.自动映射多循环程序到有限FPGA资源的参数化流水线模板[J].计算机学报,2009,32(1):152-160. 被引量：2
6郭淑婷.DSP汇编语言优化设计[J].河南师范大学学报（自然科学版）,2009,37(1):151-154. 被引量：2
7周国建,吴少刚,李祖松,史岗.基于四阶段人工优化的软件流水技术[J].计算机工程,2009,35(5):40-43. 被引量：1
8严历,郭力.三维宏观拟颗粒模拟程序计算代码优化研究与实现[J].计算机与应用化学,2009,26(12):1523-1528.
9马晓静.一种雷达信号处理机的软件设计[J].雷达与对抗,2012,32(1):61-64. 被引量：2
10谭明星,刘先华,张吉豫,程旭.基于优化回溯模型的无重叠模调度算法[J].电子学报,2012,40(8):1681-1686.

同被引文献8

1印民,苟小龙,何祖威.基于GCD的循环分割新算法[J].系统仿真学报,2005,17(1):181-184. 被引量：1
2Przybylski,S.A. Cache and Memory Hierarchy Design: a Performance-Directed Approach . 1990
3Ruud van der Pas.Memory hierarchy in cache-based systems. . 2002
4所光,杨学军.面向多线程多道程序的加权共享Cache划分[J].计算机学报,2008,31(11):1938-1947. 被引量：12
5Litong Song, Robert Glück, Yoshihiko Futamura Institute for Software Production Technology, Waseda University, Okubo 3 4 1, Shinjuku ku Tokyo 169 8555, Japan.Loop Peeling Based on Quasi-Invariance/Induction Variables[J].Wuhan University Journal of Natural Sciences,2001,6(Z1):362-367. 被引量：1
6杨磊,时磊,张铁军,王东辉.多核系统中共享cache的动态划分[J].微电子学与计算机,2009,26(5):56-59. 被引量：5
7李玉祥,施慧,陈莉.面向非多媒体程序的SIMD向量化算法的研究及改进[J].小型微型计算机系统,2009,30(10):1927-1935. 被引量：6
8明玉瑞,李思泽.基于SIMD机制的并行排序算法[J].计算机系统应用,2009,18(11):87-90. 被引量：4

引证文献2

1王庆,季振洲,刘涛.面向嵌入式多核存储层次的OpenMP优化研究[J].计算机研究与发展,2011,48(S1):273-277. 被引量：2
2何越强.使用代价分析的向量化循环分割技术[J].计算机工程与设计,2011,32(6):2020-2023.

二级引证文献2

1刘静.面向嵌入式多核存储层次的OpenMP优化探讨[J].计算机光盘软件与应用,2012,15(12):75-75.
2朱昶胜,邓新,冯力,李浩.MPI+OpenMP环境下的二元合金三维相场模型的并行方法[J].兰州理工大学学报,2017,43(4):16-22. 被引量：2

1刘利,李文龙,郭振宇,李胜梅,汤志忠.避免模调度中cache代价的优化方法[J].软件学报,2005,16(10):1842-1852. 被引量：1
2印民,苟小龙,何祖威.基于GCD的循环分割新算法[J].系统仿真学报,2005,17(1):181-184. 被引量：1
3WANG Caihua,LIU Juan,MIN Wenwen,QU Aiping.A Novel Sparse Penalty for Singular Value Decomposition[J].Chinese Journal of Electronics,2017,26(2):306-312. 被引量：3
4张锦雄,梁正友,蔡德霞,韦兴柳.基于GPU实现允许k-差别近似串匹配并行算法[J].广西大学学报（自然科学版）,2011,36(2):285-291. 被引量：3
5林进,张兆庆,祝明发.基于SIMD机器的优化数据传输的并行循环分割[J].计算机学报,1998,21(7):577-585. 被引量：3
6张吉赞,古志民.多核共享缓存bank冲突分析及其延迟最小化[J].计算机学报,2016,39(9):1883-1899. 被引量：5
7林敏,钟一文.三种GPU并行的自适应邻域模拟退火算法[J].计算机工程与应用,2015,51(22):70-76. 被引量：1
8李建兵,李立.基于PCNN和最大灰度熵图像分量的彩色图像分割[J].传感器与微系统,2016,35(8):127-129. 被引量：2
9邵靖凯,厉旭杰.基于CUDA的拉普拉斯金字塔的优化[J].微型机与应用,2016,35(10):40-42. 被引量：1
10曾正洋,许维胜,徐志宇,倪嘉呈.两级车辆路径问题的多起始点变邻域下降算法[J].同济大学学报（自然科学版）,2014,42(10):1530-1535. 被引量：5

软件学报

2008年第9期

浏览历史

内容加载中请稍等...

利用循环分割和循环展开避免Cache代价被引量：2

参考文献3

二级参考文献34

共引文献20

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

利用循环分割和循环展开避免Cache代价 被引量：2

参考文献3

二级参考文献34

共引文献20

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

利用循环分割和循环展开避免Cache代价被引量：2