面向多线程应用的片上多核处理器私有LLC优化

Private LLC Optimization of Chip Multi-processors Oriented to Multi-threaded Application

下载PDF

导出

摘要片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。 The design of processors changes from traditional superscalar ones to Chip Multi-processors（CMP）. CMP becomes the mainstream of computer architecture. But the memory wall problem is still one of the design challenges. With the help of large volume last level Cache,CMP succeeds to relieve memory pressure. The pattern of software programming changes toward the parallel mode. This paper presents an algorithm about Last Level Cache（LLC） optimization on CMP,based on characteristic of Cache access. By the use of the hardware buffer recording processors＇ access address,the algorithm enables the transfer mechanism of shared data between Caches,and reduces Cache miss penalty effectively.Experimental results show that,average speedup of test is 1.13 when the cost of hardware is less than 0.1% of Cache.

作者吴建宇彭蔓蔓

机构地区湖南大学信息科学与工程学院

出处《计算机工程》 CAS CSCD 北大核心 2015年第1期316-321,共6页 Computer Engineering

基金国家自然科学基金资助项目(61173037)

关键词片上多核处理器存储墙末级Cache 失效开销缓冲器 Chip Multi-processors（CMP） memory wall Last Level Cache（LLC） failure overhead buffer

分类号 TP303 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1王蕾,崔慧敏,陈莉,冯晓兵.任务并行编程模型研究与进展[J].软件学报,2013,24(1):77-90. 被引量：29

二级参考文献3

1龙国平,张军超,范东睿.众核体系结构对Cilk语言的硬件支持及评测研究[J].计算机学报,2008,31(11):1975-1985. 被引量：7
2曹仰杰,钱德沛,伍卫国,董小社.众核处理器系统核资源动态分组的自适应调度算法[J].软件学报,2012,23(2):240-252. 被引量：14
3安虹,陈国良.并行程序设计模型和语言[J].软件学报,2002,13(1):118-124. 被引量：22

共引文献28

1王亚茹,王鹏,王德志.基于MPI的多核并行模式的性能测试与分析[J].成都信息工程大学学报,2018,33(6):617-623. 被引量：4
2熊焕亮,曾国荪,吴沧海.一种等性能面积的并行计算可扩展性度量方法[J].计算机研究与发展,2014,51(11):2547-2558. 被引量：1
3巨涛,朱正东,董小社.异构众核系统及其编程模型与性能优化技术研究综述[J].电子学报,2015,43(1):111-119. 被引量：13
4张薇薇,张鑫.光照并行算法的研究与实现[J].西安工程大学学报,2015,29(2):181-186. 被引量：1
5王松.基于任务的并行编程模型[J].信息通信,2015,28(6):70-70.
6张冬雯,柳晨光,张杨.面向Fork/Join框架的软件重构及性能分析[J].计算机应用,2015,35(11):3172-3177. 被引量：2
7徐世武,严玉姣.Web页面加载方式研究分析与优化[J].计算机应用与软件,2015,32(11):107-112. 被引量：4
8邹竞,马华,谢鲲.一种基于OpenMP的并行混合PVS算法[J].计算机应用研究,2016,33(1):56-59. 被引量：3
9刘佳,肖炳甲,袁旗平.EAST PCS降低延迟方法[J].计算机系统应用,2016,25(3):131-135.
10张薇薇,杨怿菲.多光源并行化算法的实现[J].火力与指挥控制,2016,41(3):111-115. 被引量：1

1闫庚哲.基于增加数据宽度的方法提高访存速度[J].微处理机,2014,35(6):78-79.
2赵建明,姚念民,韩永,蔡绍滨.一种针对iSCSI存储的缓存替换算法[J].计算机工程与科学,2013,35(6):15-23.
3李忠武.调节Cache块大小降低Cache失效率的方法探索[J].电脑编程技巧与维护,2015(21):12-13. 被引量：1
4肖侬,赵英杰,刘芳,陈志广.基于顺序检测的双队列缓存替换算法[J].中国科学：信息科学,2011,41(4):429-439. 被引量：2
5许先超.减少TLB失效开销提高64位Linux系统性能的方法[J].计算机工程,2006,32(2):70-72. 被引量：2
6李浩,谢伦国.片上多处理器共享Cache的访存时间最优划分方法[J].通信学报,2012,33(4):136-142.
7包得海.“Cache-主存”和“主存-辅存”存储层次的对比分析[J].甘肃高师学报,2011,16(2):38-40.
8包得海,火克华.“Cache-主存”和“主存-辅存”存储层次的对比分析[J].电脑学习,2010(6):110-112.
9张晓辉,程归鹏,从明.龙芯处理器上的TLB性能优化技术[J].计算机研究与发展,2011,48(S1):322-327. 被引量：1

计算机工程

2015年第1期

浏览历史

内容加载中请稍等...

面向多线程应用的片上多核处理器私有LLC优化

参考文献1

二级参考文献3

共引文献28

相关作者

相关机构

相关主题

浏览历史