基于龙芯3B处理器的Linpack优化实现被引量：3

Optimization of Linpack for Loongson 3B processor

下载PDF

导出

摘要 HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右. High performance Linpack（HPL） is a linpack benchmark package widely adopted in high performance computing.An efficient partition strategy is introduced by Loongson 3B processor＇s architectural features in the matrix multiplication,and the cache lock mechanism which locks the frequently used data blocks into the locked cache is introduced to reduce the missing cache.To make the computation cost hides the memory access cost,a new prefetching algorithm is included in the memory access acceleration device.Other functions,such as dtrsm and line swapping,are optimized,and the optimal value is achieved for each parameter by training.Experimental results indicate that both single-node（4 cores） and double-node（8 cores） have achieved about 60% of theoretical peak performance,which are nearly 10 times performance improvement compared with non-optimized Linpack.

作者刘刚张恒张滇毛睿

机构地区深圳大学计算机与软件学院

出处《深圳大学学报（理工版）》 EI CAS 北大核心 2014年第3期286-292,共7页 Journal of Shenzhen University(Science and Engineering)

基金国家高技术研究发展计划资助项目(2012AA01A30904) 广东省院士工作站建设项目(2012B090500020)~~

关键词计算机系统结构龙芯3B处理器线性系统软件包矩阵乘法数据预取 computer architecture Loongson 3B processor linear system package matrix multiplication data prefetching

分类号 TP301 [自动化与计算机技术—计算机系统结构] TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1蔡晔,刘刚,毛睿,罗秋明,陈国良.KD-90普及型个人高性能计算机系统设计与性能优化[J].深圳大学学报（理工版）,2013,30(2):138-143. 被引量：8
2李文龙,刘利,汤志忠.软件流水中的循环展开优化[J].北京航空航天大学学报,2004,30(11):1111-1115. 被引量：16
3陈国良,蔡晔,罗秋明.国产个人高性能计算机系统研制[J].深圳大学学报（理工版）,2011,28(6):471-477. 被引量：4
4朱海涛,陈云霁,钱诚,王玲,胡伟武.基于向量扩展多核处理器的矩阵乘法算法优化研究[J].中国科学技术大学学报,2011,41(2):173-182. 被引量：4
5张文力,陈明宇,樊建平.HPL测试性能仿真与预测[J].计算机研究与发展,2006,43(3):557-562. 被引量：13
6何颂颂,顾乃杰,朱海涛,刘燕君.面向龙芯3A体系结构的BLAS库优化[J].小型微型计算机系统,2012,33(3):571-575. 被引量：8

二级参考文献43

1Vangal S R, Howard J, Ruhl G, et al. An 80-tile sub- 100-W teraFLOPS processor in 65-nm CMOS [J]. IEEE Journal of Solid-State Circuits, 2008, 43(1) : 29- 41.
2Kahle J A, Day M N, Hofstee H P, et al. Introduction to the cell multiprocessor[J]. IBM Journal of Research and Development, 2005, 49 (4/5) 589-604:.
3Kapasi U, Dally W J, Rixner S, et al. The imagine stream processor [C]// Proceedings of the 2002 International Confernce on Computer Design. Freiburg, Germany: IEEE Press, 2002: 282-288.
4Waingold E, Taylor M, Sarkar V, et al. Baring it all to software., raw maehines[J]. IEEE Computer, 1997, 30(9) : 86-93.
5Sankaralingam K, Nagarajan R, McDonald R, et al. Distributed microarchitectural protocols in the TRIPS prototype processor [C]// Proceedings of the 39th Annual IEEE/ACM International Symposium on Microarchitecture. Washington, USA: IEEE Computer Society, 2006: 480-491.
6Gunnels J A, Henry G M, van de Geijn R A. A family of high performance matrix multiplication algorithms [C]// Proceedings of the International Conference on Computational Science - Part I. London, UK: Springer, 2001: 51-60.
7Goto K. van de Geijn R A. On reducing TLB misses in matrix multiplication[R]. CS-TR-02-55, Department of Computer Scienees, The University of Texas at Austin, 2002.
8Goto K. van de Geijn R A. Anatomy of high- performance matrix multiplication [ J ]. ACM Transactions on Mathematical Software, 2008, 34(3): Article 12(1-25).
9Gunnels J, Lin C, Morrow G, et al. A flexible class of parallel matrix multiplication algorithms [C]// First Merged International Parallel Processing Symposium and Symposium on Parallel and Distributed Processing. Washington, USA: IEEE Computer Society, 1998, 12: 110-116.
10Marker B, van Zee F G, Goto K, et al. Toward sealable matrix multiply on multithreaded architectures [C]// Proceedings of the 13th International European Conference on Parallel and Distributed Computing. Rennes, France: ACM Press, 2007: 748-757.

共引文献45

1伍仲祥,孙名松.浅析嵌入式系统编程中的代码优化[J].自动化技术与应用,2005,24(12):18-21. 被引量：5
2吴俊军,刘东升.S3FC9DC单片机代码优化技术研究[J].微计算机信息,2007(03Z):88-90. 被引量：1
3刘利,陈彧,乔林,汤志忠.利用循环分割和循环展开避免Cache代价[J].软件学报,2008,19(9):2228-2242. 被引量：2
4郭淑婷.DSP汇编语言优化设计[J].河南师范大学学报（自然科学版）,2009,37(1):151-154. 被引量：2
5周国建,吴少刚,李祖松,史岗.基于四阶段人工优化的软件流水技术[J].计算机工程,2009,35(5):40-43. 被引量：1
6邓超,朱星明.高性能水利科学计算平台测试分析[J].中国水利水电科学研究院学报,2009,7(1):51-56. 被引量：2
7孟金涛,贺鹏程,刘涛.Nehalem平台的Linpack参数训练与优化[J].华中科技大学学报（自然科学版）,2010,38(S1):55-58. 被引量：1
8高一波,丁亚平,于美丽.杜利特尔算法在条件优化中的应用[J].计算机与应用化学,2009,26(11):1389-1392.
9严历,郭力.三维宏观拟颗粒模拟程序计算代码优化研究与实现[J].计算机与应用化学,2009,26(12):1523-1528.
10陈坚祯,阳平,李斌,沈丹平.多核并行计算下的流量传感器流场模拟研究[J].衡阳师范学院学报,2011,32(6):82-84. 被引量：1

同被引文献4

1张文力,陈明宇,樊建平.HPL测试性能仿真与预测[J].计算机研究与发展,2006,43(3):557-562. 被引量：13
2吴亚杰,刘卫东,曾小光.基于龙芯平台的PMON研究与开发[J].电子设计工程,2011,19(17):140-142. 被引量：2
3马跃,柴安颖,尹震宇,李明时,王春晓,李锁.一种基于收敛策略的国产CPU性能测试模型[J].小型微型计算机系统,2020,41(1):92-97. 被引量：3
4杜琦,黄卉,龚盛,刘新娃,黄春.Intel Cascade Lake架构CPU SPEC CPU2017评测[J].计算机工程与科学,2021,43(1):49-57. 被引量：2

引证文献3

1甘新标,孙燎原,刘杰,雄成伟,黄嘉昆.面向国产异构系统的HPL异构协同设计[J].计算机工程与科学,2018,40(1):10-14.
2贾迅,邬贵明,钱磊,谢向辉,吴东.大规模三角线性方程的高效求解[J].计算机工程与科学,2019,41(2):240-245.
3刘鑫昌.国产地面处理器软硬件协同应用验证研究[J].办公自动化,2023,28(12):55-57.

1孟金涛,贺鹏程,刘涛.Nehalem平台的Linpack参数训练与优化[J].华中科技大学学报（自然科学版）,2010,38(S1):55-58. 被引量：1
2我国第一台超千万亿次计算机系统研制成功[J].粮油食品科技,2010,18(5):75-75.
3刘旭辉,韩冀中,贺劲,韩承德.基于集群系统的空间数据并行处理策略研究[J].高技术通讯,2009,19(10):991-997. 被引量：1
4廿年磨一剑——Microsoft Office 2007界面变革图解[J].数字技术与应用,2006(5):32-33.
5安捷伦科技推出首款MIPI M-PHY发射机一致性测试套件[J].国外电子测量技术,2011,30(10):84-84. 被引量：2
6张云泉,孙家昶,袁国兴,张林波.2008年中国高性能计算机TOP100排行榜分析与展望[J].科研信息化技术与应用,2008(3):71-78. 被引量：2
7梁娟娟,任开新,郭利财,刘燕君.GPU上的矩阵乘法的设计与实现[J].计算机系统应用,2011,20(1):178-181. 被引量：7
8黄海峰.Sun扩大高性能计算领先优势[J].通信世界,2009(44).
9我国研制成功超千万亿次高性能计算机“星云”[J].广东科技,2010,19(13):12-12.
10“天河一号”组装完毕[J].少儿科技,2010(9):43-43.

深圳大学学报（理工版）

2014年第3期

浏览历史

内容加载中请稍等...

基于龙芯3B处理器的Linpack优化实现被引量：3

参考文献6

二级参考文献43

共引文献45

同被引文献4

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于龙芯3B处理器的Linpack优化实现 被引量：3

参考文献6

二级参考文献43

共引文献45

同被引文献4

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于龙芯3B处理器的Linpack优化实现被引量：3