面向国产异构系统的HPL异构协同设计

Orchestrating HPL between CPU and China accelerator

下载PDF

导出

摘要 HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。 HPL is a Linpack benchmark package widely used in high performance computing test.Matrix is divided into sub-matrix and distributed into computing elements in traditional HPL algorithm.However,it is ineffective for China Accelerator because of a specified interface on matrix multiplication built in China Accelerator.Thus,dPEM(delicate Partition and Encapsulation on Matrix)is advised to expose a friendly testing configuration environment.Furthermore,we propose OA4 MM(Orchestrating Algorithm for Matrix multiplication)based on heterogeneous system composed of CPU and China Accelerator.Experimental results validate dPEM and OA4 MM on CPU + China Accelerator.OA4 MM can promote productivity up to 10%in comparison to heterogeneous HPL.

作者甘新标孙燎原刘杰雄成伟黄嘉昆

机构地区国防科技大学计算机学院计算机软件新技术国家重点实验室(南京大学) 国防科技大学量子信息研究所兼高性能计算国家重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2018年第1期10-14,共5页 Computer Engineering & Science

基金国家重点研发计划(2017YFB0202104) 国家自然科学基金(61602495 61402039 11401580 11665012) 计算机软件新技术国家重点实验室(南京大学)开放课题(KFKT2016B25) 国防科技大学预研计划(ZK16-03-06) 国家重点实验室专项基金(Y62612A87S) 中国科学院光谱成像技术重点实验室开放基金(LIST201602D)

关键词 HPL 国产加速器矩阵分布细致划分与封装异构协同矩阵乘调度 HPL China accelerator delicate partition and encapsulation on matrix orchestrating algorithm for matrix multiplication

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1张文力,陈明宇,樊建平.HPL测试性能仿真与预测[J].计算机研究与发展,2006,43(3):557-562. 被引量：13
2刘刚,张恒,张滇,毛睿.基于龙芯3B处理器的Linpack优化实现[J].深圳大学学报（理工版）,2014,31(3):286-292. 被引量：3

二级参考文献18

1李文龙,刘利,汤志忠.软件流水中的循环展开优化[J].北京航空航天大学学报,2004,30(11):1111-1115. 被引量：16
2张文力,陈明宇,樊建平.HPL测试性能仿真与预测[J].计算机研究与发展,2006,43(3):557-562. 被引量：13
3E. Caron, G. Utard. On the performance of parallel factorization of out-of-core matrices. Parallel Computing, 2004, 30(3) : 357-375.
4J. Dongarra. Linear algebra algorithms ( continued ). http://www. cs. utk. edu/- dongarra/WEBPAGES/SPRING-2000/lect08, pdf, 2000-02-29
5R. P. Brent, P. E. Strazdins. Implementation of BLAS level 3 and Linpack benchmark on the API000. Fujitsu Scientific and Technical Journal, 1993, 29( 1 ) : 61 - 70.
6W. Zhang, J. Fan, M. Chen. Efficient determination of block size NB for parallel Linpack test. In: Proe. lASTED lnt'l Conf.Parallel and Distributed Computing and Systems (PDCS 2004).Combridge: MIT Press, 2004. 439-92.
7W, Zhang, M. Chen, J. Fan. HPL performance prevision to intending system improvement. In: Proc. lnt'l Symposium on Parallel and Distributed Processing and Applications ( ISPA 2004),Lecture Notes in Computer Science 3358. Berlin: Springer-Verlag, 2004. 777-782.
8H. W. Meuer, E. Strohmaier, J. Dongarra, et al. TOP500 List for June 2004. http://www.top500.org/lists/2004/06/basic,2004-06-22.
9J. Dongarra, P. Luszczek, A. Petitet. The Linpack benchmark:Past, present, and future. Concurrency and Computation:Practice and Experience, 2003, 15:803-820.
10A. Petitet, R. C. Whaley, J. Dongarra, et al. HPL-A portable implementation of the high performance Linpaek benchmark for distributed-memory computers.http://www.netlib. org/benchmark/hpl/, 2004-01-20.

共引文献14

1邓超,朱星明.高性能水利科学计算平台测试分析[J].中国水利水电科学研究院学报,2009,7(1):51-56. 被引量：2
2孟金涛,贺鹏程,刘涛.Nehalem平台的Linpack参数训练与优化[J].华中科技大学学报（自然科学版）,2010,38(S1):55-58. 被引量：1
3高一波,丁亚平,于美丽.杜利特尔算法在条件优化中的应用[J].计算机与应用化学,2009,26(11):1389-1392.
4陈坚祯,阳平,李斌,沈丹平.多核并行计算下的流量传感器流场模拟研究[J].衡阳师范学院学报,2011,32(6):82-84. 被引量：1
5李铮,薛质.基于Linux的高性能集群的构建和性能优化[J].信息技术,2012,36(3):52-55. 被引量：3
6万晓姣.基于linux系统集群的架构与实现[J].电子世界,2012(10):94-95. 被引量：1
7王申,漆锋滨,谷洪峰,潘治.Linpack并行性能模型及其预测[J].计算机工程,2012,38(16):81-84. 被引量：6
8刘刚,张恒,张滇,毛睿.基于龙芯3B处理器的Linpack优化实现[J].深圳大学学报（理工版）,2014,31(3):286-292. 被引量：3
9韩菲,孙赞东,苏辉.高性能计算集群的Linpack测试及其在大数据中的应用[J].计算机与现代化,2015(5):25-29. 被引量：2
10贾迅,邬贵明,钱磊,谢向辉,吴东.大规模三角线性方程的高效求解[J].计算机工程与科学,2019,41(2):240-245.

1田新智.国产医用加速器技术差距和研发思路[J].中国医疗器械杂志,2017,41(6):399-403. 被引量：7
2戴国富,朱昌远.从企业活力分析看地方经济发展对策——以浙江省台州市企业活力分析为例[J].工商行政管理,2017,0(18):40-42.
3候召宁,胡世凯,刘宝新,郭二伟.基于BIM技术的暖通领域的应用研究[J].教育教学论坛,2018(8):52-53. 被引量：2
4兰朝辉.建筑工程给排水设计中BIM的应用[J].智能城市,2018,4(2):45-46. 被引量：4
5高铁燕.食品理化检验分析中的质量控制[J].现代食品,2017,2(16):18-19. 被引量：10
6开放＋协同：让央企创新离市场再近些[J].国企,2018,0(1):44-44.
7李明明.5G关键技术的研究[J].中国新通信,2018,20(2):67-67. 被引量：3
8符梦楠,钟婉红.慢性阻塞性肺疾病患者健康行为管理与肺功能及生活质量的相关性[J].检验医学与临床,2018,15(4):520-522. 被引量：22
9季奕,曾祥义,李向荣.AEMDB侧面碰撞性能提升方法研究[J].时代汽车,2018(2):20-24. 被引量：2
10张娟,李梅.多位二进制向量矩阵乘法的研究和实现[J].内燃机与配件,2017(14):146-147.

计算机工程与科学

2018年第1期

浏览历史

内容加载中请稍等...

面向国产异构系统的HPL异构协同设计

参考文献2

二级参考文献18

共引文献14

相关作者

相关机构

相关主题

浏览历史