面向多核向量处理器的矩阵乘法向量化方法被引量：9

Vectorization of Matrix Multiplication for Multi-Core Vector Processors

下载PDF

导出

摘要稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值由k次向量乘累加完成,每次计算都是先将A矩阵第i行的第j个元素扩展为值相同的向量,再与B矩阵的第j行向量进行乘累加计算,每一次的向量乘累加计算是在各个VPE上并行进行,计算的源数据和结果数据均保存在VPE的本地寄存器上,每个计算结果涉及的乘累加计算均在同一个VPE上完成,并且A、B、C三个矩阵的数据均是按行顺序读取,访存效率高,在k循环结束时,同时完成C矩阵第i行元素值的计算.该方法能充分开发向量处理器的标量、向量协同数据加载能力,有效减少对DDR的存储带宽需求,能够避免低效的对乘数矩阵列向量数据的访问和各个VPE间的浮点归约求和计算,取得最优的内核计算性能;将处理器的一级数据缓存和阵列存储配置为SRAM访问模式,能够避免由于Cache数据不命中而导致的存储访问延迟,提高核心计算访问一级数据缓存和阵列存储的效率,采用组播DMA传输矩阵数据,能够显著提高从DDR读取矩阵数据的效率;提出依据向量处理单元VPE数量、VPE的FMAC运算单元数量、向量存储器的容量和矩阵元素的数据类型等向量处理器体系结构特点设计最优的核心子块矩阵分块参数设计方法,能够充分开发向量处理器的多核间数据并行、核内的多VPE间的向量SIMD并行、VPE内的多个FMAC单元并行、VPE内的标、向量指令级并行等多级并行性,并根据FMAC指令延迟槽进行完全循环展开,让内核始终以峰值速度运行;提出基于两级DMA双缓冲数据搬移策略,优化和平滑多级存储结构间的数据传输,使得DMA的数据搬移时间完全重叠于内核的计算时间中,让整个矩阵计算以接近内核计算的速度运行,实现最优的计算性能和效率.在MATRIX2上的实验结果表明,提出的双精度矩阵乘法的性能达到1106.88GFLOPS,效率为96.08%,核心计算的效率达到99.39%. Dense matrix multiplication is one of the core computations in many algorithms from large scientific computing.An efficient vectorization of matrix multiplication for multi-core vector processors was presented.A vectorization of matrix multiplication according to row computation were presented.The basic idea of the vectorization method is that the one row elements of the C matrix is calculated at the same time.The value of the i-th row elements of the C matrix is completed by k vector multiply and accumulate operations.For each calculation,we extend the j th element of the i-th row of the A matrix into the vector of the same value,and then multiply and accumulate the j th row elements of the B matrix.Each vector multiply and accumulate calculation is carried out in parallel on each VPE.The calculated source data and the result data are stored in the local registers of VPE,each involved multiply and accumulate operation of calculation results are completed on the same VPE.The A,B,C matrix data are read in line order,which achieve a higher access efficiency,the calculation of the values of the i-th row element of the C matrix is completed at the end of the k cycle.This method fully exploits scalar and vector collaborative data loading capacity of vector processor and effectively reduces the storage bandwidth requirements for DDR,it avoids low efficiency data access to column vectors of multiplier matrix and float reduction summation calculation among all VPEs,and achieves optimization kernel computation performance.The level-1 data cache and array memory of vector processor was configured as SRAM access pattern,which can avoid the storage access delay caused by the cache data miss and improve the access efficiency of core computing to the level-1 data cache and array memory,it use multicast DMA to transfer matrix data,which significantly improves the efficiency of reading matrix data from DDR.An optimized core sub-block matrix blocking method was designed based on the vector processor architecture features including the number of vector processing unit VPE,the number of FMAC operation units of VPE,the capacity of vector memory and the data type of matrix elements,which fully exploits data parallelism of multi-core vector processors,vector SIMD parallelism between multiple VPEs,parallelism of multiple FMAC elements within VPE,scalar and vector instruction level parallelism in VPEs,it make full of looping expansion in accordance with the FMAC instruction delay slot,so that the kernel computing is always running at peak speed.A data transfer strategy based on two-level DMA double buffering scheme was designed to optimize and smooth the data transfers between multilevel storage architecture,which makes kernel computation and DMA data transfer fully overlapped,so that the whole matrix calculate is always running close to the kernel computing speed and achieve optimal computing performance and efficiency.Experimental results on MATRIX2 show that the performance of presented double precision matrix multiplication achieves 1106.88 GFLOPS,an efficiency of 96.08%,and the efficiency of kernel computation achieves 99.39%.

作者刘仲田希 LIU Zhong;TIAN Xi(College of Computer,National University of Defense Technology,Changsha 410073)

机构地区国防科技大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2018年第10期2251-2264,共14页 Chinese Journal of Computers

基金国家自然科学基金(61572025 61472432)资助

关键词多核向量处理器高性能计算矩阵乘法分块矩阵向量化 multi-core vector processor high performance computing matrix multiplication blocked matrix vectorization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1迟学斌,顾蓓蓓,武虹,王龙,朱鹏.高性能计算机系统及平台发展状况分析[J].计算机工程与科学,2013,35(11):6-13. 被引量：9
2刘仲,陈跃跃,陈海燕.支持任意系数长度和数据类型的FIR滤波器向量化方法[J].电子学报,2013,41(2):346-351. 被引量：7

二级参考文献27

1李辉,张安,赵敏,徐琦.粒子群优化算法在FIR数字滤波器设计中的应用[J].电子学报,2005,33(7):1338-1341. 被引量：37
2马宝山,朱义胜.一种用于基因预测的FIR数字滤波器[J].电子学报,2007,35(9):1710-1713. 被引量：8
3Mehrara M, Jablin T, Upton D, et al. Multicore compilation strnd challenges[ J ]. II.EIZ. Signal g Magazine, 21309, 26(6) :55 - 63.
4Mirzaei S, Hosangadi A, Kastner R. FPGA implementation of high speed FIR filters using add and shift method[ A]. Proceed- ings of International Conference on Computer Design[ C]. San Jose, California: IEEE, 2006.308 - 313.
5Shahbahrami A, Juurlink B H H. Vassiliadis S. Efficient vector- ization of the FIR filter[A]. Proceedings of the 16th Annual Workshop on Circuits, Systems and Signal Processing [ C ]. Veldhoven, the Netherlands: , 2005.432 - 437.
6Kutil R, Eder P. Parallelizafion of wavelet filters using SIMD extensions[ J]. Parallel Processing Letters, 2006, 16 (3) : 335 -349.
7Kutil R. Parallelization of fiR filters using SIMD extensions [ A]. Proceedings of the 15th Intemational Conference on Sys- tems, Signals and Image Processing[ C]. Bratislava, Slovak Re- public: n,l:,l:,, 2008.65 - 68.
8Dang B L, Engin N, Gaydadjiev G N. Efficient filtering with the co-vector processor[ A ]. Proceedings of the 14th Annual Workshop on Circuits, Systems and Signal Processing [ C ].Veldhoven, The Netherlands:l,2003.351 - 356.
9Texas Instruments. C67x floating point benchmarks[ R/OL ]. http://www, ft. com/sc/docs/products/dsp/c6000/67bench. hlm,2011 - 11 - 03.
10Texas InslnLrnents. C64x floating point benchrnarks[ R/OL]. ht://focus, ft. com/dsp/docs/dspplatformscontentaut, tsp? secfionId = 2familyId = 4778aabId = 496,2011 - 11 - 03.

共引文献14

1顾蓓蓓,武虹,迟学斌,赵青.国内外高性能计算应用发展概况分析[J].科研信息化技术与应用,2014,5(4):82-91. 被引量：12
2郭广浩,刘志哲,孟庆龙,马承光.多级并行流水FIR数字滤波器的设计与验证[J].现代电子技术,2015,38(1):69-72. 被引量：5
3刘仲,田希,陈磊.支持原位计算的高效三角矩阵乘法向量化方法[J].国防科技大学学报,2014,36(6):7-11. 被引量：3
4刘仲,陈海燕,向宏卫.使用融合乘加加速快速傅里叶变换计算的向量化方法[J].国防科技大学学报,2015,37(2):72-78. 被引量：3
5王治国,汪瞳.基于频率采样方法的FIR甲板运动补偿器设计[J].中国舰船研究,2015,10(4):22-28.
6马迅飞,张进铎,李硕,尹龙,向光阳,陈翔.高性能计算机系统搬迁与集成的规划与实施[J].计算机时代,2016(8):35-38. 被引量：5
7张军阳,郭阳,扈啸.二维矩阵卷积的并行计算方法[J].浙江大学学报（工学版）,2018,52(3):515-523. 被引量：8
8顾蓓蓓,迟学斌,武虹,赵青.国内大型超算中心系统及应用发展态势比较分析[J].科研信息化技术与应用,2017,8(5):86-93. 被引量：1
9张军阳,郭阳.二维矩阵卷积在向量处理器中的设计与实现[J].国防科技大学学报,2018,40(3):69-75. 被引量：1
10吴琦,倪裕芳,黄小猛.基于“神威·太湖之光”的区域海洋模式并行优化[J].计算机研究与发展,2019,56(7):1556-1566. 被引量：10

同被引文献55

1刘正元,陈颖,宋炎侃,王明轩,高仕林.基于GPU并行处理的大规模连续潮流批量计算[J].电网技术,2020,44(3):1041-1046. 被引量：3
2侯韩旭,李挥,张华宇,朱兵.二元再生码在分布式存储系统的应用[J].计算机研究与发展,2013,50(S2):45-53. 被引量：1
3蒋孟奇,张云泉,宋刚,李玉成.GOTOBLAS一般矩阵乘法高效实现机制的研究[J].计算机工程,2008,34(7):84-86. 被引量：8
4彭谦,姜彤,杨以涵,张利.快速三相高斯潮流算法[J].中国电机工程学报,2009,29(4):48-52. 被引量：14
5朱海涛,陈云霁,钱诚,王玲,胡伟武.基于向量扩展多核处理器的矩阵乘法算法优化研究[J].中国科学技术大学学报,2011,41(2):173-182. 被引量：4
6熊玮,夏文龙,余晓鸿,林湘宁.多核并行计算技术在电力系统短路计算中的应用[J].电力系统自动化,2011,35(8):49-52. 被引量：31
7陈智,王贵锋,柳莺.一种基于IP Core实现FFT变换的新方法[J].自动化与仪器仪表,2012(2):163-164. 被引量：5
8周怡,李树国.一种改进的基4-Booth编码流水线大数乘法器设计[J].微电子学与计算机,2014,31(1):60-63. 被引量：4
9刘刚,张恒,毛睿,陆克中.面向龙芯3B1500体系结构的DGEMM函数优化[J].小型微型计算机系统,2014,35(7):1523-1527. 被引量：3
10姚若河,徐新才.基于冗余符号数的定点乘法器的设计[J].华南理工大学学报（自然科学版）,2014,42(3):27-34. 被引量：2

引证文献9

1梁建胜,袁从贵.模拟神经网络传输的职业教育视频资源开发[J].计算机与数字工程,2018,46(7):1410-1416.
2刘余福,郎文辉,贾光帅.HXDSP平台上矩阵乘法的实现与性能分析[J].计算机工程,2019,45(4):25-29. 被引量：4
3程雨芊,李智超.基于余数系统蒙哥马利模乘器的RSA密码算法[J].计算机仿真,2021,38(1):221-225. 被引量：2
4李爽,赵荣彩,王磊.面向申威1621通用矩阵乘算法的实现与优化[J].计算机科学,2021,48(S02):699-704. 被引量：1
5邓洁,赵荣彩,王磊.基于申威1621的通用矩阵向量乘法的性能分析与优化[J].计算机应用,2022,42(S01):215-220. 被引量：1
6王博漾,庞建民,徐金龙,赵捷,陶小涵,朱雨.基于多面体模型的矩阵乘法向量代码生成[J].计算机科学,2022,49(10):44-51. 被引量：2
7裴向东,王庆林,廖林玉,李荣春,梅松竹,刘杰,庞征斌.多核数字信号处理器并行矩阵转置算法优化[J].国防科技大学学报,2023,45(1):57-66. 被引量：3
8王庆林,裴向东,廖林玉,王浩旭,李荣春,梅松竹,李东升.多核数字信号处理器矩阵乘卷积算法性能评测[J].国防科技大学学报,2023,45(1):86-94. 被引量：1
9周淳,姜彤.基于矢量指令集的三相潮流并行计算方法[J].电网技术,2023,47(3):1151-1158. 被引量：1

二级引证文献15

1叶鸿,顾乃杰,林传文,张孝慈,陈瑞.一种基于HXDSP的移位器查找表技术[J].北京航空航天大学学报,2019,45(10):2044-2050. 被引量：1
2张露维,顾荣斌,李静,李科心.FSD:增量压缩中局部特征表决的快速相似性检测[J].小型微型计算机系统,2021,42(5):977-983. 被引量：1
3孙雁飞,王子牛,孙莹,亓晋,董振江.面向内存受限设备的新型卷积计算方法[J].南京邮电大学学报（自然科学版）,2022,42(5):54-61. 被引量：3
4吴金宇,高宏慧,陶文伟,陈刚,江泽铭.基于保信系统签名技术的电力监控系统主站下发指令身份验证方法[J].计算技术与自动化,2023,42(1):199-204. 被引量：2
5蔺丽华,张美春,王佳仪,李敏,门浩.基于BWDSP1042的复数矩阵向量乘的优化与实现[J].计算机应用与软件,2023,40(3):298-301.
6李国帆.云软件生命周期模型选择方法研究与启示[J].科技创新与生产力,2023(3):18-23.
7吴海燕.一种解决魂芯HX1041并口与限制区域数据传输的方法[J].单片机与嵌入式系统应用,2023,23(8):57-58.
8别红玲,周波.障碍物环境下机械臂避障轨迹检测研究[J].机械设计与制造工程,2023,52(11):43-48.
9杨龙飞,卢仕,彭旷.基于流水线的RSA加密算法硬件实现[J].电子技术应用,2024,50(1):66-70. 被引量：1
10刘杰,石永振,杨博,张翔,陈新海,张华健,郭晓威,李胜国,李润华,彭晋韬,肖调杰,陈旭光,张庆阳,李彪,冷灿,李翊谁,王庆林.天河超算系统并行算法库[J].计算物理,2024,41(1):9-21.

1售价3199元起全速旗舰一加手机6正式发布[J].电脑爱好者,2018,0(11):62-62.
2全速旗舰一加手机6发布[J].通信世界,2018,0(14):6-6.
3曹代,郭绍忠,张辛.某国产平台数学库优化技术研究[J].信息工程大学学报,2017,18(4):470-474. 被引量：5
4章联生,任正民.矩阵分块的一点应用[J].北京石油化工学院学报,2018,26(2):82-86.
5秦莹莹.将数学建模的思想融入代数学的驱动式教学方法中[J].教育教学论坛,2017(45):199-201.
6李林茹,王春海.给存储添加控制器[J].网络安全和信息化,2018,0(3):65-67.
7顾国帅,杨徐路,王正之.分布式波控的设计与实现[J].数字技术与应用,2018,36(5):34-34. 被引量：1
8陈臻.基于RAID-5的机载阵列存储技术[J].舰船电子对抗,2017,50(5):74-80.
9王锋,张璟,张彤,马维纲.基于Eucalyptus的多租户水利系统应用研究[J].计算机系统应用,2018,27(9):107-111.
10陈慧,慕福奇,张然,姜彬.一种基于cache一致性的多核任务监测机制的实现方法[J].微电子学与计算机,2018,35(10):19-22. 被引量：1

计算机学报

2018年第10期

浏览历史

内容加载中请稍等...

面向多核向量处理器的矩阵乘法向量化方法被引量：9

参考文献2

二级参考文献27

共引文献14

同被引文献55

引证文献9

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

面向多核向量处理器的矩阵乘法向量化方法 被引量：9

参考文献2

二级参考文献27

共引文献14

同被引文献55

引证文献9

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

面向多核向量处理器的矩阵乘法向量化方法被引量：9