-
题名矩阵乘法的GPU并行计算时耗模型与最优配置方法
- 1
-
-
作者
雷超
刘江
宋佳文
-
机构
中国科学院重庆绿色智能技术研究院
中国科学院大学重庆学院
中南大学航空航天技术研究院
-
出处
《计算机科学》
CSCD
北大核心
2024年第S01期810-817,共8页
-
基金
国家重点研发计划(2018YFC0116704)
中国科学院科技服务网络计划区域重点项目(KFJ-STS-QYZD-2021-01-001)
+1 种基金
中南大学课题(大规模稀疏线性方程组并行加速求解研究)
雷达资料同化关键技术及数值预报客观订正技术研究(E190600801)。
-
文摘
水平矩阵乘竖直矩阵是科学计算及工程领域中的基本计算之一,很大程度上影响了整个算法的计算效率。GPU并行计算是迄今主流的并行计算方式之一,其底层设计使得GPU非常契合于大规模矩阵计算。迄今已经有许多研究基于GPU并行计算框架,针对矩阵的结构设计、优化矩阵乘法,但尚未有针对水平矩阵乘竖直矩阵的GPU并行算法及优化。此外,GPU核函数配置直接影响计算效率,但迄今针对最优核函数配置的研究极为有限,通常需要研究人员针对具体算法的计算特点启发式地设置。基于GPU的线程、内存模型,设计了一种并行水平矩阵乘竖直矩阵乘法PHVM。数值实验结果表明,在左乘矩阵的水平维度远远大于竖直维度时,PHVM要显著优于NVIDIAcuBLAS库中的通用矩阵乘法。进一步,基于GPU的硬件参数,建立了PHVM运行时间的核函数配置最优化理论模型。数值实验结果表明,该理论模型较为准确地描述了PHVM算法运行时间随核函数配置(网格大小、线程块大小)变换的变化趋势,且模型得出的理论最优核函数配置与实际最优运行核函数配置相符。
-
关键词
矩阵乘法
GPU
CUDA
核函数配置
-
Keywords
Matrix multiplication
GPU
CUDA
Kernel function configuration
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-