-
题名ROCm平台半精度矩阵乘法的实现和优化
- 1
-
-
作者
王雨薇
吉青
卜景德
高娅
赵红朋
-
机构
郑州大学计算机与人工智能学院
中国科学院理论物理研究所理论物理先进计算联合实验室
-
出处
《计算机工程与设计》
北大核心
2024年第8期2313-2319,共7页
-
基金
国家重点研发计划基金项目(2021YFB0300200)。
-
文摘
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比小、处于带宽限制下的特点;通过提升类GPU占用率和优化带宽利用率,实现优化算法的HGEMM函数设计,取得较普通算法1.1-1.3倍加速比。实验结果表明,依据半精度数据格式特点,使用优化算法提升占用率和优化指令排布,能够提升HGEMM函数的计算访存比,实现小规模矩阵HGEMM函数的性能提升。
-
关键词
类gpu加速器
矩阵乘法
半精度
性能优化
算法实现
高性能计算
线性代数
-
Keywords
gpu-like accelerator
GEMM
half-precision
performance optimization
algorithm implementation
high perfor-mance computing
linear algebra
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-