期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
ROCm平台半精度矩阵乘法的实现和优化
1
作者 王雨薇 吉青 +2 位作者 卜景德 高娅 赵红朋 《计算机工程与设计》 北大核心 2024年第8期2313-2319,共7页
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比... 为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比小、处于带宽限制下的特点;通过提升类GPU占用率和优化带宽利用率,实现优化算法的HGEMM函数设计,取得较普通算法1.1-1.3倍加速比。实验结果表明,依据半精度数据格式特点,使用优化算法提升占用率和优化指令排布,能够提升HGEMM函数的计算访存比,实现小规模矩阵HGEMM函数的性能提升。 展开更多
关键词 类gpu加速器 矩阵乘法 半精度 性能优化 算法实现 高性能计算 线性代数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部