期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
ROCm平台半精度矩阵乘法的实现和优化
1
作者
王雨薇
吉青
+2 位作者
卜景德
高娅
赵红朋
《计算机工程与设计》
北大核心
2024年第8期2313-2319,共7页
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比...
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比小、处于带宽限制下的特点;通过提升类GPU占用率和优化带宽利用率,实现优化算法的HGEMM函数设计,取得较普通算法1.1-1.3倍加速比。实验结果表明,依据半精度数据格式特点,使用优化算法提升占用率和优化指令排布,能够提升HGEMM函数的计算访存比,实现小规模矩阵HGEMM函数的性能提升。
展开更多
关键词
类GPU加速器
矩阵乘法
半精度
性能优化
算法实现
高性能计算
线性代数
下载PDF
职称材料
GROMACS 2020在ROCm平台上的移植与优化
被引量:
3
2
作者
张驭洲
曹武迪
+2 位作者
卜景德
谭光明
吉青
《计算机工程与科学》
CSCD
北大核心
2021年第11期1901-1909,共9页
GROMACS是应用广泛的开源分子动力学模拟软件,当前主要通过CUDA使用NVIDIA GPU进行加速计算。ROCm是一个开源的高性能异构计算平台。基于ROCm平台的HIP编程语言,首次实现了GROMACS 2020系列在ROCm平台上的完整移植。在MI50 GPU上,以一...
GROMACS是应用广泛的开源分子动力学模拟软件,当前主要通过CUDA使用NVIDIA GPU进行加速计算。ROCm是一个开源的高性能异构计算平台。基于ROCm平台的HIP编程语言,首次实现了GROMACS 2020系列在ROCm平台上的完整移植。在MI50 GPU上,以一个复杂离子液体模拟算例为目标,使用GPU性能分析工具rocprof对移植代码进行了性能分析。针对MI50硬件特性,先后对成键力核函数、静电力的PME核函数和短程非成键力核函数进行了优化,优化后运行目标算例的性能相比初始版本整体上获得了约2.8倍的加速比,在MI50上的性能高于GROMACS原版OpenCL代码60.5%,相对纯CPU版本有约2.7倍的加速比。在另外2个具有代表性算例的单结点测试以及离子液体算例的多结点扩展性测试中,优化后的代码也达到了较好的性能提升,这表明所采用的优化操作具有一定的通用性。
展开更多
关键词
分子动力学
GROMACS
ROCm
应用移植
性能优化
下载PDF
职称材料
题名
ROCm平台半精度矩阵乘法的实现和优化
1
作者
王雨薇
吉青
卜景德
高娅
赵红朋
机构
郑州大学
计算
机与人工智能
学院
中国科学院理论物理研究所理论物理先进计算联合实验室
出处
《计算机工程与设计》
北大核心
2024年第8期2313-2319,共7页
基金
国家重点研发计划基金项目(2021YFB0300200)。
文摘
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比小、处于带宽限制下的特点;通过提升类GPU占用率和优化带宽利用率,实现优化算法的HGEMM函数设计,取得较普通算法1.1-1.3倍加速比。实验结果表明,依据半精度数据格式特点,使用优化算法提升占用率和优化指令排布,能够提升HGEMM函数的计算访存比,实现小规模矩阵HGEMM函数的性能提升。
关键词
类GPU加速器
矩阵乘法
半精度
性能优化
算法实现
高性能计算
线性代数
Keywords
GPU-like accelerator
GEMM
half-precision
performance optimization
algorithm implementation
high perfor-mance computing
linear algebra
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
GROMACS 2020在ROCm平台上的移植与优化
被引量:
3
2
作者
张驭洲
曹武迪
卜景德
谭光明
吉青
机构
中国科学院理论物理研究所理论物理先进计算联合实验室
中国科学院
计算
技术
研究所
计算
机体系结构国家重点
实验室
出处
《计算机工程与科学》
CSCD
北大核心
2021年第11期1901-1909,共9页
基金
国家重点研发计划(2018YFB0204400)。
文摘
GROMACS是应用广泛的开源分子动力学模拟软件,当前主要通过CUDA使用NVIDIA GPU进行加速计算。ROCm是一个开源的高性能异构计算平台。基于ROCm平台的HIP编程语言,首次实现了GROMACS 2020系列在ROCm平台上的完整移植。在MI50 GPU上,以一个复杂离子液体模拟算例为目标,使用GPU性能分析工具rocprof对移植代码进行了性能分析。针对MI50硬件特性,先后对成键力核函数、静电力的PME核函数和短程非成键力核函数进行了优化,优化后运行目标算例的性能相比初始版本整体上获得了约2.8倍的加速比,在MI50上的性能高于GROMACS原版OpenCL代码60.5%,相对纯CPU版本有约2.7倍的加速比。在另外2个具有代表性算例的单结点测试以及离子液体算例的多结点扩展性测试中,优化后的代码也达到了较好的性能提升,这表明所采用的优化操作具有一定的通用性。
关键词
分子动力学
GROMACS
ROCm
应用移植
性能优化
Keywords
molecular dynamics
GROMACS
radeon open compute
application porting
performance optimization
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
ROCm平台半精度矩阵乘法的实现和优化
王雨薇
吉青
卜景德
高娅
赵红朋
《计算机工程与设计》
北大核心
2024
0
下载PDF
职称材料
2
GROMACS 2020在ROCm平台上的移植与优化
张驭洲
曹武迪
卜景德
谭光明
吉青
《计算机工程与科学》
CSCD
北大核心
2021
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部