-
题名基于申威1600的3级BLAS GEMM函数优化
被引量:10
- 1
-
-
作者
刘昊
刘芳芳
张鹏
杨超
蒋丽娟
-
机构
中国科学院软件研究所
中国科学院大学
-
出处
《计算机系统应用》
2016年第12期234-239,共6页
-
基金
国家自然科学基金(91530103
91530323)
-
文摘
BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库Goto BLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍.
-
关键词
申威1600
三级blas
GEMM
高性能计算
多核
-
Keywords
Sunway 1600
level 3 blas
GEMM
HPC
multi-core
-
分类号
TP38
[自动化与计算机技术—计算机系统结构]
-