-
题名面向龙芯3B1500体系结构的DGEMM函数优化
被引量:3
- 1
-
-
作者
刘刚
张恒
毛睿
陆克中
-
机构
深圳大学计算机与软件学院
国家高性能计算中心深圳分中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第7期1523-1527,共5页
-
基金
国家"八六三"高技术研究发展计划项目(2012AA01A30904)资助
广东省院士工作站建设项目(2012B090500020)资助
-
文摘
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上.
-
关键词
龙芯3B1500处理器
BLAS
dgemm
矩阵乘法
数据预取
-
Keywords
Loongson3B1500 processor
BLAS
dgemm
matrix multiplication
data prefetching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名CPU-GPU并行矩阵乘法的实现与性能分析
被引量:11
- 2
-
-
作者
程豪
张云泉
张先轶
李玉成
-
机构
中国科学院软件研究所并行计算实验室
中国科学院研究生院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第13期24-26,29,共4页
-
基金
国家自然科学基金资助重点项目(60533020)
国家"863"计划基金资助项目(2006AA01A125
+2 种基金
2009AA01A129
2009AA01A134)
国家重大科研装备研制项目(ZDYZ2008-2-S01)
-
文摘
实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素。
-
关键词
混合并行
GPU技术
dgemm程序
加速比
-
Keywords
hybrid parallelization
GPU
dgemm
speedup ratio
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-