期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向龙芯3B1500体系结构的DGEMM函数优化 被引量:3
1
作者 刘刚 张恒 +1 位作者 毛睿 陆克中 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1523-1527,共5页
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现... 双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上. 展开更多
关键词 龙芯3B1500处理器 BLAS dgemm 矩阵乘法 数据预取
下载PDF
CPU-GPU并行矩阵乘法的实现与性能分析 被引量:11
2
作者 程豪 张云泉 +1 位作者 张先轶 李玉成 《计算机工程》 CAS CSCD 北大核心 2010年第13期24-26,29,共4页
实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过... 实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素。 展开更多
关键词 混合并行 GPU技术 dgemm程序 加速比
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部