期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向龙芯3B1500体系结构的DGEMM函数优化 被引量:3
1
作者 刘刚 张恒 +1 位作者 毛睿 陆克中 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1523-1527,共5页
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现... 双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上. 展开更多
关键词 龙芯3B1500处理器 BLAS DGEMM 矩阵乘法 数据预取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部