期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于龙芯3B处理器的Linpack优化实现
被引量:
3
1
作者
刘刚
张恒
+1 位作者
张滇
毛睿
《深圳大学学报(理工版)》
EI
CAS
北大核心
2014年第3期286-292,共7页
HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B...
HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右.
展开更多
关键词
计算机系统结构
龙芯
3
b
处理器
线性系统软件包
矩阵乘法
数据预取
下载PDF
职称材料
面向龙芯3B1500体系结构的DGEMM函数优化
被引量:
3
2
作者
刘刚
张恒
+1 位作者
毛睿
陆克中
《小型微型计算机系统》
CSCD
北大核心
2014年第7期1523-1527,共5页
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现...
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上.
展开更多
关键词
龙芯3b1500处理器
b
LAS
DGEMM
矩阵乘法
数据预取
下载PDF
职称材料
题名
基于龙芯3B处理器的Linpack优化实现
被引量:
3
1
作者
刘刚
张恒
张滇
毛睿
机构
深圳大学计算机与软件学院
出处
《深圳大学学报(理工版)》
EI
CAS
北大核心
2014年第3期286-292,共7页
基金
国家高技术研究发展计划资助项目(2012AA01A30904)
广东省院士工作站建设项目(2012B090500020)~~
文摘
HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右.
关键词
计算机系统结构
龙芯
3
b
处理器
线性系统软件包
矩阵乘法
数据预取
Keywords
computer architecture
Loongson
3
b
processor
linear system package
matrix multiplication
data prefetching
分类号
TP301 [自动化与计算机技术—计算机系统结构]
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向龙芯3B1500体系结构的DGEMM函数优化
被引量:
3
2
作者
刘刚
张恒
毛睿
陆克中
机构
深圳大学计算机与软件学院
国家高性能计算中心深圳分中心
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第7期1523-1527,共5页
基金
国家"八六三"高技术研究发展计划项目(2012AA01A30904)资助
广东省院士工作站建设项目(2012B090500020)资助
文摘
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上.
关键词
龙芯3b1500处理器
b
LAS
DGEMM
矩阵乘法
数据预取
Keywords
Loongson
3
b
1500
processor
b
LAS
DGEMM
matrix multiplication
data prefetching
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于龙芯3B处理器的Linpack优化实现
刘刚
张恒
张滇
毛睿
《深圳大学学报(理工版)》
EI
CAS
北大核心
2014
3
下载PDF
职称材料
2
面向龙芯3B1500体系结构的DGEMM函数优化
刘刚
张恒
毛睿
陆克中
《小型微型计算机系统》
CSCD
北大核心
2014
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部