期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
龙芯3B的SIMD编译优化及分析 被引量:9
1
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 SIMD 自动向量化 builtin 龙芯3b
下载PDF
面向龙芯3B1500体系结构的DGEMM函数优化 被引量:3
2
作者 刘刚 张恒 +1 位作者 毛睿 陆克中 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1523-1527,共5页
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现... 双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上. 展开更多
关键词 龙芯3b1500处理器 bLAS DGEMM 矩阵乘法 数据预取
下载PDF
基于龙芯3B处理器的Linpack优化实现 被引量:3
3
作者 刘刚 张恒 +1 位作者 张滇 毛睿 《深圳大学学报(理工版)》 EI CAS 北大核心 2014年第3期286-292,共7页
HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B... HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右. 展开更多
关键词 计算机系统结构 龙芯3b处理器 线性系统软件包 矩阵乘法 数据预取
下载PDF
龙芯3B处理器上FFT算法向量化研究 被引量:5
4
作者 张杰 顾乃杰 张明 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1639-1643,共5页
龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.... 龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍. 展开更多
关键词 龙芯3b 优化算法 FFT 向量化
下载PDF
面向龙芯3B体系结构的FFTW库优化 被引量:1
5
作者 王小乐 顾乃杰 张明 《小型微型计算机系统》 CSCD 北大核心 2016年第3期622-626,共5页
龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,... 龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,从而在龙芯3B处理器上未能取得令人满意的性能.针对该问题本文采用MIPS汇编、乘加指令、向量化计算、Cooley-Tukey算法和实数类型实部虚部分开计算等多种优化方法对FFTW库进行优化.使用离散傅里叶通用的benchmark测试工具benchfft进行性能测试,实验结果表明,优化后比优化前性能平均提升45%左右,部分甚至超过100%,使FFTW在龙芯3B处理器上具有较高的性能. 展开更多
关键词 FFTW 龙芯3b MIPS 向量化
下载PDF
CC-NUMA架构下4路龙芯3B服务器设计与实现 被引量:2
6
作者 张鹏 《计算机工程与科学》 CSCD 北大核心 2018年第12期2141-2145,共5页
针对特定领域中服务器的高性能计算、高带宽通信以及自主可控需求,在分析龙芯3B3000处理器架构特点的基础上,设计了基于CC-NUMA并行处理架构的4路龙芯3B3000高性能服务器核心模块,通过使用TOE芯片提高了网络响应效率,同时大幅降低了10G... 针对特定领域中服务器的高性能计算、高带宽通信以及自主可控需求,在分析龙芯3B3000处理器架构特点的基础上,设计了基于CC-NUMA并行处理架构的4路龙芯3B3000高性能服务器核心模块,通过使用TOE芯片提高了网络响应效率,同时大幅降低了10G以太网接口对处理器资源的占用消耗,有效提高了服务器的综合性能。通过测试验证,该服务器能够实现高效的并行计算能力和10G以太网通信能力,且国产元器件种类占比和数量占比均可达95%以上。 展开更多
关键词 服务器 CC-NUMA 龙芯3b3000 TOE 自主可控
下载PDF
基于龙芯3B的循环规约算法向量化研究
7
作者 吴淅 黄章进 顾乃杰 《计算机工程》 CAS CSCD 2013年第2期293-298,共6页
研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量... 研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量化算法相比,向量化算法的性能提升较大。 展开更多
关键词 龙芯3b 三对角线性方程 循环规约算法 向量化 泊松方程 离散化
下载PDF
一种基于龙芯3B处理器的刀片式服务器系统 被引量:1
8
作者 马金伟 《电子技术(上海)》 2017年第12期17-18,13,共3页
文章以抗恶劣环境用电子信息系统平台的自主可控为背景,围绕龙芯3B处理器和中标麒麟操作系统,开展军用刀片式服务器的软硬件设计,突破基于龙芯3B处理器的DDR3内存扩展技术、服务器系统智能监控管理技术、万兆网络接口模块设计及驱动开... 文章以抗恶劣环境用电子信息系统平台的自主可控为背景,围绕龙芯3B处理器和中标麒麟操作系统,开展军用刀片式服务器的软硬件设计,突破基于龙芯3B处理器的DDR3内存扩展技术、服务器系统智能监控管理技术、万兆网络接口模块设计及驱动开发技术、刀片式服务器热设计及仿真技术等,基于国产关键软硬件构建了刀片式服务器,为新一代抗恶劣环境用计算设备的自主可控提供了技术支撑。 展开更多
关键词 龙芯3b 服务器 VPX PMON 中标麒麟
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部