题名 龙芯3B的SIMD编译优化及分析
被引量:9
1
作者
彭飞
顾乃杰
高翔
孙明明
机构
中国科学技术大学计算机科学与技术学院
安徽省计算与通信软件重点实验室
中国科学技术大学-中国科学院沈阳计算所网络与通信联合实验室
中国科学院计算技术研究所微处理器研究中心
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2733-2737,共5页
基金
国家"核高基"重大专项课题项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
文摘
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现.
关键词
编译优化
SIMD
自动向量化
b uiltin
龙芯3 b
Keywords
compiler optimization
SIMD
auto-vectorization
b uiltin
godson-3b
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
题名 龙芯3B处理器上FFT算法向量化研究
被引量:7
2
作者
张杰
顾乃杰
张明
机构
中国科学技术大学计算机科学技术学院
中国科学技术大学安徽省计算与通信软件重点实验室
中国科学技术大学先进技术研究院
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第7期1639-1643,共5页
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
高等学校学科创新引智计划项目(B07033)资助
文摘
龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍.
关键词
龙芯3 b
优化算法
FFT
向量化
Keywords
godson-3b
optimization method
FFT
vectorization
分类号
TP303
[自动化与计算机技术—计算机系统结构]
题名 基于龙芯3B的循环规约算法向量化研究
3
作者
吴淅
黄章进
顾乃杰
机构
中国科学技术大学计算机科学与技术学院
安徽省计算与通讯软件重点实验室
中国科学技术大学与中国科学院沈阳计算技术研究所网络与通信联合实验室
出处
《计算机工程》
CAS
CSCD
2013年第2期293-298,共6页
基金
国家自然科学基金资助项目(60833004)
"核高基"重大专项(2009ZX01028-002-003-005)
高等学校学科创新引智计划基金资助项目(B07033)
文摘
研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量化算法相比,向量化算法的性能提升较大。
关键词
龙芯3 b
三对角线性方程
循环规约算法
向量化
泊松方程
离散化
Keywords
Godson 3 b
tri-diagonal linear equation
cyclic reduction algorithm
vectorization
Poisson equation
discretization
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]