题名 龙芯3B的SIMD编译优化及分析
被引量:9
1
作者
彭飞
顾乃杰
高翔
孙明明
机构
中国科学技术大学计算机科学与技术学院
安徽省计算与通信软件重点实验室
中国科学技术大学-中国科学院沈阳计算所网络与通信联合实验室
中国科学院计算技术研究所微处理器研究中心
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2733-2737,共5页
基金
国家"核高基"重大专项课题项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
文摘
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现.
关键词
编译优化
SIMD
自动向量化
Builtin
龙芯3b
Keywords
compiler optimization
SIMD
auto-vectorization
builtin
godson -3b
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
题名 龙芯3B处理器上FFT算法向量化研究
被引量:7
2
作者
张杰
顾乃杰
张明
机构
中国科学技术大学计算机科学技术学院
中国科学技术大学安徽省计算与通信软件重点实验室
中国科学技术大学先进技术研究院
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第7期1639-1643,共5页
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
高等学校学科创新引智计划项目(B07033)资助
文摘
龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍.
关键词
龙芯3b
优化算法
FFT
向量化
Keywords
godson -3b
optimization method
FFT
vectorization
分类号
TP303
[自动化与计算机技术—计算机系统结构]
题名 基于龙芯3B的循环规约算法向量化研究
3
作者
吴淅
黄章进
顾乃杰
机构
中国科学技术大学计算机科学与技术学院
安徽省计算与通讯软件重点实验室
中国科学技术大学与中国科学院沈阳计算技术研究所网络与通信联合实验室
出处
《计算机工程》
CAS
CSCD
2013年第2期293-298,共6页
基金
国家自然科学基金资助项目(60833004)
"核高基"重大专项(2009ZX01028-002-003-005)
高等学校学科创新引智计划基金资助项目(B07033)
文摘
研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量化算法相比,向量化算法的性能提升较大。
关键词
龙芯3b
三对角线性方程
循环规约算法
向量化
泊松方程
离散化
Keywords
godson 3b
tri-diagonal linear equation
cyclic reduction algorithm
vectorization
Poisson equation
discretization
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于龙芯3B的H.264解码器的向量化
被引量:3
4
作者
裴晓航
何颂颂
机构
中国科学技术大学计算机科学与技术学院
出处
《电子技术(上海)》
2010年第10期88-90,76,共4页
基金
自然科学基金(60833004)
国家863计划项目(2008AA010902)
文摘
本文实现了ffmpeg解码器到龙芯3B平台的移植,并针对龙芯3B所支持的向量扩展指令,对ffmpeg解码器进行了向量化。实验结果表明:实现向量化的ffmpeg解码器,其性能比使用GCC向量化编译得到的ffmpeg解码器具有更好的性能,而且性能提升的比率比在一些商业平台上更大。
关键词
H.264
FFMPEG
解码器
godson 3b
向量化
Keywords
H.264
ffmepg
decoder
godson 3b
vectorization
分类号
TN01
[电子电信—物理电子学]