期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于国产ARM架构CPU的导航卫星精密定轨解算效率优化方法
1
作者 廖敏 唐成盼 +5 位作者 周善石 陈建兵 胡小工 冯学斌 陈桂根 李凯 《大地测量与地球动力学》 CSCD 北大核心 2024年第4期366-371,共6页
以国产飞腾CPU为例,讨论在国产ARM架构CPU基础上的导航卫星精密定轨解算效率优化方法。基于导航卫星精密定轨解算流程中钟差约化和法方程求逆耗时较多,分别利用多线程和OpenBlas对上述2个过程进行优化。结果表明,优化后解算效率大幅提... 以国产飞腾CPU为例,讨论在国产ARM架构CPU基础上的导航卫星精密定轨解算效率优化方法。基于导航卫星精密定轨解算流程中钟差约化和法方程求逆耗时较多,分别利用多线程和OpenBlas对上述2个过程进行优化。结果表明,优化后解算效率大幅提升。钟差约化方面,采用100个测站32颗导航卫星进行解算时,原始单历元平均耗时1.105 s,优化后为0.188 s;法方程求逆方面,原始求逆平均耗时2 264 s,优化后仅需78 s。 展开更多
关键词 精密定轨 ARM架构CPU 多线程 openblas
下载PDF
面向ARMv8 64位多核处理器的QGEMM设计与实现 被引量:3
2
作者 姜浩 杜琦 +4 位作者 郭敏 全哲 左克 王锋 杨灿群 《计算机学报》 EI CSCD 北大核心 2017年第9期2018-2029,共12页
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能... 该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性. 展开更多
关键词 ARMv8 64位多核处理器 QGEMM 四精度 double—double数据格式 LONG double数据格式 openblas
下载PDF
面向ARMv8 64位多核处理器QTRSM的实现 被引量:1
3
作者 杜琦 姜浩 +2 位作者 李宽 彭林 杨灿群 《计算机工程与科学》 CSCD 北大核心 2017年第3期451-457,共7页
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加... 在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。 展开更多
关键词 ARMv8 64位多核处理器 openblas 四精度 double-double数据格式 QTRSM
下载PDF
Scientific scripting in Java with JShellLab and application to deep learning using DeepLearning4j
4
作者 Stergios Papadimitriou 《International Journal of Modeling, Simulation, and Scientific Computing》 EI 2020年第4期139-153,共15页
JShellLab is an easy to use MATLAB-like environment for the Java Virtual Machine(JVM).It implements scientific scripting based on the JShell Application Programming Interface(API)of modern Java.The paper illustrates t... JShellLab is an easy to use MATLAB-like environment for the Java Virtual Machine(JVM).It implements scientific scripting based on the JShell Application Programming Interface(API)of modern Java.The paper illustrates that JShellLab can significantly facilitate and simplify the development of complex computational demanding scientific software at the JVM.The novelty at the JShellLab is that it completely hides the complexity and the intricate dependencies of optimized scientific software.As an example,the demanded field of deep learning is exploited.Specifically,the implementation of effective practical deep learning-based systems using the JShellLab environment and the Deeplearning4j Java library is considered. 展开更多
关键词 Deep learning java virtual machine scientific scripting openblas convolutional neural networks.
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部