期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于 Pentium Pro 的高性能 BLAS 的设计与实现 被引量:4
1
作者 李忠泽 陈瑾 +1 位作者 龙翔 李未 《北京航空航天大学学报》 EI CAS CSCD 北大核心 1998年第4期455-457,共3页
支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对PentiumPro的体系结构特点,提出了一些优化方法使得BLAS在PentiumPro上计算性能达到最佳.测试表明,在200MH... 支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对PentiumPro的体系结构特点,提出了一些优化方法使得BLAS在PentiumPro上计算性能达到最佳.测试表明,在200MHz的PentiumPro上BLAS3的速度可达112Mflops. 展开更多
关键词 寄存器 基本线性代数 子程序 BLAS 循环展开
下载PDF
弹道跟踪数据融合处理的快速算法 被引量:3
2
作者 李冬 孙杰 《飞行器测控学报》 CSCD 2015年第4期368-373,共6页
针对弹道跟踪数据融合处理中的大计算量环节研究了快速算法。用样条函数表示弹道参数,建立了多测元的联合观测模型和弹道参数的非线性融合计算模型,给出了弹道参数的求解算法,分析了弹道参数融合计算中的大型矩阵运算问题,利用基础线性... 针对弹道跟踪数据融合处理中的大计算量环节研究了快速算法。用样条函数表示弹道参数,建立了多测元的联合观测模型和弹道参数的非线性融合计算模型,给出了弹道参数的求解算法,分析了弹道参数融合计算中的大型矩阵运算问题,利用基础线性代数函数库提高了大型矩阵的运算速度。建立了样条模型计算的非线性约束优化模型,给出了确定样条节点位置的优化算法,通过分析样条模型的计算原理设计了并行算法,实现了样条模型的并行化计算。仿真结果表明,弹道参数融合计算和样条模型计算的效率都得到了显著提高,计算时间减少了65.47%,对缩短数据处理周期有重要意义。 展开更多
关键词 弹道跟踪数据 融合处理 快速算法 基础线性代数函数库 并行算法
下载PDF
并行计算通信库测试方法研究及实践
3
作者 熊玉庆 张云泉 《软件学报》 EI CSCD 北大核心 2000年第12期1681-1684,共4页
并行计算通信库的测试在并行计算系统中起着重要的作用 .对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试 .但是有许多库中的错误用这种隔离测试方法测不出来 ,只有当库的多个部分以某种复杂的、... 并行计算通信库的测试在并行计算系统中起着重要的作用 .对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试 .但是有许多库中的错误用这种隔离测试方法测不出来 ,只有当库的多个部分以某种复杂的、有机的方式组合运行时才会暴露出来 .而这种复杂的、有机的组合方式 ,从设计库的测试角度看很难形成 .提出两种新的测试方法 ,根据通信库结构的分层特性 ,利用可移植的上层库的测试程序来测试下层库 .上层库的测试程序也可看做是下层库的应用程序 ,但与一般的下层库应用程序不同 ,它几乎覆盖了下层库的各个部分 ,且有机地将它们组合起来 ,运行时形成某种复杂的形态 ,而仅用下层库的测试程序往往达不到这种形态 .这样 。 展开更多
关键词 测试方法 并行计算通信库 并行计算系统
下载PDF
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化 被引量:9
4
作者 龚鸣清 叶煌 +2 位作者 张鉴 卢兴敬 陈伟 《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指... 针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。 展开更多
关键词 ARMv8 单指令多数据流计算 基础线性代数子程序库 高性能计算
下载PDF
基于申威1621的通用矩阵向量乘法的性能分析与优化 被引量:1
5
作者 邓洁 赵荣彩 王磊 《计算机应用》 CSCD 北大核心 2022年第S01期215-220,共6页
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一... 通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。 展开更多
关键词 申威1621 基础线性代数子程序函数库 单指令多数据流 通用矩阵向量乘法 性能优化
下载PDF
基于申威1621处理器的BLAS一级函数优化 被引量:1
6
作者 李浩然 王磊 《计算机系统应用》 2021年第7期246-252,共7页
BLAS(Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准,该库函数分为三个级别,每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算.本文研究了在申威1621处理器上BLAS一级函数... BLAS(Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准,该库函数分为三个级别,每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算.本文研究了在申威1621处理器上BLAS一级函数的优化方案,以函数AXPY为例,充分利用平台的架构特点对其进行性能调优,设计了自动的线程分配方案.实验结果显示优化过后的BLAS一级函数AXPY相对于GotoBLAS参考实现版本的单核和多核加速比分别高达4.36和9.50,对于每种优化方式均得到了一定的性能提升. 展开更多
关键词 申威1621 BLAS 并行 线程分配 SIMD向量化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部