期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
1
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 blas 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
2
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 blas 1级 blas 2级 访存带宽 SW26010-Pro众核处理器 RMA通信 点对点同步 自适应优化
下载PDF
文本解读与历史研究——以古藏文中的词语chu Gang、lta zhig、rje blas为例
3
作者 南吉加 《青海民族大学学报(藏文版)》 2023年第1期84-100,共17页
古藏文中的chu Gang、lta zhig、rje blas等三个词语,屡次出现在吐蕃时期的石碑文、敦煌文、简牍文等中,在后期的部分《甘珠尔》《丹珠尔》文献中,也以变异或拆解的形式出现多次。通过古藏文学者对此类词语的解读和辨认,解答了chu Gang... 古藏文中的chu Gang、lta zhig、rje blas等三个词语,屡次出现在吐蕃时期的石碑文、敦煌文、简牍文等中,在后期的部分《甘珠尔》《丹珠尔》文献中,也以变异或拆解的形式出现多次。通过古藏文学者对此类词语的解读和辨认,解答了chu Gang、lta zhig、rje blas等三个词语的部分含义。但随着文字考古研究的不断深入,古藏文的文化及阐释语境有了更大的拓展,也给研究古藏文的学者们提供了更全面的阐释空间。比如:古藏文chu Gang一词,在吐蕃时期仅用来表达君臣之间的忠信关系,至后宏时期其意义逐渐延伸,可以指称婚姻里的忠诚与信任,因此不能将其单纯地理解为英勇忠良之意;而lta zhi一词的语义不断虚化,逐渐具有了介词和虚词的功能,其所指也因语句搭配而发生变化,一味地将其解释为“他”或“他本人”是不准确的;通过词语考究和语素分析发现,rje dlas一词中的“rje”指的是君王,而“dlas”(藏文dlas后来作slas)则指帐中亲信,因此,rje dlas一词可以用来表达忠诚侍奉君王的一种责任和义务,rje dlas一词的这一含义也被后来的历史叙事所继承,部分教法史在叙述“六大决议法”(bkav gros chen mo)时,常以“保护赞普,不遗余力地侍奉”(rjevi sku vtsho zhing zho sha blar dbul)来扩解rje dlas一词。 展开更多
关键词 古藏文 解读 chu Gang lta zhig rje blas
下载PDF
基于龙芯2F体系结构的BLAS库优化 被引量:13
4
作者 顾乃杰 李凯 +1 位作者 陈国良 吴超 《中国科学技术大学学报》 CAS CSCD 北大核心 2008年第7期854-859,共6页
在KD-50-I平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测... 在KD-50-I平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测试表明,高性能BLAS在750 MHz的龙芯2F处理器(双精度浮点峰值3 Gflops)上HPL实测峰值达到1.47 GHz,比原始BLAS提高了6倍以上,比ATLAS提高了45%. 展开更多
关键词 blas 龙芯2F KD-50-Ⅰ 数据预取 指令调度
下载PDF
面向龙芯3A体系结构的BLAS库优化 被引量:8
5
作者 何颂颂 顾乃杰 +1 位作者 朱海涛 刘燕君 《小型微型计算机系统》 CSCD 北大核心 2012年第3期571-575,共5页
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替... 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多. 展开更多
关键词 矩阵乘法 blas 任务划分 LINPACK
下载PDF
基于 Pentium Pro 的高性能 BLAS 的设计与实现 被引量:4
6
作者 李忠泽 陈瑾 +1 位作者 龙翔 李未 《北京航空航天大学学报》 EI CAS CSCD 北大核心 1998年第4期455-457,共3页
支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对PentiumPro的体系结构特点,提出了一些优化方法使得BLAS在PentiumPro上计算性能达到最佳.测试表明,在200MH... 支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对PentiumPro的体系结构特点,提出了一些优化方法使得BLAS在PentiumPro上计算性能达到最佳.测试表明,在200MHz的PentiumPro上BLAS3的速度可达112Mflops. 展开更多
关键词 寄存器 基本线性代数 子程序 blas 循环展开
下载PDF
基于申威1600的3级BLAS GEMM函数优化 被引量:10
7
作者 刘昊 刘芳芳 +2 位作者 张鹏 杨超 蒋丽娟 《计算机系统应用》 2016年第12期234-239,共6页
BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指... BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库Goto BLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍. 展开更多
关键词 申威1600 三级blas GEMM 高性能计算 多核
下载PDF
高性能BLAS在类Beowulf机群系统上的实现 被引量:4
8
作者 吴少刚 许解峰 +1 位作者 杨耀忠 任钢 《小型微型计算机系统》 CSCD 北大核心 2001年第8期897-900,共4页
Beowulf计划关于“基于 COTS技术以满足特殊计算需要”的思想使得机群计算成为高性能计算的一个重要流派 .本文针对类 Beowulf机群的 Intel微处理器特点 ,讨论了 BL AS的优化技术 ,在以软件 DSM系统作为并行编程环境的类
关键词 机群系统 blas 软件DSM 计算机系统 类Beowulf机群系统 体系结构
下载PDF
多核龙芯3A上二级BLAS库的优化 被引量:8
9
作者 李毅 何颂颂 李恺 《计算机系统应用》 2011年第1期163-167,共5页
针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右... 针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助。 展开更多
关键词 龙芯3A blas 优化 Gemv GER 访存 多线程
下载PDF
FitenBLAS:面向FT1000微处理器的高性能线性代数库
10
作者 迟利华 刘杰 +5 位作者 晏益慧 谢林川 甘新标 胡庆丰 蒋杰 李胜国 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第4期100-106,共7页
BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目... BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目,设计了向量与向量、矩阵与向量和矩阵与矩阵运算的多级循环展开方法,采用指令调度、数据预取等通用优化技术,优化BLAS库串行程序.对于BLAS3子程序,设计了矩阵乘无冗余数据拷贝分块算法,采用指令重排、访存与计算的重叠、分块等技术优化矩阵乘子程序,基于矩阵乘子程序实现了其他BLAS3子程序.研制了汇编线性代数程库FitenBLAS,其核心子程序矩阵乘的双精度计算性能达到6.91Gflops,是峰值性能的86.4%. 展开更多
关键词 FT1000微处理器 blas 性能优化
下载PDF
优化的BLAS对并行程序性能的影响
11
作者 龙翔 李忠泽 陈瑾 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2001年第1期79-82,共4页
利用SMP结构的多处理器结点通过高速网络构造高性能并行计算系统是当前的一种发展趋势 .为了使BLAS在SMP结点上具有更高的效率 ,本文讨论了BLAS3的多线程化问题 ;同时以SUMMA作为并行计算的实例 ,说明提高结点机程序的性能对并行计算性... 利用SMP结构的多处理器结点通过高速网络构造高性能并行计算系统是当前的一种发展趋势 .为了使BLAS在SMP结点上具有更高的效率 ,本文讨论了BLAS3的多线程化问题 ;同时以SUMMA作为并行计算的实例 ,说明提高结点机程序的性能对并行计算性能的影响 .试验结果显示 ,在一定的条件下 ,多线程BLAS3在SMP平台上可以获得超线性加速比 ;结点计算性能的提高的同时必须提高网络有效带宽 ,才能充分发挥并行计算的效能 . 展开更多
关键词 并行处理 线性代数 最佳化 并行计算 多线程 blas SUMMA
下载PDF
基于申威众核处理器的1、2级BLAS函数优化研究 被引量:5
12
作者 孙家栋 孙乔 +1 位作者 邓攀 杨超 《计算机系统应用》 2017年第11期101-108,共8页
BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1... BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1、2级函数的并行实现,并充分利用平台特性对它们进行深度的性能调优,归纳总结程序在申威平台上的并行实现与优化技巧.申威26010 CPU采用了异构众核架构,众多计算核心提供的大规模并行处理能力,使单块芯片具有3 TFLOPS的双精度浮点计算性能.实验结果显示BLAS-1、2级函数相对于Goto BLAS参考实现版的平均加速比分别高达11.x和6.x,对于每一优化手段,均有明显的性能加速. 展开更多
关键词 blas 异构众核 任务并行 simd向量化
下载PDF
一种基于遗传算法的BLAS库优化方法 被引量:2
13
作者 孙成国 兰静 姜浩 《计算机工程与科学》 CSCD 北大核心 2018年第5期798-804,共7页
基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个... 基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个体)所对应的稠密矩阵乘法的性能值作为该个体的适应度,通过不断迭代地进行选择、交叉、变异操作,找到最优的分块参数组合,使得稠密矩阵运算的性能值最优。数值实验表明,基于遗传算法求解得出最优分块参数下的GEMM性能值优于默认分块参数下的性能值,达到了优化的目的。 展开更多
关键词 blas GEMM 遗传算法 自动调优
下载PDF
基于CombBLAS的同辈压力图聚类并行算法的设计与实现 被引量:2
14
作者 邹佩钢 陈军 《计算机工程与科学》 CSCD 北大核心 2017年第3期424-429,共6页
图聚类是指把图中相对连接紧密的顶点及其相关的边分组形成一个子图的过程,在包括机器学习、数据挖掘、模式识别、图像分析及生物信息等领域有着广泛应用。但是,随着大数据时代的到来,图数据海量增长。面对广泛的大规模图计算需求,由于... 图聚类是指把图中相对连接紧密的顶点及其相关的边分组形成一个子图的过程,在包括机器学习、数据挖掘、模式识别、图像分析及生物信息等领域有着广泛应用。但是,随着大数据时代的到来,图数据海量增长。面对广泛的大规模图计算需求,由于图结构本身的不规则性,单机算法运行效率低下,用传统的并行计算方法进行图计算难以获得高性能。使用线性代数的方法在Combinatorial BLAS上实现了同辈压力(Peer Pressure)图聚类的分布式算法,首先将该图聚类的算法转换为对稀疏矩阵的运算,从而结构化表示图的不规则数据结构及接入模式,然后基于MPI编程模型将其并行实现。实验结果表明,在并行处理规模达到43亿的由稀疏矩阵表示的超大规模图时,基于线性代数表示的同辈压力图聚类算法在曙光超级计算机上取得了较高的并行性能及良好的可扩展性,在64个核上获得了40.1的并行加速。 展开更多
关键词 图计算 同辈压力聚类 并行 Combinatorial blas 稀疏矩阵 大规模图 MPI
下载PDF
基于龙芯3A2000处理器的高性能Goto BLAS库的实现 被引量:1
15
作者 张华亮 黄启印 吴少校 《高技术通讯》 CAS CSCD 北大核心 2016年第10期825-832,共8页
用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方... 用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略。在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%。优化方案在本实验中取得了显著的效果。 展开更多
关键词 Goto blas 性能优化 LINPACK 矩阵运算 数据预取
下载PDF
基于FPGA的BLAS加速系统的设计与研究 被引量:2
16
作者 许焱 杨滨 《微计算机信息》 2009年第20期137-139,共3页
采用FPGA来加速应用软件的关键算法执行,是一种有效的提高计算机系统运算速度的方法。通过把高性能计算算法中固有的并行运算部分硬件化来实现应用加速。本文主要讨论使用FPGA来实现BLAS数学库的加速,对其中最耗时的dgemm算法做了加速,... 采用FPGA来加速应用软件的关键算法执行,是一种有效的提高计算机系统运算速度的方法。通过把高性能计算算法中固有的并行运算部分硬件化来实现应用加速。本文主要讨论使用FPGA来实现BLAS数学库的加速,对其中最耗时的dgemm算法做了加速,并且设计了基于FPGA的加速系统。 展开更多
关键词 blas HPL 加速 数学库
下载PDF
基于申威1621处理器的BLAS一级函数优化 被引量:1
17
作者 李浩然 王磊 《计算机系统应用》 2021年第7期246-252,共7页
BLAS(Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准,该库函数分为三个级别,每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算.本文研究了在申威1621处理器上BLAS一级函数... BLAS(Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准,该库函数分为三个级别,每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算.本文研究了在申威1621处理器上BLAS一级函数的优化方案,以函数AXPY为例,充分利用平台的架构特点对其进行性能调优,设计了自动的线程分配方案.实验结果显示优化过后的BLAS一级函数AXPY相对于GotoBLAS参考实现版本的单核和多核加速比分别高达4.36和9.50,对于每种优化方式均得到了一定的性能提升. 展开更多
关键词 申威1621 blas 并行 线程分配 SIMD向量化
下载PDF
异构HPL算法中CPU端高性能BLAS库优化 被引量:2
18
作者 蔡雨 孙成国 +3 位作者 杜朝晖 刘子行 康梦博 李双双 《软件学报》 EI CSCD 北大核心 2021年第8期2289-2306,共18页
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整... 异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(basic linear algebra subprograms)函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like library instantiation software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了异构环境下优化的BLIS算法库HBLIS.与MKL相比,HPL整体性能提高了11.8%. 展开更多
关键词 blas 遗传算法auto-tuning 向量化指令 数据预取 多线程并行
下载PDF
矩阵乘协处理器上BLAS level-3运算的设计
19
作者 贾迅 钱磊 +2 位作者 原昊 张昆 吴东 《计算机工程与科学》 CSCD 北大核心 2020年第11期1913-1921,共9页
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩... BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level-3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。 展开更多
关键词 线性阵列 矩阵乘 协处理器 blas level-3
下载PDF
基于申威1621的高精度点积算法实现与优化
20
作者 徐方洁 王磊 +1 位作者 王一卓 张亚光 《计算机系统应用》 2023年第2期400-405,共6页
点积函数是BLAS库中的一级基础函数,其被科学计算等领域广泛调用.由于浮点计算会引入舍入误差,现有BLAS库中双精度点积函数不足以满足某些应用领域的精度要求,因此需要高精度算法来实现更精确可靠的计算.在本文中,面向国产申威1621平台... 点积函数是BLAS库中的一级基础函数,其被科学计算等领域广泛调用.由于浮点计算会引入舍入误差,现有BLAS库中双精度点积函数不足以满足某些应用领域的精度要求,因此需要高精度算法来实现更精确可靠的计算.在本文中,面向国产申威1621平台,在现有的BLAS库的基础上,新增高精度点积函数的实现接口,来满足应用的高精度需求.同时,对于高精度点积算法运用循环展开、访存优化、指令重排等优化策略,实现汇编级手工优化.实验结果显示,文中高精度点积算法的计算结果精度,近似达到了双精度点积的两倍,有效提升了原始算法精度.同时,在保证精度提升的基础上,文中优化后的高精度点积函数相比未优化前,平均性能加速比达到了1.61. 展开更多
关键词 申威1621 点积 高精度 blas库接口 性能优化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部