期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
DRM:基于迭代归并策略的GPU并行SpMV存储格式
1
作者 王宇华 何俊飞 +2 位作者 张宇琪 徐悦竹 崔环宇 《计算机工程与科学》 CSCD 北大核心 2024年第3期381-394,共14页
稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在... 稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在GPU平台上提出的多种存储格式虽然使SpMV性能有所提升,但仍存在零填充和负载不平衡的问题。针对上述问题,提出了一种DRM存储格式,利用基于固定阈值的矩阵划分策略和基于迭代归并的矩阵重构策略,实现了少量零填充和块间负载平衡。实验结果表明,在NVIDIA■ Tesla■ V100平台上,相比于DIA、HDC、HDIA和DIA-Adaptive格式,在时间性能方面,该存储格式分别取得了20.76,1.94,1.13和2.26倍加速;在浮点计算性能方面,分别提高了1.54,5.28,1.13和1.94倍。 展开更多
关键词 GPU spmv 稀疏对角矩阵 零填充 负载平衡
下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式
2
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(spmv) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
下载PDF
SpMV计算的ARM和FPGA异构加速器设计
3
作者 朱明达 薛济擎 艾纯瑶 《电讯技术》 北大核心 2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格... 针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。 展开更多
关键词 稀疏矩阵向量乘(spmv) 异构加速器 硬件加速
下载PDF
基于HYB格式SpMV在新一代申威架构上的实现与优化
4
作者 王鑫 彭健 《计算机工程与科学》 CSCD 北大核心 2023年第10期1754-1762,共9页
稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的... 稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的HYB存储格式,面向国产新一代申威异构众核处理器SW26010P,设计了一种并行SpMV算法及其性能优化方案。并针对HYB存储格式的阈值选取难点,提出了一种多次迭代最大类间方差的方法,以确定HYB格式的阈值。实验结果表明,相比主核上的串行算法,并行SpMV算法可以获得23.36的平均加速比和34.85的最高加速比。 展开更多
关键词 申威众核处理器 稀疏矩阵向量乘法 最大类间方差法 并行计算
下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 被引量:10
5
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 spmv 申威26010处理器 异构众核并行 自适应优化
下载PDF
对角线稀疏矩阵的SpMV自适应性能优化 被引量:4
6
作者 孙相征 张云泉 +2 位作者 王婷 李焱 袁良 《计算机研究与发展》 EI CSCD 北大核心 2013年第3期648-656,共9页
稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区... 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X). 展开更多
关键词 CRSD 自适应性能优化spmv 对角线格式 对角线稀疏矩阵 GPU 科学应用
下载PDF
RAM(h)模型下SpMV存储访问复杂度的分析
7
作者 袁娥 张云泉 孙相征 《计算机工程与设计》 CSCD 北大核心 2009年第3期613-618,共6页
稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h... 稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致。 展开更多
关键词 spmv 稀疏矩阵向量乘 RAM(h)模型 存储访问复杂度
下载PDF
面向异构计算平台的SpMV划分优化算法研究 被引量:1
8
作者 谈兆年 计卫星 +3 位作者 Akrem Benatia 高建花 李安民 王一拙 《计算机工程与科学》 CSCD 北大核心 2019年第4期590-597,共8页
稀疏矩阵向量乘SpMV在科学计算和工程问题中有着广泛的应用。稀疏矩阵的非零元素分布会极大地影响SpMV的计算效率,针对不同的数据分布模式使用特定算法进行加速可以获得显著的性能提升。CPU的控制能力强,适用于通用计算,而GPU的计算核心... 稀疏矩阵向量乘SpMV在科学计算和工程问题中有着广泛的应用。稀疏矩阵的非零元素分布会极大地影响SpMV的计算效率,针对不同的数据分布模式使用特定算法进行加速可以获得显著的性能提升。CPU的控制能力强,适用于通用计算,而GPU的计算核心多,并行度高,适用于数据密集型计算。根据CPU和GPU的不同特点,充分发挥二者的优势,可以使SpMV获得更大的性能提升。研究CPU-GPU混合架构上SpMV的任务划分与优化方法,针对2种主要的稀疏矩阵数据分布模式:Quasi-diagonal和Tetris,提出了一种基于SVR的任务二次分配算法。研究的2种稀疏矩阵模式具有很好的代表性,在实际科学工程应用中占比达到66%。实验评测结果表明,采用本文的算法之后,与GPU相比,异构平台上Quasi-diagonal和Tetris的加速比平均值分别达到1.74×和2.15×。 展开更多
关键词 异构计算 矩阵划分 协同优化 SVR spmv
下载PDF
PELLR: A Permutated ELLPACK-R Format for SpMV on GPUs
9
作者 Zhiqi Wang Tongxiang Gu 《Journal of Computer and Communications》 2020年第4期44-58,共15页
The sparse matrix vector multiplication (SpMV) is inevitable in almost all kinds of scientific computation, such as iterative methods for solving linear systems and eigenvalue problems. With the emergence and developm... The sparse matrix vector multiplication (SpMV) is inevitable in almost all kinds of scientific computation, such as iterative methods for solving linear systems and eigenvalue problems. With the emergence and development of Graphics Processing Units (GPUs), high efficient formats for SpMV should be constructed. The performance of SpMV is mainly determinted by the storage format for sparse matrix. Based on the idea of JAD format, this paper improved the ELLPACK-R format, reduced the waiting time between different threads in a warp, and the speed up achieved about 1.5 in our experimental results. Compared with other formats, such as CSR, ELL, BiELL and so on, our format performance of SpMV is optimal over 70 percent of the test matrix. We proposed a method based on parameters to analyze the performance impact on different formats. In addition, a formula was constructed to count the computation and the number of iterations. 展开更多
关键词 spmv GPU STORAGE FORMAT HIGH PERFORMANCE
下载PDF
一种提高SpMV向量化性能的新型稀疏矩阵存储格式 被引量:4
10
作者 刘芳芳 杨超 《数值计算与计算机应用》 CSCD 2014年第4期269-276,共8页
稀疏矩阵向量乘(SpMV)是科学与工程计算中一个重要的核心函数,但在当前基于存储器层次结构的计算平台上,传统CSR(Compressed Sparse Row)存储的稀疏矩阵向量乘性能较低,运行效率往往远低于硬件浮点峰值的10%.目前现有的处理器架构一般... 稀疏矩阵向量乘(SpMV)是科学与工程计算中一个重要的核心函数,但在当前基于存储器层次结构的计算平台上,传统CSR(Compressed Sparse Row)存储的稀疏矩阵向量乘性能较低,运行效率往往远低于硬件浮点峰值的10%.目前现有的处理器架构一般都采用SIMD向量化技术进行加速,但是传统CSR格式的稀疏矩阵向量乘由于访存的不规则性,不能直接采用向量化技术进行加速,为了利用SIMD技术,对具有局部性特征的稀疏矩阵,提出了新的稀疏矩阵存储格式CSRL(Compressed Sparse Row with Local information),该格式可以减少SpMV时内存访问次数,并且能够充分利用硬件的SIMD向量化技术进行读取和计算,提高了SpMV性能.实验表明,该方法相比国际著名商业库Intel MKL10.3版平均性能提升达到29.5%,最高可达89%的性能提升. 展开更多
关键词 稀疏矩阵 稀疏矩阵向量乘 向量化 局部性 CSRL
原文传递
Memory bandwidth optimization of SpMV on GPGPUs
11
作者 Chenggang Clarence YAN Hui YU +5 位作者 Weizhi XU Yingping ZHANG Bochuan CHEN Zhu TIAN Yuxuan WANG Jian YIN 《Frontiers of Computer Science》 SCIE EI CSCD 2015年第3期431-441,共11页
It is an important task to improve performance for sparse matrix vector multiplication (SpMV), and it is a difficult task because of its irregular memory access. Gen- eral purpose GPU (GPGPU) provides high computi... It is an important task to improve performance for sparse matrix vector multiplication (SpMV), and it is a difficult task because of its irregular memory access. Gen- eral purpose GPU (GPGPU) provides high computing abil- ity and substantial bandwidth that cannot be fully exploited by SpMV due to its irregularity. In this paper, we propose two novel methods to optimize the memory bandwidth for SpMV on GPGPU. First, a new storage format is proposed to exploit memory bandwidth of GPU architecture more effi- ciently. The new storage format can ensure that there are as many non-zeros as possible in the format which is suitable to exploit the memory bandwidth of the GPU. Second, we pro- pose a cache blocking method to improve the performance of SpMV on GPU architecture. The sparse matrix is partitioned into sub-blocks that are stored in CSR format. With the block- ing method, the corresponding part of vector x can be reused in the GPU cache, so the time to access the global memory for vector x is reduced heavily. Experiments are carried out on three GPU platforms, GeForce 9800 GX2, GeForce GTX 480, and Tesla K40. Experimental results show that both new methods can efficiently improve the utilization of GPU mem- ory bandwidth and the performance of the GPU. 展开更多
关键词 GPGPU performance tuning spmv cacheblocking memory bandwidth
原文传递
一种针对GPU上的油藏数值模拟的高效SpMV 被引量:2
12
作者 李政 冯春生 张晨松 《数值计算与计算机应用》 CSCD 2016年第4期315-324,共10页
油藏数值模拟和很多其他科学计算问题一样需要求解大型稀疏线性代数方程组.在求解稀疏线性代数方程组的迭代法中,稀疏矩阵向量乘法(SpMV)是影响计算效率的核心函数之一.随着计算机硬件架构异构化,科学计算从单核、多核CPU计算架构逐渐... 油藏数值模拟和很多其他科学计算问题一样需要求解大型稀疏线性代数方程组.在求解稀疏线性代数方程组的迭代法中,稀疏矩阵向量乘法(SpMV)是影响计算效率的核心函数之一.随着计算机硬件架构异构化,科学计算从单核、多核CPU计算架构逐渐发展到多核CPU+众核加速卡(GPU卡或MIC等)的计算架构.SpMV的实现效率与稀疏矩阵的存储格式及硬件架构关系密切.本文针对油藏模拟中常见的Jacobian矩阵的稀疏模式,利用GPU核心的合并访问和并发计算等特点,结合油藏模拟线性解法器的算法要求,设计了一种BHYB矩阵存储格式及其对应的线程组并行策略.数值实验测得基于该存储格式的SpMV相对串行BCSR格式的SpMV的加速比可达19倍,比cuSPARSE库中效率最高的HYB格式的SpMV快30%到80%.此外,本文所提出的BHYB存储格式对块状矩阵在GPU上的存储以及线程组并行策略对其它GPU并行程序中内核函数的设计和优化能起到一定的借鉴作用. 展开更多
关键词 稀疏矩阵向量乘法 GPU BHYB 线程组并行策略
原文传递
基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化 被引量:7
13
作者 阳王东 李肯立 《计算机工程与科学》 CSCD 北大核心 2016年第2期202-209,共8页
稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应... 稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。 展开更多
关键词 GPU 稀疏矩阵 spmv CUDA 异构计算
下载PDF
国产异构系统上的HPCG并行算法及高效实现 被引量:1
14
作者 刘芳芳 王志军 +4 位作者 汪荃 吴丽鑫 马文静 杨超 孙家昶 《软件学报》 EI CSCD 北大核心 2021年第8期2341-2351,共11页
HPCG基准测试程序是一种新的超级计算机排名度量标准.该测试基准主要用于衡量超级计算机解决大规模稀疏线性系统的能力,更贴近实际应用,近年来广受关注.基于国产超级计算机研究异构众核并行HPCG软件具有非常重要的意义,其不仅可以提升... HPCG基准测试程序是一种新的超级计算机排名度量标准.该测试基准主要用于衡量超级计算机解决大规模稀疏线性系统的能力,更贴近实际应用,近年来广受关注.基于国产超级计算机研究异构众核并行HPCG软件具有非常重要的意义,其不仅可以提升国产超级计算机HPCG的排名,还对很多应用提供了并行算法、优化技术等方面的参考.面向某国产复杂异构超级计算机开展研究,首先采用了分块图着色算法对HPCG进行并行,并提出一种适用于结构化网格的图着色算法.该算法并行性能高于传统的JPL、CC等算法,且着色质量高,运用于HPCG后,迭代次数减少了3次,整体性能提升了6%.分析了复杂异构系统各个部件传输的开销,提出一套更适用于HPCG的任务划分方法,并从稀疏矩阵存储格式、稀疏矩阵重排、访存等角度开展了细粒度的优化.在多进程计算时,还采用内外区划分算法将核心函数SpMV、SymGS中的邻居通信操作进行了隐藏.最终整机测试时,性能达到了国产超级计算机峰值性能的1.67%,与单节点相比,整机弱可扩展性并行效率达到了92%. 展开更多
关键词 HPCG 国产超级计算机 图着色 spmv SymGS
下载PDF
永磁游标电机的研究及其优化 被引量:2
15
作者 刘福贵 罗丹 +2 位作者 杨乾坤 李宁宁 王彦刚 《微特电机》 北大核心 2017年第11期6-9,共4页
针对双极性表贴式永磁游标(SPMV)电机永磁体利用率低、涡流损耗大等问题,采用单极性转子的电机结构,并在调磁齿槽中内嵌一层极性相同的永磁体,以提高电机性能。使用Ansoft软件对双极性SPMV电机的理论推导的正确性进行验证,并对比分析了... 针对双极性表贴式永磁游标(SPMV)电机永磁体利用率低、涡流损耗大等问题,采用单极性转子的电机结构,并在调磁齿槽中内嵌一层极性相同的永磁体,以提高电机性能。使用Ansoft软件对双极性SPMV电机的理论推导的正确性进行验证,并对比分析了双极性SPMV电机和单极性IPMV电机,得出单极性IPMV电机永磁体利用率高、损耗小,但它的转矩下降约12 N·m,比双极性SPMV电机减小约23.1%。为提高转矩,在单极性IPMV电机的调磁齿槽中内嵌永磁体并对嵌入的永磁体厚度进行优化,得出厚度为4 mm时,转矩比双极性SPMV电机和单极性IPMV电机的分别提高约26 N·m和38 N·m,增加了约50%和95%,永磁体涡流损耗比双极性SPMV电机减小约20 W,降低了10%。 展开更多
关键词 永磁游标电机 双极性spmv电机 单极性IPMV电机 单极性双层IPMV电机 转矩 永磁体涡流损耗 ANSOFT
下载PDF
选择稀疏矩阵乘法最优存储格式的研究 被引量:10
16
作者 李佳佳 张秀霞 +1 位作者 谭光明 陈明宇 《计算机研究与发展》 EI CSCD 北大核心 2014年第4期882-894,共13页
稀疏矩阵向量乘法(sparse matrix vector multiplication,SpMV)是科学和工程领域中重要的核心子程序之一,也是稀疏基本线性代数子程序(basic linear algebra subprograms,BLAS)库的重要函数.目前很多SpMV的优化工作在不同程度上获... 稀疏矩阵向量乘法(sparse matrix vector multiplication,SpMV)是科学和工程领域中重要的核心子程序之一,也是稀疏基本线性代数子程序(basic linear algebra subprograms,BLAS)库的重要函数.目前很多SpMV的优化工作在不同程度上获得了性能提升,但大多数优化工作针对特定存储格式或一类具有特定特征的稀疏矩阵缺乏通用性,因此高性能的SpMV实现并没有广泛地应用于实际应用和数值解法器中.另外,稀疏矩阵具有众多存储格式,不同存储格式的SpMV存在较大性能差异.根据以上现象,提出一个SpMV的自动调优器(SpMV auto-tuner,SMAT).对于一个给定的稀疏矩阵,SMAT结合矩阵特征选择并返回其最优的存储格式,应用程序通过调用SMAT来得到合适的存储格式,从而获得性能提升,同时随着SMAT中存储格式的扩展,更多的SpMV优化工作可以将性能优势在实际应用中发挥作用.使用佛罗里达大学的2 366个稀疏矩阵作为测试集,在Intel上SMAT分别获得9.11GFLOPS(单精度)和2.44GFLOPS(双精度)的最高浮点性能,在AMD平台上获得了3.36GFLOPS(单精度)和1.52GFLOPS(双精度)的最高浮点性能.相比Intel的核心数学函数库(math kernel library,MKL)数学库,SMAT平均获得1.4~1.5倍的性能提升. 展开更多
关键词 spmv 自动调优 数值解法器 稀疏矩阵 SpBLAS
下载PDF
基于RISC-V向量指令的稀疏矩阵向量乘法实现与优化 被引量:4
17
作者 顾越 赵银亮 《计算机工程与科学》 CSCD 北大核心 2022年第1期1-8,共8页
开源指令集架构RISC-V具有高性能、模块化、简易性和易拓展等优势,在物联网、云计算等领域的应用日渐广泛,其向量拓展部分V模块更是很好地支持了矩阵数值计算。稀疏矩阵向量乘法SpMV作为矩阵数值计算的一个重要组成部分,具有深刻的研究... 开源指令集架构RISC-V具有高性能、模块化、简易性和易拓展等优势,在物联网、云计算等领域的应用日渐广泛,其向量拓展部分V模块更是很好地支持了矩阵数值计算。稀疏矩阵向量乘法SpMV作为矩阵数值计算的一个重要组成部分,具有深刻的研究意义与价值。利用RISC-V指令集的向量可配置性和寻址特性,分别对基于CSR、ELLPACK和HYB压缩格式存储的稀疏矩阵向量乘法进行向量化。同时,考虑稀疏矩阵极度稀疏和每行非零元素数量波动较大的情况,通过压缩非零元素密度低的行向量的存储、调整HYB分割阈值等手段,改进了HYB存储格式,显著改善了计算效率和存储效率。 展开更多
关键词 RISC-V 向量拓展 稀疏矩阵 spmv
下载PDF
基于FPGA的稀疏矩阵向量乘的设计研究 被引量:8
18
作者 张禾 陈客松 《计算机应用研究》 CSCD 北大核心 2014年第6期1756-1759,共4页
作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。... 作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。在一维划分的行压缩稀疏矩阵数据存储技术以及计算部件的流水化设计的基础上,提出了一种基于单个浮点加法器的无阻塞累加器设计。通过实验验证表明,简化了算法的设计提高了算法执行的并行度和外部存储器的带宽利用率,获得了相对于传统处理器1.37-2.60倍的性能加速比。 展开更多
关键词 稀疏矩阵向量乘 现场可编程逻辑门阵列 可重构计算 并行算法
下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 被引量:3
19
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期118-124,共7页
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图... 矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(GPGPU) 主特征向量计算 稀疏矩阵向量乘 线程优化
下载PDF
准对角矩阵与向量相乘在CPU+GPU异构集群上的实现与优化 被引量:2
20
作者 阳王东 李肯立 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1659-1664,共6页
稀疏矩阵与向量相乘(Sp MV)是科学计算和工程应用中一个重要问题,而且非常适宜进行并行计算,目前在GPU对Sp M V的实现和优化是一个研究热点.针对准对角矩阵存在的一些不规则性,采用CSR+DLA混合存储格式来进行Sp M V计算,能够提高压缩的... 稀疏矩阵与向量相乘(Sp MV)是科学计算和工程应用中一个重要问题,而且非常适宜进行并行计算,目前在GPU对Sp M V的实现和优化是一个研究热点.针对准对角矩阵存在的一些不规则性,采用CSR+DLA混合存储格式来进行Sp M V计算,能够提高压缩的效果.为了发挥CPU多核的并行计算能力,采用一种CPU+GPU混合计算模式,这样可以把混合存储格式不同格式的数据分割到CPU和GPU上,从而提高了资源的利用效能.本文另外还在分析CPU+GPU异构计算模式的特征基础上,提出一些优化策略,能够改进准对角矩阵与向量相乘在异构计算环境中的计算性能. 展开更多
关键词 图形处理芯片 稀疏矩阵 稀疏矩阵与向量相乘 异构计算
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部