期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
Performance Prediction Based on Statistics of Sparse Matrix-Vector Multiplication on GPUs 被引量:1
1
作者 Ruixing Wang Tongxiang Gu Ming Li 《Journal of Computer and Communications》 2017年第6期65-83,共19页
As one of the most essential and important operations in linear algebra, the performance prediction of sparse matrix-vector multiplication (SpMV) on GPUs has got more and more attention in recent years. In 2012, Guo a... As one of the most essential and important operations in linear algebra, the performance prediction of sparse matrix-vector multiplication (SpMV) on GPUs has got more and more attention in recent years. In 2012, Guo and Wang put forward a new idea to predict the performance of SpMV on GPUs. However, they didn’t consider the matrix structure completely, so the execution time predicted by their model tends to be inaccurate for general sparse matrix. To address this problem, we proposed two new similar models, which take into account the structure of the matrices and make the performance prediction model more accurate. In addition, we predict the execution time of SpMV for CSR-V, CSR-S, ELL and JAD sparse matrix storage formats by the new models on the CUDA platform. Our experimental results show that the accuracy of prediction by our models is 1.69 times better than Guo and Wang’s model on average for most general matrices. 展开更多
关键词 sparse matrix-vector multiplication Performance Prediction GPU Normal DISTRIBUTION UNIFORM DISTRIBUTION
下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式
2
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(spmv) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
下载PDF
一种不规则稀疏矩阵的SpMV方法
3
作者 施禹 董攀 张利军 《计算机工程与科学》 CSCD 北大核心 2024年第7期1175-1184,共10页
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相... 稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。 展开更多
关键词 稀疏矩阵 不规则矩阵 向量乘法 多核性能 性能优化
下载PDF
基于便笺式存储器的向量化SpMV算法的性能评估与分析
4
作者 张宗茂 董德尊 +3 位作者 王子聪 常俊胜 张晓云 王绍聪 《计算机工程与科学》 CSCD 北大核心 2024年第9期1521-1528,共8页
便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算... 便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效,从而影响SpMV算法执行效率。为了评估便笺式存储器对SpMV向量算法的性能影响,使用ARM SVE指令对基于CSR格式的SpMV算法向量化,并将算法中的热点数据即稠密输入向量存储在便笺式存储器中,在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析。在gem5模拟器中针对来自真实应用程序的2562个稀疏矩阵进行了实验。实验结果表明,集成了便笺式存储器的处理器与传统多级Cache处理器相比,针对向量化SpMV算法能够实现的最大加速比为7.45,平均加速比为1.11。 展开更多
关键词 稀疏矩阵向量乘 便笺式存储器 CSR ARM SVE
下载PDF
SpMV计算的ARM和FPGA异构加速器设计
5
作者 朱明达 薛济擎 艾纯瑶 《电讯技术》 北大核心 2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格... 针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。 展开更多
关键词 稀疏矩阵向量乘(spmv) 异构加速器 硬件加速
下载PDF
基于HYB格式SpMV在新一代申威架构上的实现与优化
6
作者 王鑫 彭健 《计算机工程与科学》 CSCD 北大核心 2023年第10期1754-1762,共9页
稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的... 稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的HYB存储格式,面向国产新一代申威异构众核处理器SW26010P,设计了一种并行SpMV算法及其性能优化方案。并针对HYB存储格式的阈值选取难点,提出了一种多次迭代最大类间方差的方法,以确定HYB格式的阈值。实验结果表明,相比主核上的串行算法,并行SpMV算法可以获得23.36的平均加速比和34.85的最高加速比。 展开更多
关键词 申威众核处理器 稀疏矩阵向量乘法 最大类间方差法 并行计算
下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
7
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
下载PDF
高性能稀疏矩阵向量乘的程序设计综述
8
作者 杜臻 谭光明 孙凝晖 《高技术通讯》 CAS 北大核心 2024年第8期807-823,共17页
稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域... 稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域4条技术路线,即人工程序设计、自动调优器、稀疏编译器和自动程序设计器,在当今的流行方法;并在此基础上对高性能稀疏矩阵向量乘程序设计的研究趋势做出预测,力图给学习者和研究者带来有益的知识与启示。 展开更多
关键词 稀疏矩阵向量乘(spmv) 稀疏矩阵格式 自动调优 稀疏编译器 高性能计算 并行算法
下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 被引量:11
9
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 spmv 申威26010处理器 异构众核并行 自适应优化
下载PDF
SpMV的自动性能优化实现技术及其应用研究 被引量:15
10
作者 袁娥 张云泉 +1 位作者 刘芳芳 孙相征 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期1117-1126,共10页
在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大... 在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium4和AMD Athlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48. 展开更多
关键词 稀疏矩阵向量乘 启发式算法 自适应性能优化 存储访问模式 寄存器分块
下载PDF
基于FPGA和行折叠的稀疏矩阵向量乘优化
11
作者 周智 高建花 计卫星 《计算机工程与科学》 CSCD 北大核心 2024年第8期1340-1348,共9页
稀疏矩阵向量乘(SpMV)是科学与工程计算中的一个关键内核。由于稀疏矩阵中不规则的数据分布和SpMV计算中不规则的访存操作,SpMV在多核CPU和GPU等设备上的性能与这些设备的理论峰值还具有较大差距。现有的CPU和GPU由于在架构上受到限制,... 稀疏矩阵向量乘(SpMV)是科学与工程计算中的一个关键内核。由于稀疏矩阵中不规则的数据分布和SpMV计算中不规则的访存操作,SpMV在多核CPU和GPU等设备上的性能与这些设备的理论峰值还具有较大差距。现有的CPU和GPU由于在架构上受到限制,导致它们无法很好地利用稀疏矩阵的特殊结构来加速SpMV计算,而现场可编程门阵列(FPGA)可以通过自定义电路实现高效的并行运算,能够更好地处理稀疏矩阵的计算和存储问题。基于FPGA提出了一种SpMV优化方法,该优化方法基于高级综合的流式处理引擎,采用了一种自适应多行折叠的SpMV优化策略。该方法通过行折叠减少了处理引擎中零元的无效存储和计算,从而提升了基于FPGA的SpMV计算性能。实验结果表明,相比于现有的FPGA实现方案,设计的基于行折叠优化的数据流引擎实现了最高1.78倍和平均1.15倍的加速。 展开更多
关键词 稀疏矩阵向量乘 现场可编程门阵列 高级综合 行折叠
下载PDF
基于GPU对角稀疏矩阵向量乘法的动态划分算法
12
作者 涂进兴 李志雄 黄建强 《计算机应用》 CSCD 北大核心 2024年第11期3521-3529,共9页
在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)... 在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)。首先,设计一种全新的动态划分策略,根据矩阵的不同特征进行分块,在保证GPU高计算效率的同时大幅减少零元填充,去除冗余计算量;其次,提出一种对角稀疏矩阵存储格式BDIA(Block DIAgonal)存储分块数据,并调整数据布局,提高GPU上的访存性能;最后,基于GPU的底层进行条件分支优化,以减少分支判断,并使用动态共享内存解决向量的不规则访问问题。DIA-Dynamic与前沿Tile SpMV算法相比,平均加速比达到了1.88;与前沿BRCSD(Diagonal Compressed Storage based on Row-Blocks)-Ⅱ算法相比,平均零元填充减少了43%,平均加速比达到了1.70。实验结果表明,DIA-Dynamic能够有效提高GPU上对角SpMV的计算效率,缩短计算时间,提升程序性能。 展开更多
关键词 图形处理器 对角稀疏矩阵 稀疏矩阵向量乘法 动态划分 共享内存
下载PDF
RAM(h)模型下SpMV存储访问复杂度的分析
13
作者 袁娥 张云泉 孙相征 《计算机工程与设计》 CSCD 北大核心 2009年第3期613-618,共6页
稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h... 稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致。 展开更多
关键词 spmv 稀疏矩阵向量乘 RAM(h)模型 存储访问复杂度
下载PDF
一种用于图形渲染的高性能SpMV专用加速器结构
14
作者 邓军勇 马青青 《小型微型计算机系统》 CSCD 北大核心 2021年第3期584-588,共5页
图形渲染中涉及的几何变换、投影变换、视口变换等需要大量稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication,SpM V)运算,如何实现SpMV高性能计算成为了图形处理器设计中的关键性问题之一,然而,当前的SpMV运算存在并行度较差,资... 图形渲染中涉及的几何变换、投影变换、视口变换等需要大量稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication,SpM V)运算,如何实现SpMV高性能计算成为了图形处理器设计中的关键性问题之一,然而,当前的SpMV运算存在并行度较差,资源占用较多等问题.为提升硬件运算的性能,本文基于矩阵列向量的线性组合,充分利用数据的并行性,设计了一种专用加速器结构.实验表明,在XC6VLX550T开发板上与其他两种结构相比,速度分别能够提高28%、37%,资源占用率分别减少约48%、18%,应用于图形渲染中的变换操作后,速度分别能够提高28%、30%,资源占用率分别最高减少约48%、60%. 展开更多
关键词 图形渲染 稀疏矩阵向量乘法 并行度 矩阵列向量的线性组合
下载PDF
基于监督学习的稀疏矩阵自动任务分配
15
作者 李小玲 方建滨 +2 位作者 马俊 谭霜 谭郁松 《计算机工程与科学》 CSCD 北大核心 2023年第5期782-789,共8页
针对稀疏矩阵与稠密向量乘运算探讨了不同的任务分配策略对性能的影响,观察到任务分配策略的选择会显著地影响稀疏矩阵的运算性能,且不存在一种固定的任务分配策略针对所有的稀疏矩阵都能获得最佳性能。为此,提出了一种基于机器学习的... 针对稀疏矩阵与稠密向量乘运算探讨了不同的任务分配策略对性能的影响,观察到任务分配策略的选择会显著地影响稀疏矩阵的运算性能,且不存在一种固定的任务分配策略针对所有的稀疏矩阵都能获得最佳性能。为此,提出了一种基于机器学习的最优任务分配策略选择模型,其训练过程仅使用稀疏矩阵的特征来刻画输入数据集,且能够针对给定的数据集和目标平台自动地训练模型。实验结果表明,相对于默认的块分配方法,使用该模型选择的任务分配方式能够获得平均约35%的性能提升。 展开更多
关键词 稀疏矩阵向量乘 任务分配 机器学习
下载PDF
基于高预测性的稀疏矩阵向量乘法并行计算优化
16
作者 夏天 付格林 +2 位作者 曲劭儒 罗中沛 任鹏举 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期1973-1987,共15页
稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是广泛应用于科学计算、工业仿真和智能计算等领域的重要算法,是核心的计算行为之一.在一些应用场景中,需要进行多次的SpMV迭代,以完成精确的数值模拟、线性代数求解和图分... 稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是广泛应用于科学计算、工业仿真和智能计算等领域的重要算法,是核心的计算行为之一.在一些应用场景中,需要进行多次的SpMV迭代,以完成精确的数值模拟、线性代数求解和图分析收敛等计算要求.受限于SpMV本身的高度随机性和稀疏性所导致的数据局部性极差、缓存效率极低、计算模式非常不规则等问题,导致其计算负载成为当前高性能处理器的优化难点和研究热点.基于现代高性能超标量乱序处理器的架构特征,深入研究SpMV的各类性能瓶颈,并且提出从提升可预测性和降低程序复杂度的角度进行全面的性能优化.其核心思想是:通过构建串行访问的数据结构,提升数据访问的规律性和局部性,大幅度优化数据预取效率和缓存利用效率;通过构建规则的分支跳转条件,提升程序的分支预测准确率,有效提升程序执行效率;通过灵活运用SIMD指令集,有效提升计算资源利用率.通过对以上特性的优化,该方法可以显著缓解性能瓶颈,大幅度提升处理器资源、缓存资源和访存带宽的利用率,并且获得与主流商用计算库MKL相比平均2.6倍的加速比,相比于现有最先进算法获得平均1.3倍的加速比. 展开更多
关键词 矩阵向量乘法 稀疏矩阵计算 矩阵格式 分支预测 数据预取
下载PDF
任意稀疏结构的多量测向量快速稀疏重构算法研究 被引量:14
17
作者 李少东 陈文峰 +1 位作者 杨军 马晓岩 《电子学报》 EI CAS CSCD 北大核心 2015年第4期708-715,共8页
目前的稀疏重构算法求解多量测向量时存在两个问题:一是计算复杂度高;二是不能实现任意稀疏结构的多量测向量重构.为此,本文提出一种多量测向量快速重构算法.该算法首先构建矩阵平滑零范数法,实现对具有任意稀疏结构的多量测向量的重构... 目前的稀疏重构算法求解多量测向量时存在两个问题:一是计算复杂度高;二是不能实现任意稀疏结构的多量测向量重构.为此,本文提出一种多量测向量快速重构算法.该算法首先构建矩阵平滑零范数法,实现对具有任意稀疏结构的多量测向量的重构,并获得多量测向量的初始支撑集;其次根据稀疏度与量测维度的关系,对初始支撑集进行筛选获得预选支撑集;然后采用贝叶斯组检验方式得到信号重构所需的最终支撑集;最后通过最终支撑集实现信号的重构.该算法充分利用了矩阵平滑零范数法的高效性以及贝叶斯组检验对冗余支撑集的剔除功能,不但实现了稀疏位置随机变化的多量测向量的高效重构,而且保证了算法的精度,并对噪声具有一定的鲁棒性,基于实测数据的ISAR成像实验验证了所提算法的有效性. 展开更多
关键词 稀疏重构 任意稀疏结构 多量测向量 贝叶斯组检验 矩阵平滑零范数法
下载PDF
大规模稀疏线性方程组的GMRES-GPU快速求解算法 被引量:10
18
作者 柳有权 尹康学 吴恩华 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第4期553-560,共8页
重开始广义极小残量法(GMRES)是求解大规模线性方程组的常用算法之一,具有收敛速度快、稳定性好等优点.文中基于CUDA将GMRES算法在GPU上进行并行算法实现,尤其针对稀疏矩阵矢量乘法运算,通过合并访问和共享内存策略相结合的手段使得算... 重开始广义极小残量法(GMRES)是求解大规模线性方程组的常用算法之一,具有收敛速度快、稳定性好等优点.文中基于CUDA将GMRES算法在GPU上进行并行算法实现,尤其针对稀疏矩阵矢量乘法运算,通过合并访问和共享内存策略相结合的手段使得算法效率大幅度提升.对于大规模数据集,在GeForce GTX 260上的运行结果相对于Intel Core 2 Quad CPU Q9400@2.66 GHz得到了平均40余倍的加速效果,相对于Intel Core i7 CPU 920@2.67 GHz也可得到平均20余倍的加速效果. 展开更多
关键词 CUDA GPGPU 重开始广义极小残量法 稀疏矩阵矢量乘法
下载PDF
基于FPGA的稀疏矩阵向量乘的设计研究 被引量:9
19
作者 张禾 陈客松 《计算机应用研究》 CSCD 北大核心 2014年第6期1756-1759,共4页
作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。... 作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。在一维划分的行压缩稀疏矩阵数据存储技术以及计算部件的流水化设计的基础上,提出了一种基于单个浮点加法器的无阻塞累加器设计。通过实验验证表明,简化了算法的设计提高了算法执行的并行度和外部存储器的带宽利用率,获得了相对于传统处理器1.37-2.60倍的性能加速比。 展开更多
关键词 稀疏矩阵向量乘 现场可编程逻辑门阵列 可重构计算 并行算法
下载PDF
GPU稀疏矩阵向量乘的性能模型构造 被引量:3
20
作者 尹孟嘉 许先斌 +3 位作者 何水兵 胡婧 叶从欢 张涛 《计算机科学》 CSCD 北大核心 2017年第4期182-187,206,共7页
稀疏矩阵向量乘(Sparse matrix-vector multiplication,SPMV)是广泛应用于大规模线性求解系统和求解矩阵特征值等问题的基本运算,但在迭代处理过程中它也常常成为处理的瓶颈,影响算法的整体性能。对于不同形态的矩阵,选择不同的存储格式... 稀疏矩阵向量乘(Sparse matrix-vector multiplication,SPMV)是广泛应用于大规模线性求解系统和求解矩阵特征值等问题的基本运算,但在迭代处理过程中它也常常成为处理的瓶颈,影响算法的整体性能。对于不同形态的矩阵,选择不同的存储格式,对应的算法往往会产生较大的性能影响。通过实验分析,找到各种矩阵形态在不同存储结构下体现的性能变化特征,构建一个有效的性能度量模型,为评估稀疏矩阵运算开销、合理选择存储格式做出有效的指导。在14组CSR,COO,HYB格式和8组ELL格式的测试用例下,性能预测模型和测量之间的差异低于9%。 展开更多
关键词 GPU 稀疏矩阵向量乘 性能模型
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部