期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
一种不规则稀疏矩阵的SpMV方法
1
作者 施禹 董攀 张利军 《计算机工程与科学》 CSCD 北大核心 2024年第7期1175-1184,共10页
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相... 稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。 展开更多
关键词 稀疏矩阵 不规则矩阵 向量乘法 多核性能 性能优化
下载PDF
SpMV计算的ARM和FPGA异构加速器设计
2
作者 朱明达 薛济擎 艾纯瑶 《电讯技术》 北大核心 2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格... 针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。 展开更多
关键词 稀疏矩阵向量乘(SpMV) 异构加速器 硬件加速
下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 被引量:10
3
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 SpMV 申威26010处理器 异构众核并行 自适应优化
下载PDF
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化 被引量:7
4
作者 王迎瑞 任江勇 田荣 《计算机科学》 CSCD 北大核心 2013年第3期46-49,共4页
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了... 以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。 展开更多
关键词 带状稀疏矩阵向量乘 bDIA 广义有限元 GPU CG求解器优化
下载PDF
共轭梯度法在GPU及Xeon Phi下的并行优化及比较 被引量:1
5
作者 黄敏 丁萍 罗海飚 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第11期35-46,53,共13页
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据... 为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好. 展开更多
关键词 共轭梯度法 图形处理器 XEON PHI 并行优化 稀疏矩阵向量乘
下载PDF
模拟神经网络传输的职业教育视频资源开发
6
作者 梁建胜 袁从贵 《计算机与数字工程》 2018年第7期1410-1416,共7页
面对职业教育视频资源在传输过程中网络结构和硬件资源占用关系这一问题,论文利用矩阵乘法改进了全连接深度神经网络(DNN)的矩阵计算形式,以此动态模拟职业教育视频资源传输状态。将矩阵乘法引入DNN前向传播过程使计算简化,以探究职业... 面对职业教育视频资源在传输过程中网络结构和硬件资源占用关系这一问题,论文利用矩阵乘法改进了全连接深度神经网络(DNN)的矩阵计算形式,以此动态模拟职业教育视频资源传输状态。将矩阵乘法引入DNN前向传播过程使计算简化,以探究职业教育视频资源库作为硬件实现平台,基于乘累加器IP核与乘加器IP核设计了两种矩阵乘法计算架构,实现了模拟全连接DNN前向传播的职业教育视频资源传输计算过程,并对两种方案在实现不同结构的前向传播计算时的硬件资源占用情况进行对比,得出结论:在实现相同网络的视频资源传播计算情况下,乘累加器方案比乘加器方案消耗更少的硬件资源。 展开更多
关键词 视频资源 矩阵乘法 DNN前向传播 资源优化 硬件资源占用
下载PDF
超大规模电网快速状态估计的实现方法 被引量:3
7
作者 罗玉春 王毅 +2 位作者 闪鑫 戴则梅 张磊 《中国电力》 CSCD 北大核心 2020年第7期132-140,共9页
随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩... 随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩阵。基于新一代调控系统验证环境和实际电网拼接模型算例进行了验证。结果表明:在超大规模电网状态估计中,采用多线程并行计算信息矩阵及其因子分解具有较高的加速比,结合基于关联容器的稀疏矩阵存储格式,能够有效提升编程效率和程序品质以及状态估计的计算效率。 展开更多
关键词 电力系统 状态估计 稀疏矩阵乘法 节点优化编号 因子分解 关联容器
下载PDF
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究 被引量:3
8
作者 谢震 谭光明 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2021年第3期445-457,共13页
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法... 稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别. 展开更多
关键词 性能模型 反馈优化 稀疏矩阵向量乘 卷积 cache模拟器
下载PDF
时空图卷积网络的骨架识别硬件加速器设计
9
作者 谭会生 严舒琪 杨威 《电子测量技术》 2024年第11期36-43,共8页
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可... 随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。 展开更多
关键词 人体骨架识别 时空图卷积神经网络(ST-GCN) 硬件加速器 现场可编程门阵列(FPGA) 稀疏矩阵乘加运算硬件优化
下载PDF
高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法 被引量:4
10
作者 汤洋 赵达非 +1 位作者 黄智濒 戴志涛 《北京邮电大学学报》 EI CAS CSCD 北大核心 2019年第3期106-113,共8页
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率.... 针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率.通过解决负载均衡和内存延迟问题,RBSparse算法可以显著减少计算的总时间.比较了RBSparse和BHSparse算法,RBSparse算法是最快的SpGEMM算法,RBSparse算法的性能平均是BHSparse算法的3. 1倍,在最佳情况下可达到14. 49倍. 展开更多
关键词 稀疏矩阵-矩阵乘法 图形处理器 性能优化 散列表 共享内存
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部