期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种不规则稀疏矩阵的SpMV方法
1
作者
施禹
董攀
张利军
《计算机工程与科学》
CSCD
北大核心
2024年第7期1175-1184,共10页
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相...
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。
展开更多
关键词
稀疏矩阵
不规则矩阵
向量乘法
多核性能
性能优化
下载PDF
职称材料
SpMV计算的ARM和FPGA异构加速器设计
2
作者
朱明达
薛济擎
艾纯瑶
《电讯技术》
北大核心
2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格...
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。
展开更多
关键词
稀疏矩阵向量乘(SpMV)
异构加速器
硬件加速
下载PDF
职称材料
面向国产申威26010众核处理器的SpMV实现与优化
被引量:
10
3
作者
刘芳芳
杨超
+2 位作者
袁欣辉
吴长茂
敖玉龙
《软件学报》
EI
CSCD
北大核心
2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB...
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.
展开更多
关键词
稀疏矩阵向量乘
SpMV
申威26010处理器
异构众核并行
自适应优化
下载PDF
职称材料
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
被引量:
7
4
作者
王迎瑞
任江勇
田荣
《计算机科学》
CSCD
北大核心
2013年第3期46-49,共4页
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了...
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
展开更多
关键词
带状稀疏矩阵向量乘
bDIA
广义有限元
GPU
CG求解器优化
下载PDF
职称材料
共轭梯度法在GPU及Xeon Phi下的并行优化及比较
被引量:
1
5
作者
黄敏
丁萍
罗海飚
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015年第11期35-46,53,共13页
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据...
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好.
展开更多
关键词
共轭梯度法
图形处理器
XEON
PHI
并行优化
稀疏矩阵向量乘
下载PDF
职称材料
模拟神经网络传输的职业教育视频资源开发
6
作者
梁建胜
袁从贵
《计算机与数字工程》
2018年第7期1410-1416,共7页
面对职业教育视频资源在传输过程中网络结构和硬件资源占用关系这一问题,论文利用矩阵乘法改进了全连接深度神经网络(DNN)的矩阵计算形式,以此动态模拟职业教育视频资源传输状态。将矩阵乘法引入DNN前向传播过程使计算简化,以探究职业...
面对职业教育视频资源在传输过程中网络结构和硬件资源占用关系这一问题,论文利用矩阵乘法改进了全连接深度神经网络(DNN)的矩阵计算形式,以此动态模拟职业教育视频资源传输状态。将矩阵乘法引入DNN前向传播过程使计算简化,以探究职业教育视频资源库作为硬件实现平台,基于乘累加器IP核与乘加器IP核设计了两种矩阵乘法计算架构,实现了模拟全连接DNN前向传播的职业教育视频资源传输计算过程,并对两种方案在实现不同结构的前向传播计算时的硬件资源占用情况进行对比,得出结论:在实现相同网络的视频资源传播计算情况下,乘累加器方案比乘加器方案消耗更少的硬件资源。
展开更多
关键词
视频资源
矩阵乘法
DNN前向传播
资源优化
硬件资源占用
下载PDF
职称材料
超大规模电网快速状态估计的实现方法
被引量:
3
7
作者
罗玉春
王毅
+2 位作者
闪鑫
戴则梅
张磊
《中国电力》
CSCD
北大核心
2020年第7期132-140,共9页
随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩...
随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩阵。基于新一代调控系统验证环境和实际电网拼接模型算例进行了验证。结果表明:在超大规模电网状态估计中,采用多线程并行计算信息矩阵及其因子分解具有较高的加速比,结合基于关联容器的稀疏矩阵存储格式,能够有效提升编程效率和程序品质以及状态估计的计算效率。
展开更多
关键词
电力系统
状态估计
稀疏矩阵乘法
节点优化编号
因子分解
关联容器
下载PDF
职称材料
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
被引量:
3
8
作者
谢震
谭光明
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2021年第3期445-457,共13页
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法...
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别.
展开更多
关键词
性能模型
反馈优化
稀疏矩阵向量乘
卷积
cache模拟器
下载PDF
职称材料
时空图卷积网络的骨架识别硬件加速器设计
9
作者
谭会生
严舒琪
杨威
《电子测量技术》
2024年第11期36-43,共8页
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可...
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。
展开更多
关键词
人体骨架识别
时空图卷积神经网络(ST-GCN)
硬件加速器
现场可编程门阵列(FPGA)
稀疏矩阵乘加运算硬件优化
下载PDF
职称材料
高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法
被引量:
4
10
作者
汤洋
赵达非
+1 位作者
黄智濒
戴志涛
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2019年第3期106-113,共8页
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率....
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率.通过解决负载均衡和内存延迟问题,RBSparse算法可以显著减少计算的总时间.比较了RBSparse和BHSparse算法,RBSparse算法是最快的SpGEMM算法,RBSparse算法的性能平均是BHSparse算法的3. 1倍,在最佳情况下可达到14. 49倍.
展开更多
关键词
稀疏矩阵-矩阵乘法
图形处理器
性能优化
散列表
共享内存
原文传递
题名
一种不规则稀疏矩阵的SpMV方法
1
作者
施禹
董攀
张利军
机构
国防科技大学计算机学院
中国人民解放军
出处
《计算机工程与科学》
CSCD
北大核心
2024年第7期1175-1184,共10页
基金
国防科技重点实验室稳定支持基金(WDZC20235250111)
国家自然科学基金(62002371)
国防科技大学基金(ZK21-17)。
文摘
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。
关键词
稀疏矩阵
不规则矩阵
向量乘法
多核性能
性能优化
Keywords
sparse
matrix
irregular
matrix
vector
multiplication
multicore performance
performance
optimization
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
SpMV计算的ARM和FPGA异构加速器设计
2
作者
朱明达
薛济擎
艾纯瑶
机构
中国石油大学(北京)信息科学与工程学院
出处
《电讯技术》
北大核心
2024年第2期302-309,共8页
基金
中国高校产学研创新基金(2020HYA08001)
中国石油大学(北京)科研基金(2462020YXZZ025)。
文摘
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。
关键词
稀疏矩阵向量乘(SpMV)
异构加速器
硬件加速
Keywords
sparse
matrix
-vector
multiplication
(SpMV)
heterogeneous accelerator
hardware
acceleration
分类号
TP332.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向国产申威26010众核处理器的SpMV实现与优化
被引量:
10
3
作者
刘芳芳
杨超
袁欣辉
吴长茂
敖玉龙
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院大学
计算机科学国家重点实验室(中国科学院软件研究所)
北京大学数学科学学院
国家并行计算机工程技术研究中心
出处
《软件学报》
EI
CSCD
北大核心
2018年第12期3921-3932,共12页
基金
国家重点研发计划(2016YFB0200603)
国家自然科学基金(91530323)~~
文摘
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.
关键词
稀疏矩阵向量乘
SpMV
申威26010处理器
异构众核并行
自适应优化
Keywords
sparse
matrix
-vector
multiplication
SpMV
Sunway 26010 processor
heterogeneous many-core
adaptive
optimization
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
被引量:
7
4
作者
王迎瑞
任江勇
田荣
机构
中国科学院计算技术研究所
出处
《计算机科学》
CSCD
北大核心
2013年第3期46-49,共4页
基金
国家自然科学基金项目(11072241
91130026)
+1 种基金
NSFC国家杰出青年科学基金"Exascale计算的基础研究"项目(60925009)
美国橡树岭国家实验室/国家计算科学中心主任基金项目(MAT028)资助
文摘
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
关键词
带状稀疏矩阵向量乘
bDIA
广义有限元
GPU
CG求解器优化
Keywords
B
and
ed
sparse
matrix
-vector
multiplication
, bDIA, GFEM, GPU, CG solver
optimization
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
共轭梯度法在GPU及Xeon Phi下的并行优化及比较
被引量:
1
5
作者
黄敏
丁萍
罗海飚
机构
华南理工大学软件学院
广州中国科学院软件应用技术研究所智能视频实验室
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015年第11期35-46,53,共13页
基金
广东省公益研究与能力建设专项(2014A040401018)
广东省促进科技服务业发展计划项目(2013B040404009)
广东省新媒体与品牌传播创新应用重点实验室资助项目(2013WSYS0002)
文摘
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好.
关键词
共轭梯度法
图形处理器
XEON
PHI
并行优化
稀疏矩阵向量乘
Keywords
conjugate gradient method
graphics processing unit
Xeon Phi
parallel
optimization
sparse
matrix
-vector
multiplication
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
模拟神经网络传输的职业教育视频资源开发
6
作者
梁建胜
袁从贵
机构
东莞职业技术学院信息与教育技术中心
东莞职业技术学院电子系
出处
《计算机与数字工程》
2018年第7期1410-1416,共7页
基金
广东省自然科学基金项目(编号:2015A030310257)资助
文摘
面对职业教育视频资源在传输过程中网络结构和硬件资源占用关系这一问题,论文利用矩阵乘法改进了全连接深度神经网络(DNN)的矩阵计算形式,以此动态模拟职业教育视频资源传输状态。将矩阵乘法引入DNN前向传播过程使计算简化,以探究职业教育视频资源库作为硬件实现平台,基于乘累加器IP核与乘加器IP核设计了两种矩阵乘法计算架构,实现了模拟全连接DNN前向传播的职业教育视频资源传输计算过程,并对两种方案在实现不同结构的前向传播计算时的硬件资源占用情况进行对比,得出结论:在实现相同网络的视频资源传播计算情况下,乘累加器方案比乘加器方案消耗更少的硬件资源。
关键词
视频资源
矩阵乘法
DNN前向传播
资源优化
硬件资源占用
Keywords
video resource
matrix
multiplication
DNN forward propagation
resource
optimization
hardware
resource occupation
分类号
TP277 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
超大规模电网快速状态估计的实现方法
被引量:
3
7
作者
罗玉春
王毅
闪鑫
戴则梅
张磊
机构
南瑞集团(国网电力科学研究院)有限公司
国电南瑞科技股份有限公司
智能电网保护和运行控制国家重点实验室
国网山东省电力公司电力科学研究院
出处
《中国电力》
CSCD
北大核心
2020年第7期132-140,共9页
基金
国家电网公司科技项目(大电网实时数据及网络分析高性能计算技术研究)。
文摘
随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩阵。基于新一代调控系统验证环境和实际电网拼接模型算例进行了验证。结果表明:在超大规模电网状态估计中,采用多线程并行计算信息矩阵及其因子分解具有较高的加速比,结合基于关联容器的稀疏矩阵存储格式,能够有效提升编程效率和程序品质以及状态估计的计算效率。
关键词
电力系统
状态估计
稀疏矩阵乘法
节点优化编号
因子分解
关联容器
Keywords
power system
state estimation
sparse
matrix
multiplication
bus optimal ordering
triangular factorization
associated container
分类号
TM73 [电气工程—电力系统及自动化]
下载PDF
职称材料
题名
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
被引量:
3
8
作者
谢震
谭光明
孙凝晖
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院计算技术研究所
中国科学院大学计算机与控制学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2021年第3期445-457,共13页
基金
国家重点研发项目(2018YFB0204400)
中国科学院战略性先导科技专项(C类)(XDC05010100)
国家自然科学基金项目(62032023,61972377,61702483)。
文摘
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别.
关键词
性能模型
反馈优化
稀疏矩阵向量乘
卷积
cache模拟器
Keywords
performance model
feedback
optimization
sparse
matrix
-vector
multiplication
convolu-tion
cache simulator
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
时空图卷积网络的骨架识别硬件加速器设计
9
作者
谭会生
严舒琪
杨威
机构
湖南工业大学轨道交通学院
出处
《电子测量技术》
2024年第11期36-43,共8页
基金
湖南省学位与研究生教学改革研究项目(2022JGYB183)资助。
文摘
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。
关键词
人体骨架识别
时空图卷积神经网络(ST-GCN)
硬件加速器
现场可编程门阵列(FPGA)
稀疏矩阵乘加运算硬件优化
Keywords
human skeleton recognition
spatiotemporal graph convolutional neural network(ST-GCN)
hardware
accelerator
field programmable gate array(FPGA)
hardware optimization of sparse matrix multiplication and addition
分类号
TN791 [电子电信—电路与系统]
下载PDF
职称材料
题名
高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法
被引量:
4
10
作者
汤洋
赵达非
黄智濒
戴志涛
机构
北京邮电大学理学院
北京邮电大学智能通信软件与多媒体北京市重点实验室
北京邮电大学计算机学院
出处
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2019年第3期106-113,共8页
基金
中央高校基本科研业务费专项资金项目(2017RC42)
IBM SUR项目(IA2016010)
+1 种基金
提升政府治理能力大数据应用技术国家工程实验室重点支持项目
中国博士后科学基金面上项目(2014M550662)
文摘
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率.通过解决负载均衡和内存延迟问题,RBSparse算法可以显著减少计算的总时间.比较了RBSparse和BHSparse算法,RBSparse算法是最快的SpGEMM算法,RBSparse算法的性能平均是BHSparse算法的3. 1倍,在最佳情况下可达到14. 49倍.
关键词
稀疏矩阵-矩阵乘法
图形处理器
性能优化
散列表
共享内存
Keywords
general
sparse
matrix
-
matrix
multiplication
graphics processing unit
performance
optimization
Hash table
shared memory
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
一种不规则稀疏矩阵的SpMV方法
施禹
董攀
张利军
《计算机工程与科学》
CSCD
北大核心
2024
0
下载PDF
职称材料
2
SpMV计算的ARM和FPGA异构加速器设计
朱明达
薛济擎
艾纯瑶
《电讯技术》
北大核心
2024
0
下载PDF
职称材料
3
面向国产申威26010众核处理器的SpMV实现与优化
刘芳芳
杨超
袁欣辉
吴长茂
敖玉龙
《软件学报》
EI
CSCD
北大核心
2018
10
下载PDF
职称材料
4
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
王迎瑞
任江勇
田荣
《计算机科学》
CSCD
北大核心
2013
7
下载PDF
职称材料
5
共轭梯度法在GPU及Xeon Phi下的并行优化及比较
黄敏
丁萍
罗海飚
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015
1
下载PDF
职称材料
6
模拟神经网络传输的职业教育视频资源开发
梁建胜
袁从贵
《计算机与数字工程》
2018
0
下载PDF
职称材料
7
超大规模电网快速状态估计的实现方法
罗玉春
王毅
闪鑫
戴则梅
张磊
《中国电力》
CSCD
北大核心
2020
3
下载PDF
职称材料
8
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
谢震
谭光明
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2021
3
下载PDF
职称材料
9
时空图卷积网络的骨架识别硬件加速器设计
谭会生
严舒琪
杨威
《电子测量技术》
2024
下载PDF
职称材料
10
高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法
汤洋
赵达非
黄智濒
戴志涛
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2019
4
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部