期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
TEB:GPU上矩阵分解重构的高效SpMV存储格式
1
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 csr格式 负载均衡 存储格式 图形处理器(GPU)
下载PDF
稀疏存储的显式有限元三角网格地震波数值模拟及其PML吸收边界条件 被引量:29
2
作者 刘有山 滕吉文 +1 位作者 刘少林 徐涛 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2013年第9期3085-3099,共15页
有限元法是复杂介质地震模拟的有力工具,它能比较客观地反映地震波的传播,比较细致地再现地震图像.但是,为了获得较精确的结果,有限元法模拟地震波的传播需要的网格点数多,具有计算量大和消耗内存多的缺点.针对上述缺点,本文对刚度矩阵... 有限元法是复杂介质地震模拟的有力工具,它能比较客观地反映地震波的传播,比较细致地再现地震图像.但是,为了获得较精确的结果,有限元法模拟地震波的传播需要的网格点数多,具有计算量大和消耗内存多的缺点.针对上述缺点,本文对刚度矩阵采用压缩存储行(CSR)格式,以减少计算量并节省内存;采用集中质量矩阵得到对角的质量矩阵以提高有限元法(显式有限元)的计算效率;时间离散采用保能量的Newmark算法以提高有限元法的计算精度;采用变分形式(弱形式)的PML吸收边界条件对人工截断边界进行处理.通过与高精度的数值方法——谱元法的数值试验的对比表明,上述方法的引入可使有限元法在计算精度和计算效率方面均可取得比较显著的改进.为了获得相当的计算精度,相比于7阶谱元法,显式有限元法需要更精细的网格.然而,显式有限元法的计算速度比前者快近2倍,而内存需求仅为谱元法的1/4~1/6. 展开更多
关键词 显式有限元法 压缩存储行(csr)格式 集中质量矩阵 Newmark算法 PML吸收边界条件 谱元法
下载PDF
三角网格谱元法地震波场数值模拟 被引量:16
3
作者 刘有山 滕吉文 +3 位作者 徐涛 刘少林 司芗 马学英 《地球物理学进展》 CSCD 北大核心 2014年第4期1715-1726,共12页
谱元法结合了有限元法的灵活性和谱方法的指数收敛性,高效且高精度,是近年来发展的一种重要的地震波场数值模拟方法.经典的谱元法采用四边形(六面体)网格,利用一维Gauss-Legendre-Lobatto(GLL)积分的张量积得到对角的质量矩阵,以大大提... 谱元法结合了有限元法的灵活性和谱方法的指数收敛性,高效且高精度,是近年来发展的一种重要的地震波场数值模拟方法.经典的谱元法采用四边形(六面体)网格,利用一维Gauss-Legendre-Lobatto(GLL)积分的张量积得到对角的质量矩阵,以大大提高计算效率,但是四边形(六面体)网格不能够灵活地刻画复杂的几何模型的弯曲界面.为此,在谱元法中引入三角形(四面体)网格到二维(三维)是十分必要的.不同于经典的谱元法,在非结构化网格中不能使用GLL积分的张量积,使得非结构化网格的谱元法的实现存在着诸多的困难.目前,比较流行的三角网格谱元法,通过使用KoornwinderDubiner(KD)正交多项式,并正交化这些KD多项式构建基函数,同时利用重合的插值节点和积分节点以获取对角的质量矩阵;它所使用的积分点为优化的点集——Fekete点,且这些积分点能与四边形网格完全耦合.相比于四边形,三角网格谱元法能显著提高复杂模型的描述能力,对起伏地表模型有很大优势.本文引入高效的最佳匹配层(PML)吸收边界条件,并通过数值试验将三角网格谱元法与经典的谱元法进行对比研究.相比于经典的谱元法,三角网格谱元法显著缺点为较低的计算精度.对于7阶谱元,为了能够精确地模拟面波,三角网格谱元法需要在每个最短的面波波长内至少有11个采样点,然而经典的谱元法仅需4个采样点,并且前者所需的内存量约为后者的5.5倍. 展开更多
关键词 三角网格谱元法 压缩存储行(csr)格式 PML吸收边界条件 Newmark算法 显式有限元法 Koornwinder-Dubiner多项式 Fekete点
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部