期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
Compute Unified Device Architecture Implementation of Euler/Navier-Stokes Solver on Graphics Processing Unit Desktop Platform for 2-D Compressible Flows
1
作者 Zhang Jiale Chen Hongquan 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2016年第5期536-545,共10页
Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/N... Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/Navier-Stokes solver is developed for 2-D compressible flows by using NVIDIA′s Compute Unified Device Architecture(CUDA)programming model in CUDA Fortran programming language.The techniques of implementation of CUDA kernels,double-layered thread hierarchy and variety memory hierarchy are presented to form the GPU-based algorithm of Euler/Navier-Stokes equations.The resulting parallel solver is validated by a set of typical test flow cases.The numerical results show that dozens of times speedup relative to a serial CPU implementation can be achieved using a single GPU desktop platform,which demonstrates that a GPU desktop can serve as a costeffective parallel computing platform to accelerate computational fluid dynamics(CFD)simulations substantially. 展开更多
关键词 graphics processing unit(GPU) GPU parallel computing compute unified device architecture(CUDA)Fortran finite volume method(FVM) acceleration
下载PDF
基于图形处理器的水下目标传递函数多频点处理方法
2
作者 钱浩然 王斌 《舰船科学技术》 北大核心 2024年第14期153-157,共5页
为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽... 为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽带内的散射声场,从而显著提高了计算效率。本文以潜航器模型为算例,对不同网格数量下模型的目标散射传递函数计算速度进行对比分析。仿真结果表明,相较于传统的CPU串行计算,采用CUDA快速算法能够实现超过80的加速比,有效提高了计算速度。 展开更多
关键词 板块元方法 图像处理器 计算统一设备架构 并行计算
下载PDF
面阵数字航测影像快速辐射校正方法与实现
3
作者 马远征 王爽 +3 位作者 马小芳 刘璐 窦关新 范谦绵 《测绘标准化》 2024年第2期60-65,共6页
随着计算机软硬件的发展,特别是可编程图形处理单元(GPU)框架计算统一设备架构(CUDA)的不断进步,使得利用CUDA开发影像快速处理应用的需求大幅增加。本文在分析国产大面阵航测相机DMZⅡ辐射特性的基础上,提出了基于C UDA的面阵数字航测... 随着计算机软硬件的发展,特别是可编程图形处理单元(GPU)框架计算统一设备架构(CUDA)的不断进步,使得利用CUDA开发影像快速处理应用的需求大幅增加。本文在分析国产大面阵航测相机DMZⅡ辐射特性的基础上,提出了基于C UDA的面阵数字航测相机全色子影像快速辐射校正方法,阐述了具体实现步骤和线程配置方法,并利用DMZⅡ相机在某试验区获得的影像数据,开展快速辐射校正算法性能测试。结果表明,相较于传统中央处理器(CPU)串行编程方法,本文提出的方法可提高超13倍的计算效率,且逻辑明确,实现简单,可为开发类似影像快速处理需求的相关应用提供技术参考。 展开更多
关键词 辐射校正 数字航测相机 面阵影像 计算统一设备架构 归一化方法
下载PDF
基于CUDA的并行雷达拼图算法研究 被引量:1
4
作者 韩丰 高嵩 +1 位作者 薛峰 李月安 《气象》 CSCD 北大核心 2023年第10期1246-1253,共8页
雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义... 雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义。采用中央处理器(central processing unit,CPU)和图形处理器(graphics processing unit,GPU)混合架构设计并行雷达拼图算法,其中CPU负责雷达数据的解析和调度GPU并行模块,GPU负责大规模数据的并行计算。通过分析计算统一设备架构(compute unified device architecture,CUDA)算法的并行开销和拼图算法的特点,提出并实现了GPU内存管理优化和数据交换流程优化方案,提高了组网拼图算法的效率。对比试验结果表明,基于CUDA的GPU并行拼图算法和SWAN中30线程并行的CPU算法相比,在全国1 km和500 m分辨率的拼图任务上,加速比分别达到3.52和6.82。综上,基于CUDA的并行拼图算法不仅可以提高SWAN短时临近算法序列的时效性,也为更高分辨率雷达资料的拼图提供了技术支持。 展开更多
关键词 组网拼图 GPU并行 计算统一设备架构(CUDA) 强对流天气短时临近预报系统(SWAN)
下载PDF
SOLVERS FOR SYSTEMS OF LARGE SPARSE LINEAR AND NONLINEAR EQUATIONS BASED ON MULTI-GPUS 被引量:3
5
作者 刘沙 钟诚文 陈效鹏 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI 2011年第3期300-308,共9页
Numerical treatment of engineering application problems often eventually results in a solution of systems of linear or nonlinear equations.The solution process using digital computational devices usually takes tremend... Numerical treatment of engineering application problems often eventually results in a solution of systems of linear or nonlinear equations.The solution process using digital computational devices usually takes tremendous time due to the extremely large size encountered in most real-world engineering applications.So,practical solvers for systems of linear and nonlinear equations based on multi graphic process units(GPUs)are proposed in order to accelerate the solving process.In the linear and nonlinear solvers,the preconditioned bi-conjugate gradient stable(PBi-CGstab)method and the Inexact Newton method are used to achieve the fast and stable convergence behavior.Multi-GPUs are utilized to obtain more data storage that large size problems need. 展开更多
关键词 general purpose graphic process unit(GPGPU) compute unified device architecture(CUDA) system of linear equations system of nonlinear equations Inexact Newton method bi-conjugate gradient stable(Bi-CGstab)method
下载PDF
基于CUDA的地震数据相干体并行算法 被引量:10
6
作者 吴连贵 易瑜 李肯立 《计算机应用》 CSCD 北大核心 2009年第3期912-914,共3页
在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和... 在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和配有Intel Core2 Due CPU和NVIDIA GeForce 8800 GT显卡的实验结果表明:基于GPU的并行相干体算法可取得理想的线性加速比,提高系统的计算效率。 展开更多
关键词 统一计算设备架构 图形处理器 相干体技术 地震数据处理 并行处理
下载PDF
GPU在SPH方法模拟溃坝问题的应用研究 被引量:4
7
作者 杨志国 黄兴 +1 位作者 郑兴 段文洋 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2014年第6期661-666,共6页
SPH方法是一种无网格的粒子方法,对于求解强非线性水动力学问题具有重要意义。随着粒子数增加,该方法的计算效率成为限制其大规模工程应用的重大瓶颈。可将大规模并行计算引入SPH方法中,以得到良好的计算加速效果。采用将GPU运用于SPH... SPH方法是一种无网格的粒子方法,对于求解强非线性水动力学问题具有重要意义。随着粒子数增加,该方法的计算效率成为限制其大规模工程应用的重大瓶颈。可将大规模并行计算引入SPH方法中,以得到良好的计算加速效果。采用将GPU运用于SPH方法并行计算的技术,借助CUDA硬件计算架构,研究SPH方法的并行计算通用性问题。以二维溃坝问题作为数值算例,对GPU计算结果的稳定性和收敛性进行验证,比较CPU与GPU的计算效率。通过计算,验证了GPU在SPH方法并行计算应用中的可靠性、可行性以及高效性,为提高SPH方法的计算效率提供一种重要的参考途径。 展开更多
关键词 GPU 并行计算 CUDA SPH方法 溃坝 水动力学 数值计算
下载PDF
简化球谐近似模型的图形处理器加速求解 被引量:2
8
作者 贺小伟 陈政 +1 位作者 侯榆青 郭红波 《红外与激光工程》 EI CSCD 北大核心 2016年第6期129-135,共7页
作为辐射传输方程的高阶近似,简化球谐近似模型成为近年光学分子成像研究的重点,但计算效率低限制了它的广泛应用,为此提出一种基于图形处理器的并行加速策略,采用NVIDIA公司推出的统一计算设备架构,对求解过程中耗时最多的两个模块—... 作为辐射传输方程的高阶近似,简化球谐近似模型成为近年光学分子成像研究的重点,但计算效率低限制了它的广泛应用,为此提出一种基于图形处理器的并行加速策略,采用NVIDIA公司推出的统一计算设备架构,对求解过程中耗时最多的两个模块——有限元刚度矩阵的生成和线性方程组的求解进行基于图形处理器的并行加速;根据统一计算设备架构的特点,进行计算任务的分配、存储器的合理使用以及数据的预处理三方面的优化;仿体及数字鼠仿真实验对比刚度矩阵生成时间以及平均迭代时间,以评价所提出方法的加速效果。实验结果表明,该方法可使求解速度提高30倍左右,展示了该方法在光学分子成像中的优势及潜力。 展开更多
关键词 简化球谐近似模型 有限元法 统一计算设备架构 并行计算、
下载PDF
基于拟蒙特卡罗方法的供水管网抗震可靠性分析并行化研究 被引量:5
9
作者 龙立 郑山锁 +3 位作者 周炎 贺金川 孟宏立 蔡永龙 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第2期241-247,共7页
为了提高基于蒙特卡罗(Monte Carlo)方法的供水管网抗震可靠性分析效率,以低偏差Sobol点列替代伪随机数序列对供水管网节点和管段破坏概率进行抽样,结合宽度优先搜索算法,提出基于拟Monte Carlo方法和统一计算设备架构(CUDA)的供水管网... 为了提高基于蒙特卡罗(Monte Carlo)方法的供水管网抗震可靠性分析效率,以低偏差Sobol点列替代伪随机数序列对供水管网节点和管段破坏概率进行抽样,结合宽度优先搜索算法,提出基于拟Monte Carlo方法和统一计算设备架构(CUDA)的供水管网抗震可靠性分析并行算法,并从内存、执行配置和指令等方面优化并行算法.以某城市供水管网系统为例,对比串行和并行计算方法的精度及效率,分析Sobol点列和伪随机数序列对管网可靠性分析的影响.结果表明,并行和串行方法计算结果的误差最大为0.52%,并行方法最高加速比为串行算法的96倍,在保证结果精度的同时大幅度提高计算效率.基于Sobol点列进行1000次并行模拟及基于伪随机数序列进行5000次并行模拟,2种模拟结果与基于模糊数学法的解析值的最大误差分别为0.2%、0.4%,表明基于拟Monte Carlo的并行方法具有更高的精确度,更快的收敛速度. 展开更多
关键词 供水管网 统一计算设备架构(CUDA) 宽度优先搜索 并行计算 网络可靠性分析 拟Monte CARLO方法
下载PDF
基于GPU的稀疏线性系统的预条件共轭梯度法 被引量:10
10
作者 张健飞 沈德飞 《计算机应用》 CSCD 北大核心 2013年第3期825-829,共5页
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算... 研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。 展开更多
关键词 图形处理器 稀疏线性方程组 预条件共轭梯度法 压缩稀疏行 统一计算设备架构
下载PDF
基于CUDA的邻近粒子搜索算法研究 被引量:3
11
作者 刘丹 陈捷捷 《计算机工程与应用》 CSCD 2012年第18期53-56,共4页
在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技... 在粒子方法中,运用邻近粒子搜索算法可以快速获取每个粒子的邻近粒子信息。由于粒子方法模拟一个体系的行为所采用的粒子数据是十分庞大的,对计算机的运算速度提出了挑战。研究了GPU的计算能力和CUDA开发环境,利用GPU的并行多线程处理技术,提出了一种并行邻近粒子搜索算法。实验结果表明,基于CUDA的并行邻近粒子搜索算法,加快了邻近粒子搜索过程,显著地减少了计算时间,成功实现了硬件加速,可获取290以上的加速比,对大规模粒子系统呈现出高效的处理能力。 展开更多
关键词 统一计算设备框架(CUDA) 图形处理单元(GPU) 粒子方法 邻近粒子搜索
下载PDF
CUDA并行加速的稀疏PCNN运动目标检测算法 被引量:2
12
作者 凌滨 邓艳 于士博 《计算机工程与设计》 北大核心 2016年第12期3300-3305,3315,共7页
为准确检测低速径向运动的小运动目标,降低系统的噪声,提高系统的实时性,提出一种基于Nvidia通用并行计算架构(CUDA)的稀疏脉冲耦合神经网络运动目标检测的并行算法。根据图形处理单元(GPU)的并行结构和硬件特点,将改进帧差法得到二值... 为准确检测低速径向运动的小运动目标,降低系统的噪声,提高系统的实时性,提出一种基于Nvidia通用并行计算架构(CUDA)的稀疏脉冲耦合神经网络运动目标检测的并行算法。根据图形处理单元(GPU)的并行结构和硬件特点,将改进帧差法得到二值图像的过程,以及差分二值图像映射到稀疏脉冲耦合神经网络模型的过程均放GPU上执行,提高算法的计算效率;选择利用纹理存储和共享存储方式,提高数据的访问效率,降低算法的复杂度。实验结果表明,该算法对运动目标检测的准确性和实时性优于其它方法。 展开更多
关键词 通用并行计算架构 稀疏脉冲耦合神经网络 改进帧差法 运动目标检测
下载PDF
时域有限差分法中的GPU加速高效CPML方案
13
作者 白冰 牛中奇 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2015年第1期194-199,212,共7页
针对并行CPML存在的计算冗余和访问冗余问题,提出了一种用于时域有限差分法的图形处理器加速无除法联合最小访存CPML更新方案.该方案通过重新安排CPML迭代公式,将除法操作吸收进公式的固定系数中,消去了图形处理器计算中负担繁重的除法... 针对并行CPML存在的计算冗余和访问冗余问题,提出了一种用于时域有限差分法的图形处理器加速无除法联合最小访存CPML更新方案.该方案通过重新安排CPML迭代公式,将除法操作吸收进公式的固定系数中,消去了图形处理器计算中负担繁重的除法操作.该方案进一步通过合并PML区域内时域有限差分法常规场值更新步骤和CPML更新步骤,剔除了这两个步骤中的重复访存,使算法的访存需求最小化.数值验证结果表明,在同等精度下,CPML更新过程和PML区域场值整体计算过程分别减少了70%和44%的计算时间. 展开更多
关键词 时域有限差分法 卷积完全匹配层 图形处理器 并行计算 计算统一设备架构
下载PDF
基于GPU的电力系统并行潮流计算的实现 被引量:35
14
作者 夏俊峰 杨帆 +1 位作者 李静 郑秀玉 《电力系统保护与控制》 EI CSCD 北大核心 2010年第18期100-103,110,共5页
在研究GPU通用计算方法和潮流计算算法的基础上,针对GPU计算密集、高度并行化等特点,对潮流计算牛顿法进行了适当的简化,并应用统一计算设备架构(Compute Unified Device Architecture,CUDA)的开发平台,提出了一种基于GPU的并行潮流计... 在研究GPU通用计算方法和潮流计算算法的基础上,针对GPU计算密集、高度并行化等特点,对潮流计算牛顿法进行了适当的简化,并应用统一计算设备架构(Compute Unified Device Architecture,CUDA)的开发平台,提出了一种基于GPU的并行潮流计算程序的设计方法。仿真计算结果表明此算法可行,并具有较高的计算效率,为电力系统并行潮流计算的研究提供了一种可行的方法。 展开更多
关键词 潮流计算 并行计算 GPU通用计算 统一计算设备架构 牛顿法
下载PDF
基于CUDA的图像匹配算法 被引量:3
15
作者 周冰园 陈庆奎 +1 位作者 高丽萍 秦川 《计算机工程与应用》 CSCD 北大核心 2015年第12期165-170,共6页
为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS(Partial Least Squares)与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图... 为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS(Partial Least Squares)与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图像特征,通过合并后图像特征采用余弦定理计算图像的相似度,从而找出匹配图像。实验表明,CUDA架构下可以实现图像的并行匹配,与CPU上串行匹配相比,时效性提高了百倍以上。 展开更多
关键词 统一设备计算架构(CUDA) GPU技术 偏最小二乘(PLS)方法 并行计算 余弦定理 图像匹配
下载PDF
基于GPU加速的高阶矩量法研究与应用 被引量:2
16
作者 马韬 陈明生 +2 位作者 吴先良 刘艺 齐琪 《微波学报》 CSCD 北大核心 2013年第4期34-37,共4页
矩量法(MOM)在求解电磁场散射问题时,当未知量数目比较大时,其内存占用和计算时间非常大。基于最佳一致逼近理论构造了高阶矩量法,并引入了计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现了并行加速计算二维电磁散射问题。实例结... 矩量法(MOM)在求解电磁场散射问题时,当未知量数目比较大时,其内存占用和计算时间非常大。基于最佳一致逼近理论构造了高阶矩量法,并引入了计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现了并行加速计算二维电磁散射问题。实例结果表明,在与快速多极子算法(FMM)相对比下,该方法在较低剖分的情况下,具有很高的计算精度,并且在阻抗矩阵填充和矩矢相乘时的速度大大提升,适用于电大尺寸目标的散射问题。 展开更多
关键词 矩量法(MOM) 最佳一致逼近 高阶矩量法 图形处理器(GPU) 计算统一设备架构(CUDA)
下载PDF
使用CUDA平台关于并行高斯-约当消去法的研究与比较 被引量:3
17
作者 毛飞 陈智骏 +1 位作者 梁效斐 曹奇英 《计算机应用与软件》 CSCD 2011年第9期269-271,共3页
使用CUDA平台,提出在通用图形处理器(GPGPU)上实现并行的全选主元、归一和消去等操作,加速实现并行全选主元高斯-约当消去法求解线性方程组的一种基本方法。该方法在CPU上完成解向量的恢复。根据NVIDIA公司最新Fermi架构图形处理器的特... 使用CUDA平台,提出在通用图形处理器(GPGPU)上实现并行的全选主元、归一和消去等操作,加速实现并行全选主元高斯-约当消去法求解线性方程组的一种基本方法。该方法在CPU上完成解向量的恢复。根据NVIDIA公司最新Fermi架构图形处理器的特点,通过一系列的优化设计,使通用GPGPU相对Intel最新架构CPU的加速比超过了6.5倍,比Intel上一代CPU的加速比超过了10倍。 展开更多
关键词 CUDA 并行计算 通用图形处理器 全选主元高斯-约当消去法
下载PDF
基于GPU的高阶辛FDTD算法的并行仿真研究 被引量:3
18
作者 马巍巍 孙冬 +1 位作者 吴先良 孙兵兵 《合肥工业大学学报(自然科学版)》 CSCD 北大核心 2012年第7期926-929,共4页
高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法... 高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法仿真;基于费米架构,分析了各种尺度网格下速度的提升,与传统的CPU实现该算法进行比较,验证了该方法的正确性和高速性。 展开更多
关键词 高阶辛时域有限差分算法 并行计算 计算统一设备架构 图形处理器 费米架构
下载PDF
基于UML描述的“4+1”视图模型及应用 被引量:2
19
作者 柳丹 陈志刚 雷卫军 《计算技术与自动化》 2001年第4期46-51,共6页
由于软件体系结构的描述方法多种多样 ,各种工具不仅涉及不同领域 ,而且描述方法不尽相同 ,给系统选择一种合适工具描述体系结构带来了难度。统一建模语言 The Unified Modeling L anguage(U ML)是一种被广泛采纳的可视化建模语言 ,它... 由于软件体系结构的描述方法多种多样 ,各种工具不仅涉及不同领域 ,而且描述方法不尽相同 ,给系统选择一种合适工具描述体系结构带来了难度。统一建模语言 The Unified Modeling L anguage(U ML)是一种被广泛采纳的可视化建模语言 ,它将系统结构的共同特征用相关语义、符号、图形加以描述。本文以 UML描述为基础 ,建立软件体系结构“4 +1”视图模型 ,从系统的多个视图描述软件体系结构出发以后提高软件开发效率、平衡软件质量与开发周期间的矛盾。本文结合“4 +1”视图模型给出“综合报警系统”在 ROSE2 0 0 展开更多
关键词 统一建模语言 软件体系结构 “4+1”视图模型 UML语言 软件开发
下载PDF
GRAPES动力框架中大规模稀疏线性系统并行求解及优化 被引量:2
20
作者 张琨 贾金芳 +2 位作者 严文昕 黄建强 王晓英 《计算机工程》 CAS CSCD 北大核心 2022年第1期149-154,162,共7页
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解... 赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。 展开更多
关键词 稀疏线性系统 广义共轭余差法 信息传递接口 OpenMP编程 统一计算架构
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部