期刊文献+
共找到235篇文章
< 1 2 12 >
每页显示 20 50 100
GNNSched:面向GPU的图神经网络推理任务调度框架 被引量:1
1
作者 孙庆骁 刘轶 +4 位作者 杨海龙 王一晴 贾婕 栾钟治 钱德沛 《计算机工程与科学》 CSCD 北大核心 2024年第1期1-11,共11页
由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并... 由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并发任务的显存占用情况,以确保并发任务在GPU上的成功共置。此外,多租户场景提交的推理任务亟需灵活的调度策略,以满足并发推理任务的服务质量要求。为了解决上述问题,提出了GNNSched,其在GPU上高效管理GNN推理任务的共置运行。具体来说,GNNSched将并发推理任务组织为队列,并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组,这些任务组被迭代地提交到GPU并发执行。实验结果表明,GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。 展开更多
关键词 图神经网络 图形处理器 推理框架 任务调度 估计模型
下载PDF
基于多GPU数值框架的流域地表径流过程数值模拟
2
作者 冯新政 张大伟 +1 位作者 徐海卿 鞠琴 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期48-55,共8页
与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体... 与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体积法离散完整二维浅水方程组建立模型,通过消息传递接口(message passing interface,MPI)与统一计算设备架构(compute unified device architecture,CUDA)相结合的技术实现了基于多图形处理器(graphics processing unit,GPU)的高性能加速计算,采用理想算例和真实流域算例验证模型具有较好的数值计算精度,其中,理想算例中洪峰的相对误差为0.011%,真实流域算例中洪峰的相对误差为2.98%。选取宝盖寺流域为研究对象,分析不同单元分辨率下模型的加速效果,结果表明:在5、2、1 m分辨率下,使用8张GPU卡计算获得的加速比分别为1.58、3.92、5.77,单元分辨率越高,即单元数越多,多GPU卡的加速效果越明显。基于多GPU的水动力模型加速潜力巨大,可为数字孪生流域建设提供有力技术支撑。 展开更多
关键词 水动力模型 地表径流 gpu Godunov格式 加速比
下载PDF
基于GPU加速的投影后变分壳模型计算
3
作者 陆晓 连占江 高早春 《原子能科学技术》 EI CAS CSCD 北大核心 2024年第2期272-278,共7页
为进一步拓展投影后变分(VAP)壳模型计算应用核区范围,需提升VAP的计算效率。为此,利用OpenACC并行编程指令,首次将VAP程序从传统的CPU平台移植到了高性能GPU计算平台上。在角动量投影的每个积分格点上实现了数目庞大的各独立转动矩阵元... 为进一步拓展投影后变分(VAP)壳模型计算应用核区范围,需提升VAP的计算效率。为此,利用OpenACC并行编程指令,首次将VAP程序从传统的CPU平台移植到了高性能GPU计算平台上。在角动量投影的每个积分格点上实现了数目庞大的各独立转动矩阵元的GPU并行化计算。经验证,采用GPU加速后的VAP程序计算得到的结果与原来的OpenMP并行化程序计算得到的结果完全相同,而计算效率得到了数倍的提升。借助于GPU加速技术,首次计算了变形重核^(178)Hf的基带能谱,打开了VAP壳模型方法应用于变形稀土重核之门。 展开更多
关键词 壳模型 投影后变分 gpu OpenACC
下载PDF
基于GPU加速的分布式水文模型并行计算性能
4
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
下载PDF
基于GPU加速的溃坝洪水演进模拟研究
5
作者 康永德 李伟 +4 位作者 许尔文 任小凤 王荣新 闫春鸣 敬文茂 《水电能源科学》 北大核心 2024年第3期20-24,共5页
溃坝洪水演进与淹没范围快速模拟,对指导抢险救灾至关重要。为此,引入GPU加速技术,构建了一套高效高分辨率溃坝数值模型,与经典三驼峰溃坝试验对比发现,模拟结果与试验结果非常吻合,并利用该模型模拟了典型溃坝洪水演进及溃口流场、溃... 溃坝洪水演进与淹没范围快速模拟,对指导抢险救灾至关重要。为此,引入GPU加速技术,构建了一套高效高分辨率溃坝数值模型,与经典三驼峰溃坝试验对比发现,模拟结果与试验结果非常吻合,并利用该模型模拟了典型溃坝洪水演进及溃口流场、溃后水位变化情况。结果表明,模型能较好地模拟溃坝洪水演进,较好捕捉溃口发展过程及泥沙输移。t=200 s时溃决流量出现小峰值4 m3/s,t=450 s时,溃决流量出现最大峰值13.8 m3/s;随着下泄流量增大,溃口加速侵蚀和冲刷并逐渐连通,溃口由0.21 m扩大至0.40 m。GPU加速比约为CPU的10.33~13.75倍,且网格数越多,加速效果越明显。 展开更多
关键词 溃坝 水动力模型 洪水演进 gpu加速
下载PDF
Script-Based GPU-Ready ELM Development for Continuous Code Integration
6
作者 Peter Schwartz Dali Wang +1 位作者 Fengming Yuan Peter Thornton 《Journal of Computer and Communications》 2024年第5期102-106,共5页
Designing and optimizing complex scientific code for new computing architectures is a challenging task. To address this issue in the E3SM land model (ELM) development, we developed a software tool called SPEL, which f... Designing and optimizing complex scientific code for new computing architectures is a challenging task. To address this issue in the E3SM land model (ELM) development, we developed a software tool called SPEL, which facilitates code generation, verification, and performance tuning using compiler directives within a Function Unit Test framework. In this paper, we present a SPEL extension that leverages the version control system (e.g., Git) to autonomous code generation and demonstrate its application to continuous code integration and development of the ELM software system. The study can benefit the scientific software development community. 展开更多
关键词 E3SM Land model gpu Code Porting Continuous Code Integration SPEL Scientific Software Refactorization
下载PDF
基于Seed-PCG法的列车-轨道-地基土三维随机振动GPU并行计算方法
7
作者 朱志辉 冯杨 +2 位作者 杨啸 李昊 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第1期302-316,共15页
为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随... 为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随机振动分析产生的多右端项线性方程组求解问题,采用Seed-PCG方法进行求解。通过PCG方法求解种子系统得到的Krylov子空间进行投影,以改进其余线性方程组的初始解和对应的初始残量,有效提高了PCG法的收敛速度,最后,在MATLABCUDA混合平台上开发了并行计算程序。数值算例表明:相同计算平台下的该方法相比多点同步算法获得了104.2倍的加速;相比PCG法逐个求解方案减少了18%的迭代次数,获得了1.21倍的加速。 展开更多
关键词 Seed-PCG法 多右端项线性方程组 随机振动 gpu并行计算 列车-轨道-地基土耦合模型
下载PDF
GPU数据库OLAP优化技术研究
8
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合CPU-gpu平台 gpu加速OLAP OLAP gpu内存 gpu量化处理模型
下载PDF
面向深度学习图像分类的GPU并行方法研究 被引量:1
9
作者 韩彦岭 沈思扬 +3 位作者 徐利军 王静 张云 周汝雁 《计算机工程》 CAS CSCD 北大核心 2023年第1期191-200,共10页
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加... 针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。 展开更多
关键词 gpu并行 Ring All Reduce算法 数据并行 模型并行 深度学习 图像分类
下载PDF
基于GPU的点云模型快速重建方法
10
作者 吕建新 马礼 +2 位作者 傅颖勋 李阳 马东超 《计算机工程与设计》 北大核心 2023年第11期3440-3446,共7页
利用GPU并行特点,将点云数据分块并行处理,实施多线程并行重建。从有序点云的数据关系入手,设计点云处理平滑在内的数据处理方法。利用GPU对分块数据快速三角化曲面重建,使用拉普拉斯算法对重建后的曲面进行平滑处理。通过对5组不同的... 利用GPU并行特点,将点云数据分块并行处理,实施多线程并行重建。从有序点云的数据关系入手,设计点云处理平滑在内的数据处理方法。利用GPU对分块数据快速三角化曲面重建,使用拉普拉斯算法对重建后的曲面进行平滑处理。通过对5组不同的海量数据进行重构模型实验,与传统的单纯使用CPU重构方式相比,GPU方式将模型重构速率提升了数十倍至上百倍,模型重建速度得到了大幅度的提升,可有效适用于高精度器件装检预判,提高装配质量。 展开更多
关键词 有序点云 点云分块 三角化 多线程 图形处理器并行运算 表面重建 模型平滑
下载PDF
GPU异构计算在深度学习训练加速中的应用
11
作者 赵杨 《信息与电脑》 2023年第23期56-58,共3页
基于统一计算设备架构(Compute Unified Device Architecture,CUDA)框架实现的主流深度学习框架能够直接利用图形处理器(Graphics Processing Unit,GPU)的硬件优势,并通过集成优化库如CUDA深度神经网络加速库(CUDA Deep Neural Network ... 基于统一计算设备架构(Compute Unified Device Architecture,CUDA)框架实现的主流深度学习框架能够直接利用图形处理器(Graphics Processing Unit,GPU)的硬件优势,并通过集成优化库如CUDA深度神经网络加速库(CUDA Deep Neural Network library,cuDNN)对卷积、循环等不同类型层进行针对性加速。文章首先介绍GPU架构及CUDA框架的工作原理,概述主流深度学习框架的GPU支持,重点分析CNN卷积层、循环神经网络(Recurrent Neural Networks,RNN)循环层等在GPU上的具体实现与优化手段。 展开更多
关键词 gpu 深度学习 异构计算 模型训练 CUDA
下载PDF
基于嵌入式GPU的特征畸变单目视觉定位系统的研究
12
作者 陈泽鹏 李文湧 +4 位作者 劳子健 陈羽 李佼洋 王嘉辉 郑民 《应用光学》 CAS 北大核心 2023年第3期469-475,共7页
视觉定位和导航在物流仓储等领域具有广泛的应用前景,传统单目视觉难以实现准确的定位,而双目视觉虽能完成精确的定位和导航,但硬件成本高且影响车体尺寸。提出一种基于特征物形变的单目定位技术,利用单个相机对地面铺设的特征物(带编... 视觉定位和导航在物流仓储等领域具有广泛的应用前景,传统单目视觉难以实现准确的定位,而双目视觉虽能完成精确的定位和导航,但硬件成本高且影响车体尺寸。提出一种基于特征物形变的单目定位技术,利用单个相机对地面铺设的特征物(带编码的圆环图案)的畸变进行记录,以嵌入式图像处理单元(graphics processing unit,GPU)进行分析,实现端到端的单目视觉定位。其中嵌入式GPU对相机采集的图像通过深度学习目标检测算法识别特征圆环的编码图案,经传统图像处理获取图案物像的形变信息,将该形变信息输入至经极端梯度提升算法(extreme gradient boosting,XGBoost)训练好的回归模型,预测出相机相对图案中心的坐标,同时结合该特征圆环的绝对坐标,最终解算出相机的室内绝对坐标。实验结果表明:在2 m×2 m的范围内定位平均误差仅为0.55 cm,优于文献报道1个数量级,且算法在电脑端和在嵌入式GPU上的定位解算帧率分别为20帧和4帧,具有实时性。 展开更多
关键词 嵌入式gpu 室内定位 深度学习 回归模型 圆环编码图案
下载PDF
面向大图子图匹配的多GPU编程模型 被引量:2
13
作者 李岑浩 崔鹏杰 +1 位作者 袁野 王国仁 《计算机科学与探索》 CSCD 北大核心 2023年第7期1576-1585,共10页
子图匹配是复杂网络中进行数据挖掘的重要手段。近年来,基于图形处理器(GPU)的子图匹配算法已展现明显的速度优势。然而,由于大图数据的规模宏大以及子图匹配的大量中间结果,单块GPU的内存容量很快成为了处理大图子图匹配算法的主要瓶... 子图匹配是复杂网络中进行数据挖掘的重要手段。近年来,基于图形处理器(GPU)的子图匹配算法已展现明显的速度优势。然而,由于大图数据的规模宏大以及子图匹配的大量中间结果,单块GPU的内存容量很快成为了处理大图子图匹配算法的主要瓶颈。因此,提出了一种面向大图子图匹配的多GPU编程模型。首先,提出了基于多GPU的子图匹配算法框架,实现了子图匹配算法在多GPU上的协同操作,解决了GPU大图子图匹配的图规模问题。其次,采用了一种基于查询图的动态调节技术来处理跨分区子图集,解决了图划分导致的跨分区子图匹配难题。最后,结合GPU单指令多线程(SIMT)架构特性,提出一种优先级调度策略保证GPU的内部负载均衡,并设计了共享内存的流水线机制优化多核并发的缓存争用。实验表明,多GPU编程模型能够在数十亿级别的数据集上得到正确的匹配结果,与最新的基于GPU的解决方案相比,该算法框架能够获得1.2~2.6倍的加速比。 展开更多
关键词 图分析 gpu 大图子图匹配 优先级调度 并行编程模型
下载PDF
任意起伏地形下重力异常三维正演及并行计算
14
作者 戴世坤 朱德祥 +4 位作者 张莹 李昆 陈轻蕊 凌嘉宣 田红军 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2024年第2期768-780,共13页
为了进一步提高空间-波数域三维重力异常正演算法的适用范围和计算效率,本文采用任意傅里叶变换算法实现了空间-波数域三维重力异常正演,且在NVIDIA CUDA平台上进行CPU-GPU并行加速.任意傅里叶变换算法的基本思想是将二维傅里叶变换转... 为了进一步提高空间-波数域三维重力异常正演算法的适用范围和计算效率,本文采用任意傅里叶变换算法实现了空间-波数域三维重力异常正演,且在NVIDIA CUDA平台上进行CPU-GPU并行加速.任意傅里叶变换算法的基本思想是将二维傅里叶变换转化为两个一维傅里叶变换,一维傅里叶变换积分离散为多个单元积分累加和,离散单元中原函数采用二次插值形函数拟合,求出单元积分的解析表达式.相比现有的傅里叶变换算法,新方法具有采样灵活、积分精度高、计算速度快和傅里叶变换的截断效应小等优势.利用空间-波数域算法的高度并行性,采用CPU并行求解常微分方程,GPU并行计算任意傅里叶变换,实现了CPU-GPU并行加速方案,进一步提升了本文算法效率.利用常密度模型,对比数值解和解析解,结果表明本文算法正确;利用变密度模型对比了任意傅里叶变换算法与高斯快速傅里叶变换算法的计算效率与精度,在相近的数值精度下,本文算法波数选取少,效率高;测试CPU-GPU并行效果,结果表明相比CPU串行算法,CPU-GPU并行算法的计算效率大大提升,千万数量级节点数模型正演仅耗时数秒.最后利用实际地形数据进行三维重力异常场数值模拟,证明了新方法的高效性与实用性,对实现大规模复杂条件下重力异常精细化反演成像与综合解释有重要意义. 展开更多
关键词 空间-波数域 任意傅里叶变换 三维重力异常正演 CPU-gpu并行
下载PDF
列车-轨道-地基土耦合系统三维随机振动的多GPU并行计算方法
15
作者 朱志辉 杨啸 +2 位作者 李昊 徐海坤 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2023年第5期1722-1736,共15页
针对列车-轨道-地基土耦合系统随机计算效率低的问题,本文提出了基于多GPU的列车-轨道-地基土随机振动方程的高效并行计算方法。基于OpenMP-CUDA混编技术将虚拟激励法不同频点下的多个线性方程组求解任务分配给多个GPU并行执行;在每块GP... 针对列车-轨道-地基土耦合系统随机计算效率低的问题,本文提出了基于多GPU的列车-轨道-地基土随机振动方程的高效并行计算方法。基于OpenMP-CUDA混编技术将虚拟激励法不同频点下的多个线性方程组求解任务分配给多个GPU并行执行;在每块GPU上,采用基于CUDA的预处理共轭梯度法(PCG)并行求解对称正定的等效静力平衡方程。针对耦合系统等效刚度矩阵的稀疏特性,采用行压缩(CSR)格式存储大型稀疏矩阵以节省内存空间。最终通过MATLAB-CUDA混合平台开发并行计算程序,解决了随机振动分析中多个线性方程组串行求解效率低的难题。数值算例表明,基于四GPU节点的多GPU并行算法和单GPU加速PCG算法的计算效率是串行多点同步算法(MPSA)计算效率的22.59倍和3.75倍。 展开更多
关键词 随机振动 并行计算 gpu 三维有限元法 列车-轨道-地基土耦合模型
下载PDF
一种基于并行度分析模型的GPU功耗优化技术 被引量:13
16
作者 林一松 杨学军 +2 位作者 唐滔 王桂彬 徐新海 《计算机学报》 EI CSCD 北大核心 2011年第4期705-716,共12页
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序的运行.为了追求高性能,GPU往往包含成百上千个核心运算单元.高密度的计算资源,使得其在性能远高于CPU的同时功耗也高于CPU.功耗问题已经... 随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序的运行.为了追求高性能,GPU往往包含成百上千个核心运算单元.高密度的计算资源,使得其在性能远高于CPU的同时功耗也高于CPU.功耗问题已经成为制约GPU发展的重要问题之一.DVFS技术被广泛应用于处理器的低功耗优化,而对GPU进行相应研究的前提是对其程序运行过程进行分析和建模,从而可以根据应用程序的特征来确定优化策略.此外,GPU主要由图形处理器芯片和片外的DRAM组成,有研究指出针对这类系统的功耗优化应当综合考虑处理器和存储器,使二者可以互相协调以达到更好的优化效果.文中在一个已有的基于程序并行度分析的GPU性能模型的基础上,综合考虑计算部件与存储部件的功耗,建立了性能约束条件下的GPU功耗优化模型.对于给定的程序,在满足性能约束的前提下,以功耗最优为目标分别给出处理器和存储器的DVFS优化策略.作者选取了9个测试用例在3种模拟平台上进行了实验验证,结果表明文中的方法可以在满足性能约束条件10%的误差范围内获得最优的GPU能量消耗. 展开更多
关键词 gpu 并行度模型 功耗模型 功耗优化
下载PDF
基于GPU并行的重力、重力梯度三维正演快速计算及反演策略 被引量:45
17
作者 陈召曦 孟小红 +1 位作者 郭良辉 刘国峰 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2012年第12期4069-4077,共9页
利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物... 利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物性模型进行组合近似,利用解析方法计算出所有物性模型在计算点的异常值并累加求和,得到整个模型体在某一计算点引起的重力(或重力梯度)值.针对精细的复杂模型体产生的问题,采用GPU并行计算技术,主要包括线程有效索引与优化的并行归约技术进行高效计算.在显卡型号为NVIDIAQuadro 2000相对于单线程CPU程序,重力和重力梯度Uxx、Uxy正演计算可以分别达到60与50倍的加速.本文还讨论了GPU并行计算在两种反演方法中的策略,为快速三维反演技术提供了借鉴. 展开更多
关键词 gpu CUDA 正演计算 重力 重力梯度 加速比
下载PDF
面向GPU异构并行系统的多任务流编程模型 被引量:11
18
作者 董小社 刘超 +2 位作者 王恩东 刘袁 张兴军 《计算机学报》 EI CSCD 北大核心 2014年第7期1638-1646,共9页
传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,... 传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,利用系统硬件并行性特点实现程序任务级和数据级并行;采用任务间消息通信和任务内数据共享通信方式,既保证对传统并行应用的继承又降低了不同存储空间给应用开发带来的复杂性和难度.基于该编程模型实现了一个运行时支持系统原型,测试结果表明可保证高效的数据通信,且能充分利用系统计算能力,提高了应用程序运行效率. 展开更多
关键词 gpu 异构并行 编程模型
下载PDF
城市二维内涝模型的GPU并行方法 被引量:18
19
作者 向小华 陈颖悟 +3 位作者 吴晓玲 李超 王志伟 康爱卿 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期528-533,共6页
针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并... 针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并行模型的效率进行分析,结果表明,基于GPU的并行计算技术可以显著提升模型运行效率,在5 m分辨率下能够8 min内模拟12 h的内涝事件,可用于突发内涝事件下的快速响应;并行模型的加速效果在更高的空间分辨率下表现更明显,在2 m分辨率下取得最高10.86倍的加速比;要最大化发挥GPU计算效率,首先需要单步长有较大的计算量,其次是要尽量减少与GPU的数据频繁传输导致的额外开销。 展开更多
关键词 城市二维内涝模型 gpu加速 CUDA 加速比 网格分辨率
下载PDF
基于GPU和物理模型的油田井喷着火仿真 被引量:3
20
作者 任庆东 杨晓丹 +1 位作者 刘贤梅 刘亚梅 《计算机仿真》 CSCD 北大核心 2012年第7期264-268,共5页
为了实现油田井喷着火仿真,分析了油田井喷着火的特有物理属性,针对传统方法实时性和火喷连续性差,缺乏真实效果,提出利用流体模型和燃烧公式相结合的方法确定油田井喷着火的物理模型,并通过黑体辐射与粒子系统相结合的方法实现火焰的... 为了实现油田井喷着火仿真,分析了油田井喷着火的特有物理属性,针对传统方法实时性和火喷连续性差,缺乏真实效果,提出利用流体模型和燃烧公式相结合的方法确定油田井喷着火的物理模型,并通过黑体辐射与粒子系统相结合的方法实现火焰的绘制。通过Helmholtz-Hodge分解,分别计算N-S方程的对流项、扩散项、投影项。将GPU应用到火焰的住址和绘制过程中,利用GPU的并行性和可编程性,能够提高N-S方程的求解速度和粒子系统的计算速度,节约计算时间,高效地实现油田井喷着火仿真效果。 展开更多
关键词 井喷着火 图形处理器 物理模型 火焰仿真
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部