期刊文献+
共找到585篇文章
< 1 2 30 >
每页显示 20 50 100
基于GPU-CUDA的共轭斜量法实现及性能对比 被引量:1
1
作者 彭土有 《计算机时代》 2014年第4期4-6,共3页
偏微分方程数值解法(包括有限差分法、有限元法)以及大量的数学物理方程数值解法最终都会演变成求解大型线性方程组。因此,探讨快速、稳定、精确的大型线性方程组解法一直是数值计算领域不断深入研究的课题且具有特别重要的意义。在迭... 偏微分方程数值解法(包括有限差分法、有限元法)以及大量的数学物理方程数值解法最终都会演变成求解大型线性方程组。因此,探讨快速、稳定、精确的大型线性方程组解法一直是数值计算领域不断深入研究的课题且具有特别重要的意义。在迭代法中,共轭斜量法(又称共轭梯度法)被公认为最好的方法之一。但是,该方法最大缺点是仅适用于线性方程组系数矩阵为对称正定矩阵的情况,而且常规的CPU算法实现非常耗时。为此,通过将线性方程组系数矩阵作转换成对称矩阵后实施基于GPU-CUDA的快速共轭斜量法来解决一般性大型线性方程组的求解问题。试验结果表明:在求解效率方面,基于GPU-CUDA的共轭斜量法运行效率高,当线性方程组阶数超过3000时,其加速比将超过14;在解的精确性与求解过程的稳定性方面,与高斯列主元消去法相当。基于GPU-CUDA的快速共轭斜量法是求解一般性大型线性方程组快速而非常有效的方法。 展开更多
关键词 GPU CUDA 大型线性方程组 共轭斜量法 算法 并行计算
下载PDF
CPU-OpenMP和GPU-CUDA并行计算技术对矩阵乘法运算的加速效果分析 被引量:1
2
作者 张岩 《科技视界》 2017年第26期45-47,共3页
本文对比了CPU-OpenMP和GPU-CUDA并行计算技术对不同阶矩阵乘法运算相对于CPU单线程计算的加速效果。结果表明,CPU-OpenMP并行的计算加速比与矩阵阶数无关,且低于所采用的线程数目。GPU-CUDA并行的计算加速比随矩阵阶数的增加显著增加,... 本文对比了CPU-OpenMP和GPU-CUDA并行计算技术对不同阶矩阵乘法运算相对于CPU单线程计算的加速效果。结果表明,CPU-OpenMP并行的计算加速比与矩阵阶数无关,且低于所采用的线程数目。GPU-CUDA并行的计算加速比随矩阵阶数的增加显著增加,最大计算加速比可达570倍以上。相对于CPU单线程计算结果,CPU-OpenMP并行计算未产生误差,而GPU-CUDA并行计算会产生误差。结果表明,GPUCUDA并行适合高阶数矩阵乘法的加速计算,而CPU-OpenMP并行适合低阶数矩阵乘法的加速计算。 展开更多
关键词 矩阵乘法 并行计算 CPU-OpenMP gpu-cuda
下载PDF
基于GPU-CUDA并行的虚拟网格有限差分法求解器
3
作者 辛建建 石伏龙 《水动力学研究与进展(A辑)》 CSCD 北大核心 2023年第4期523-527,共5页
基于CPU/GPU异构体系架构的流体力学并行计算已经成为当前CFD研究领域的重点之一。该文自主开发了一高效虚拟网格法并行求解器以模拟绕动边界的不可压缩流动问题,基于GPU的计算统一设备架构(Computing Unified Device Architecture,CUDA... 基于CPU/GPU异构体系架构的流体力学并行计算已经成为当前CFD研究领域的重点之一。该文自主开发了一高效虚拟网格法并行求解器以模拟绕动边界的不可压缩流动问题,基于GPU的计算统一设备架构(Computing Unified Device Architecture,CUDA)并行编程模型对该求解器进行加速。该文模型采用有限差分法在交错直角网格上求解不可压缩Navier-Stokes方程,采用虚拟网格通过在浸入边界内布置有限数量的虚拟网格(固体内部但邻近流体的网格)以计及浸入边界对流场的影响。通过合理分配线程块内线程数量,减少主机与设备之间的数据通信,充分利用共享内存和高效求解泊松方程,提高并行效率。为验证该并行求解器的精度和效率,对静止流体中二维振荡圆柱和三维振荡球体算例进行模拟,研究发现:GPU并行求解器相比于CPU串行求解器在不同网格上均获得至少一个量级的加速比,且网格数量越多,加速效果越好,在二维细网格上获得100倍以上的加速比,在三维较细网格上获得超过4 000倍的加速比。 展开更多
关键词 虚拟网格法 不可压缩流动 并行计算 gpu-cuda
原文传递
矩阵乘法的GPU并行计算时耗模型与最优配置方法
4
作者 雷超 刘江 宋佳文 《计算机科学》 CSCD 北大核心 2024年第S01期810-817,共8页
水平矩阵乘竖直矩阵是科学计算及工程领域中的基本计算之一,很大程度上影响了整个算法的计算效率。GPU并行计算是迄今主流的并行计算方式之一,其底层设计使得GPU非常契合于大规模矩阵计算。迄今已经有许多研究基于GPU并行计算框架,针对... 水平矩阵乘竖直矩阵是科学计算及工程领域中的基本计算之一,很大程度上影响了整个算法的计算效率。GPU并行计算是迄今主流的并行计算方式之一,其底层设计使得GPU非常契合于大规模矩阵计算。迄今已经有许多研究基于GPU并行计算框架,针对矩阵的结构设计、优化矩阵乘法,但尚未有针对水平矩阵乘竖直矩阵的GPU并行算法及优化。此外,GPU核函数配置直接影响计算效率,但迄今针对最优核函数配置的研究极为有限,通常需要研究人员针对具体算法的计算特点启发式地设置。基于GPU的线程、内存模型,设计了一种并行水平矩阵乘竖直矩阵乘法PHVM。数值实验结果表明,在左乘矩阵的水平维度远远大于竖直维度时,PHVM要显著优于NVIDIAcuBLAS库中的通用矩阵乘法。进一步,基于GPU的硬件参数,建立了PHVM运行时间的核函数配置最优化理论模型。数值实验结果表明,该理论模型较为准确地描述了PHVM算法运行时间随核函数配置(网格大小、线程块大小)变换的变化趋势,且模型得出的理论最优核函数配置与实际最优运行核函数配置相符。 展开更多
关键词 矩阵乘法 GPU CUDA 核函数配置
下载PDF
协同CPU和GPU的核密度估计及其可视化算法
5
作者 胡森 高苏 蔡忠亮 《地理空间信息》 2024年第6期29-33,47,共6页
大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控... 大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控制能力、GPU的并行计算能力以及OpenGL中的核心模式,并借助显存映射,同时优化了核密度估计的计算和可视化2方面。实验结果表明,相较于CPU并行和串行算法,该算法的执行效率分别提高了约5倍和20倍,且随着图像分辨率的提高,加速比呈现逐步上升的趋势。 展开更多
关键词 核密度估计 可视化 GPU OPENGL 统一计算架构
下载PDF
基于GPU的分布式并行CFD计算方法
6
作者 丁一丹 吴之南 +2 位作者 范志君 潘雅欣 汪龙飞 《民用飞机设计与研究》 2024年第2期33-43,共11页
计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉... 计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉及复杂的湍流、反应流和多相流,涉及到大网格量级计算和大批量状态计算,因此需要大量的计算资源。为了提高计算效率,提出了一种基于图形处理单元(graphic processing unit,简称GPU)的分布式并行计算方法。该方法利用统一计算设备架构(compute unified device architecture,简称CUDA)和消息传递接口技术(message passing interface,简称MPI),在GPU上进行并行计算,并使用MPI在多GPU之间进行通信。该方法实现了计算任务和数据传输的并行化,并进行了多流并行优化和非阻塞通信优化,实现了GPU之间的负载均衡。同时将该方法应用于超音速平板流这个典型的CFD案例中,与CPU串行计算相比,单GPU获取了204倍的加速比,4GPU实现了近640倍的加速比,两节点8GPU获得了900倍以上的加速比。这表明该方法具有较好的并行效率和计算性能,在一定程度上解决了CFD应用的计算资源需求问题。 展开更多
关键词 CFD GPU并行计算 CUDA MPI 分布式
下载PDF
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
7
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout Optimization CUDA Performance Optimization GPU Memory Optimization Dynamic Programming Matrix Multiplication Memory Access Pattern Optimization in CUDA
下载PDF
基于GPU的二维梯形空腔流的格子Boltzmann模拟与分析
8
作者 陈百慧 施保昌 +1 位作者 汪垒 柴振华 《物理学报》 SCIE EI CAS CSCD 北大核心 2023年第15期137-158,共22页
采用格子Boltzmann方法模拟上下壁面驱动的二维梯形空腔流,并使用GPU-CUDA程序进行加速计算.主要采用本征正交分解方法,分析了4种壁面驱动条件的流场模态,并探究了雷诺数和驱动速度方向对流场形态的影响.结果表明:1)当上壁面单驱动(T1a)... 采用格子Boltzmann方法模拟上下壁面驱动的二维梯形空腔流,并使用GPU-CUDA程序进行加速计算.主要采用本征正交分解方法,分析了4种壁面驱动条件的流场模态,并探究了雷诺数和驱动速度方向对流场形态的影响.结果表明:1)当上壁面单驱动(T1a)时,若雷诺数为1000—8000,流场处于稳态流动;雷诺数为8500时,流场处于周期性非稳态流动;雷诺数大于10000时,流场处于非周期非稳态流动.2)当下壁面单驱动(T1b)时,若雷诺数在1000—8000之间,流场处于稳态流动;雷诺数增大至11500时,流场处于周期性非稳态流动;雷诺数大于12500时,流场进入非周期非稳态流动.3)当上下壁面同方向同速度双驱动(T2a)时,若雷诺数在1000—10000区间,流场均为稳态流动;雷诺数为12500—15000时,流场处于周期性非稳态流动;当雷诺数大于20000时,流场为非周期非稳态流动.4)当上下壁面反方向同速度双驱动(T2b)时,若雷诺数在1000—5000之间,流场处于稳态流动;雷诺数为6000时,流场处于周期性非稳态流动;雷诺数大于8000时,流场为非周期非稳态流动. 展开更多
关键词 格子BOLTZMANN 方法 梯形空腔 双壁面驱动 gpu-cuda 计算
下载PDF
基于线索KD-Tree的射线追踪并行计算
9
作者 厉夫兵 苏永琪 陈文剑 《计算机工程与设计》 北大核心 2023年第12期3677-3682,共6页
针对射线追踪过程中,由于射线数目巨大、部分目标场景复杂,造成计算效率低下的问题,采用线索KD-Tree (K-dimensional tree)空间加速算法,将目标场景进行有序组织,通过对线索KD-Tree进行无堆栈遍历,加快射线与目标场景求交的计算速度。... 针对射线追踪过程中,由于射线数目巨大、部分目标场景复杂,造成计算效率低下的问题,采用线索KD-Tree (K-dimensional tree)空间加速算法,将目标场景进行有序组织,通过对线索KD-Tree进行无堆栈遍历,加快射线与目标场景求交的计算速度。为解决传统方法中,串行计算射线与目标求交过程中造成待遍历射线多的问题,采用图形处理器(graphics processing unit, GPU)在统一计算设备架构(compute unified device architecture, CUDA)平台下并行处理所有射线,加快计算速度。实例仿真计算结果表明,基于线索KD-Tree的射线追踪并行计算相比于串行计算,计算效率提高,获得了很好的加速效果。 展开更多
关键词 射线追踪 线索KD-Tree 无堆栈遍历 求交测试 图形处理器 统一计算设备架构 并行计算
下载PDF
基于GPU和Python的粒子群优化算法研究
10
作者 熊大卫 胡建 陈园 《西南民族大学学报(自然科学版)》 CAS 2023年第4期424-428,共5页
针对基于Python语言的粒子群优化算法利用GPU实现加速的空缺问题,提出一种基于GPU和Python的改进粒子群优化算法:以CUDA架构和Python的Numba库为工具,将算法中的粒子评价、个体历史最优解更新、粒子升级三个部分进行CUDA编程,CUDA核函... 针对基于Python语言的粒子群优化算法利用GPU实现加速的空缺问题,提出一种基于GPU和Python的改进粒子群优化算法:以CUDA架构和Python的Numba库为工具,将算法中的粒子评价、个体历史最优解更新、粒子升级三个部分进行CUDA编程,CUDA核函数中每个线程按单个粒子并行调用,在默认流中完成计算.经4种测试函数实验验证,所提出的改进算法在维数和粒子数较小时运行速度不及粒子群优化算法,在维数和粒子数较大时加速效果明显,最优速度达到粒子群优化算法的3倍以上. 展开更多
关键词 粒子群优化算法 PYTHON GPU CUDA
下载PDF
基于GPU并行分块的二维恒虚警检测算法的实现方法
11
作者 罗扬静 夏添 +1 位作者 丁勇 王海涛 《国外电子测量技术》 北大核心 2023年第10期12-18,共7页
相对于一维恒虚警检测,二维恒虚警检测具有更优的杂波边缘和多目标检测性能。但二维恒虚警检测方法需要进行距离-多普勒两维计算,导致算法难以实时实现。针对这些问题,在基于图形处理器(GPU)和中央处理器(CPU)的架构下,提出了并行分块... 相对于一维恒虚警检测,二维恒虚警检测具有更优的杂波边缘和多目标检测性能。但二维恒虚警检测方法需要进行距离-多普勒两维计算,导致算法难以实时实现。针对这些问题,在基于图形处理器(GPU)和中央处理器(CPU)的架构下,提出了并行分块存储技术和块间数据并行归约求和方法,并结合统一计算设备架构(CUDA)技术,实现基于GPU的二维恒虚警检测算法并行处理。实验结果表明,相比于传统的CPU实现,所提的实现方法不仅具有优异杂波边缘检测性能,并且加速比达到了600倍以上,此外随着计算量的增加,加速效果更为显著,能够满足系统实时性和大吞吐量的要求。 展开更多
关键词 GPU CUDA 二维恒虚警检测 并行分块存储
下载PDF
面向多尺度拓扑优化的渐进均匀化GPU并行算法研究
12
作者 夏兆辉 刘健力 +4 位作者 高百川 聂涛 余琛 陈龙 余金桂 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2023年第6期722-735,共14页
针对多尺度结构拓扑设计计算效率低等问题,提出了一种基于水平集渐进均匀化的多尺度拓扑优化并行算法。基于通用图形处理器(graphics processing unit,GPU),通过水平集初始化、大型稀疏刚度矩阵方程求解以及本构矩阵并行计算,可大幅提... 针对多尺度结构拓扑设计计算效率低等问题,提出了一种基于水平集渐进均匀化的多尺度拓扑优化并行算法。基于通用图形处理器(graphics processing unit,GPU),通过水平集初始化、大型稀疏刚度矩阵方程求解以及本构矩阵并行计算,可大幅提升渐进均匀化算法的效率。实验结果表明,当三维晶胞单元网格细化至分辨率为10万时,多尺度结构拓扑优化GPU并行算法较CPU串行算法快数十倍。 展开更多
关键词 多尺度拓扑优化 渐进均匀化 统一计算设备架构(CUDA) GPU并行计算
下载PDF
Quantum Computer on Nvidia GPU
13
作者 Alexander Soiguine 《Journal of Applied Mathematics and Physics》 2023年第8期2195-2204,共10页
Geometric Algebra formalism opens the door to developing a theory deeper than conventional quantum mechanics. Generalizations, stemming from implementation of complex numbers as geometrically feasible objects in three... Geometric Algebra formalism opens the door to developing a theory deeper than conventional quantum mechanics. Generalizations, stemming from implementation of complex numbers as geometrically feasible objects in three dimensions, unambiguous definition of states, observables, measurements, Maxwell equations solution in those terms, bring into reality a kind of physical fields spreading through the whole three-dimensional space and values of the time parameter. The fields can be modified instantly in all points of space and time values, thus eliminating the concept of cause and effect, and perceiving of one-directional time. In the suggested theory all measured observable values get available all together, not through looking one by one. In this way quantum computer appeared to be a kind of analog computer keeping and instantly processing information by and on sets of objects possessing an infinite number of degrees of freedom. As practical implementation, the multithread GPUs bearing the CUDA language functionality allow to simultaneously calculate observable measurement values at a number of space/time discrete points only restricted by the GPU threads capacity. 展开更多
关键词 Geometric Algebra Quantum Mechanics Wave Functions Maxwell Equations GPU CUDA
下载PDF
GPU异构计算在深度学习训练加速中的应用
14
作者 赵杨 《信息与电脑》 2023年第23期56-58,共3页
基于统一计算设备架构(Compute Unified Device Architecture,CUDA)框架实现的主流深度学习框架能够直接利用图形处理器(Graphics Processing Unit,GPU)的硬件优势,并通过集成优化库如CUDA深度神经网络加速库(CUDA Deep Neural Network ... 基于统一计算设备架构(Compute Unified Device Architecture,CUDA)框架实现的主流深度学习框架能够直接利用图形处理器(Graphics Processing Unit,GPU)的硬件优势,并通过集成优化库如CUDA深度神经网络加速库(CUDA Deep Neural Network library,cuDNN)对卷积、循环等不同类型层进行针对性加速。文章首先介绍GPU架构及CUDA框架的工作原理,概述主流深度学习框架的GPU支持,重点分析CNN卷积层、循环神经网络(Recurrent Neural Networks,RNN)循环层等在GPU上的具体实现与优化手段。 展开更多
关键词 GPU 深度学习 异构计算 模型训练 CUDA
下载PDF
CPU-GPU协同高性能卫星数传预处理方法
15
作者 张鑫宇 杨甲森 +3 位作者 徐聪 陈志敏 智佳 陈托 《上海航天(中英文)》 CSCD 2023年第4期38-45,共8页
空间数据系统咨询委员会(CCSDS)协议的分层特征对数传预处理的完全并行提出挑战,虚拟信道、应用过程的多路复用为并行处理提供契机。本文面向高性能数传预处理需求,在分析处理性能瓶颈的基础上,提出一种层间流程中央处理器(CPU)控制、... 空间数据系统咨询委员会(CCSDS)协议的分层特征对数传预处理的完全并行提出挑战,虚拟信道、应用过程的多路复用为并行处理提供契机。本文面向高性能数传预处理需求,在分析处理性能瓶颈的基础上,提出一种层间流程中央处理器(CPU)控制、层内瓶颈步骤GPU加速的协同处理新方法。以高级在轨系统(AOS)帧循环冗余校验(CRC)、工程参数提取与物理量转换算法为研究对象,对图形处理器(GPU)线程分配、CPU-GPU协同任务划分进行设计。实验结果表明:方法可实现CRC校验11.4496 GB·s^(-1)、工程参数提取与物理量转换0.9024GB·s^(-1)的处理速率,性能较传统CPU架构提升显著。 展开更多
关键词 卫星 并行处理 数传数据预处理 中央处理器(GPU) 统一计算设备架构(CUDA)
下载PDF
基于GPU的Prewitt算法实现及其在探地雷达中的应用 被引量:3
16
作者 彭土有 董清华 《计算机科学与应用》 2013年第3期153-158,共6页
图像的边缘是图像的重要特征之一,边缘检测是提取图像特征的重要手段。GPU-CUDA并行技术作为当前最热门的高性能处理技术,是并行Prewitt边缘检测算法实现的首选。由于常规的基于CPU的Prewitt算法计算量大、耗时,其应用受到很大限制。为... 图像的边缘是图像的重要特征之一,边缘检测是提取图像特征的重要手段。GPU-CUDA并行技术作为当前最热门的高性能处理技术,是并行Prewitt边缘检测算法实现的首选。由于常规的基于CPU的Prewitt算法计算量大、耗时,其应用受到很大限制。为了提高算法的效率,文中应用GPU-CUDA技术实现Prewitt算法及快速成像,获得了较高的加速比。最后,通过将实测探地雷达数据转换成灰度图像数据,并实施基于GPU的Prewitt算法处理的方法思路,对实测探地雷达数据进行处理。试验结果表明该算法不仅运行效率高,而且在突出有效异常,提高目标体的识别能力方面取得实效。 展开更多
关键词 边缘检测 Prewitt算法 gpu-cuda 探地雷达 成像
下载PDF
基于CUDA的并行雷达拼图算法研究
17
作者 韩丰 高嵩 +1 位作者 薛峰 李月安 《气象》 CSCD 北大核心 2023年第10期1246-1253,共8页
雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义... 雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义。采用中央处理器(central processing unit,CPU)和图形处理器(graphics processing unit,GPU)混合架构设计并行雷达拼图算法,其中CPU负责雷达数据的解析和调度GPU并行模块,GPU负责大规模数据的并行计算。通过分析计算统一设备架构(compute unified device architecture,CUDA)算法的并行开销和拼图算法的特点,提出并实现了GPU内存管理优化和数据交换流程优化方案,提高了组网拼图算法的效率。对比试验结果表明,基于CUDA的GPU并行拼图算法和SWAN中30线程并行的CPU算法相比,在全国1 km和500 m分辨率的拼图任务上,加速比分别达到3.52和6.82。综上,基于CUDA的并行拼图算法不仅可以提高SWAN短时临近算法序列的时效性,也为更高分辨率雷达资料的拼图提供了技术支持。 展开更多
关键词 组网拼图 GPU并行 计算统一设备架构(CUDA) 强对流天气短时临近预报系统(SWAN)
下载PDF
基于GPU并行的重力、重力梯度三维正演快速计算及反演策略 被引量:45
18
作者 陈召曦 孟小红 +1 位作者 郭良辉 刘国峰 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2012年第12期4069-4077,共9页
利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物... 利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物性模型进行组合近似,利用解析方法计算出所有物性模型在计算点的异常值并累加求和,得到整个模型体在某一计算点引起的重力(或重力梯度)值.针对精细的复杂模型体产生的问题,采用GPU并行计算技术,主要包括线程有效索引与优化的并行归约技术进行高效计算.在显卡型号为NVIDIAQuadro 2000相对于单线程CPU程序,重力和重力梯度Uxx、Uxy正演计算可以分别达到60与50倍的加速.本文还讨论了GPU并行计算在两种反演方法中的策略,为快速三维反演技术提供了借鉴. 展开更多
关键词 GPU CUDA 正演计算 重力 重力梯度 加速比
下载PDF
基于GPU的快速Sobel边缘检测算法 被引量:27
19
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《光电工程》 CAS CSCD 北大核心 2009年第1期8-12,共5页
传统的Soble边缘检测算法的优化和实现都是针对常用处理器(CPU、DSP和FPGA等)提出的,难以应用在图像处理器(GPU)上。本文提出了一种基于NVIDIA公司CUDA架构图形处理器(GPU)的快速Sobel边缘检测算法。快速算法根据GPU的并行结构和硬件特... 传统的Soble边缘检测算法的优化和实现都是针对常用处理器(CPU、DSP和FPGA等)提出的,难以应用在图像处理器(GPU)上。本文提出了一种基于NVIDIA公司CUDA架构图形处理器(GPU)的快速Sobel边缘检测算法。快速算法根据GPU的并行结构和硬件特点,采用了纹理存储技术、多点访问技术和对称计算技术三种加速技术,优化了数据存储结构,提高了数据访问效率,降低了算法复杂度。实验结果表明,快速算法充分利用了GPU的并行处理能力,在处理4096×4096分辨力的8位灰度图像时速度可达190fps,是基于CPU实现的122倍。 展开更多
关键词 GPU CUDA SOBEL 边缘检测
下载PDF
基于GPU的现代并行优化算法 被引量:27
20
作者 张庆科 杨波 +1 位作者 王琳 朱福祥 《计算机科学》 CSCD 北大核心 2012年第4期304-310,F0003,共8页
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模... 针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。 展开更多
关键词 现代优化算法 图形处理器(GPU) 计算统一设备架构(CUDA) 组合优化 并行计算
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部