期刊文献+
共找到369篇文章
< 1 2 19 >
每页显示 20 50 100
基于统一计算设备架构和基因表达式编程的自动聚类算法 被引量:1
1
作者 杜欣 刘大刚 +3 位作者 张开活 申远 赵康 倪友聪 《计算机应用》 CSCD 北大核心 2013年第7期1890-1893,1907,共5页
针对基于基因表达式编程(GEP)的自动聚类算法GEP-Cluster中聚类中心的筛选和聚合、计算数据对象到各聚类中心距离两个关键步骤效率不高的问题,提出了一种基于统一计算设备架构(CUDA)和GEP的自动聚类改进算法(CGEP-Cluster)。CGEP-Cluste... 针对基于基因表达式编程(GEP)的自动聚类算法GEP-Cluster中聚类中心的筛选和聚合、计算数据对象到各聚类中心距离两个关键步骤效率不高的问题,提出了一种基于统一计算设备架构(CUDA)和GEP的自动聚类改进算法(CGEP-Cluster)。CGEP-Cluster算法采用基因阅读运算器方法对GEP-Cluster算法的聚类中心筛选和聚合步骤进行改进,并基于CUDA将GEP-Cluster算法中数据对象到各聚类中心距离的计算并行化。实验结果表明,在数据对象规模较大时,CGEP-Cluster算法可获得8倍左右的加速比。CGEP-Cluster算法可用于聚类数未知且数据对象规模较大情况下的自动聚类。 展开更多
关键词 统一计算设备架构 基因表达式编程 聚类算法 GEP CLUSTER 演化算法
下载PDF
统一计算设备架构下的F-X域预测滤波并行算法
2
作者 杨先凤 贵红军 傅春常 《计算机应用》 CSCD 北大核心 2021年第2期486-491,共6页
针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一计算设备架构(CUDA)的并行算法。首先,对算法进行模块化分析以找到算法的计算瓶颈;然后从每个窗口数据计算相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理... 针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一计算设备架构(CUDA)的并行算法。首先,对算法进行模块化分析以找到算法的计算瓶颈;然后从每个窗口数据计算相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理器(GPU)将滤波过程分解为多个任务并行处理;最后,对算法进行并行实现,并对相邻滤波窗口的数据冗余读取进行优化以提升算法效率。基于NVIDIA Tesla K20c显卡的实验结果表明,在250×250大小工区的地震数据中,所提并行算法较原串行算法在效率上实现了10.9倍的提升,同时能保证工程中要求的计算精度。 展开更多
关键词 统一计算设备架构 并行计算 F-X域预测滤波 图形处理器 冗余读取优化
下载PDF
磁共振扩散张量成像数据分析中基于统一计算设备架构的高速行处理求解超定线性方程组方法
3
作者 王飞 高嵩 《中国医学影像技术》 CSCD 北大核心 2012年第6期1226-1229,共4页
目的提出一种运行于普通个人电脑平台上的并行方法,用于求解MR DTI中的超定线性方程组。方法利用统一计算设备架构(CUDA)使中央处理器(CPU)与图形处理器(GPU)协同求解超定线性方程组。CPU用于数据准备与生成扩散矩阵,GPU中的大量流处理... 目的提出一种运行于普通个人电脑平台上的并行方法,用于求解MR DTI中的超定线性方程组。方法利用统一计算设备架构(CUDA)使中央处理器(CPU)与图形处理器(GPU)协同求解超定线性方程组。CPU用于数据准备与生成扩散矩阵,GPU中的大量流处理器并行用于迭代计算。结果 CUDA模式下行处理运算速度远快于CPU串行计算,图像矩阵增大时这一优势更加明显。结论与CPU串行模式相比,CUDA模式可显著提高DTI数据处理速度。 展开更多
关键词 扩散磁共振成像 图像处理器 统一计算设备架构
下载PDF
基于统一计算设备架构的并行串匹配算法 被引量:3
4
作者 唐定车 刘任任 谭建龙 《计算机应用》 CSCD 北大核心 2009年第B06期399-401,共3页
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于... BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。 展开更多
关键词 统一计算设备架构 单指令多线程 并行 串匹配算法
下载PDF
统一计算设备架构并行图割算法用于肝脏肿瘤图像分割 被引量:4
5
作者 李拴强 冯前进 《中国生物医学工程学报》 CAS CSCD 北大核心 2010年第5期641-647,共7页
统一计算设备架构(CUDA)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。在研究了CUDA的设计思想和编程方式的基础上,对图割算... 统一计算设备架构(CUDA)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。在研究了CUDA的设计思想和编程方式的基础上,对图割算法进行了并行改造,并在CUDA上实现了其并行化。结合肝脏肿瘤的特点,引入感兴趣区域,改进了交互方法,实现了对肝脏肿瘤的分割。实验结果表明,该方法分割结果准确,鲁棒性强,执行效率高,易于交互和扩展。 展开更多
关键词 统一计算设备架构(CUDA) 图割 肝脏肿瘤 分割
下载PDF
基于统一计算设备架构的北斗软件接收机相关器设计
6
作者 谢维华 《测绘科学与工程》 2016年第6期68-72,共5页
软件接收机相对于硬件接收机更灵活,通过可编程的软件平台能实现卫星信号的捕获、跟踪和定位解算,但接收机中的相关器运算量大,基于PC平台的软件接收机难以达到实时处理。本文利用PC机显卡的图形处理器(GSU)设计并实现了一种基于... 软件接收机相对于硬件接收机更灵活,通过可编程的软件平台能实现卫星信号的捕获、跟踪和定位解算,但接收机中的相关器运算量大,基于PC平台的软件接收机难以达到实时处理。本文利用PC机显卡的图形处理器(GSU)设计并实现了一种基于统一计算设备架构的相关器。实验结果表明,该相关器能实时完成北斗B1、B2和B3频点民用信号的相关运算,且运算速度比采用中央处理器(cPu)的传统软件接收机相关器快10倍以上,实现了软件接收机对GNSS信号的实时处理功能。 展开更多
关键词 北斗卫星导航系统 统一计算设备架构 软件接收机 相关器 显卡处理单元
下载PDF
一种基于新型查表方法的统一计算设备架构并行计算全息算法 被引量:10
7
作者 蒋晓瑜 丛彬 +2 位作者 裴闯 闫兴鹏 赵锴 《光学学报》 EI CAS CSCD 北大核心 2015年第2期80-87,共8页
为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、... 为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、精度高、占用内存少等特点,克服了点源法重复计算相位的缺点。同时采用统一计算设备架构(CUDA)并行计算在图形处理器(GPU)上加以实现,并进行了三次并行优化。在算法的验证与对比实验中,采用单显卡(GPU显卡)实现T-LUT算法,在不牺牲全息图再现像质量的前提下,成功地将点源法计算全息的速度大幅度提升。实验发现在不同的物空间采样点数量的情况下,速度相对于点源法GPU运算提升30倍至近千倍不等。 展开更多
关键词 全息 三角函数查表算法 查表法 统一计算设备架构 并行计算
原文传递
基于计算统一设备架构的高铁故障诊断方法 被引量:3
8
作者 陈志 李天瑞 +1 位作者 李明 杨燕 《计算机应用》 CSCD 北大核心 2015年第10期2819-2823,共5页
为解决传统高铁振动信号故障诊断方法速度慢、难以满足实时处理的要求,提出一种基于计算统一设备架构(CUDA)加速的高铁振动信号故障诊断方法。首先利用CUDA架构对高铁数据进行经验模态分解(EMD),进而计算分解所得到的各个分量的模糊熵,... 为解决传统高铁振动信号故障诊断方法速度慢、难以满足实时处理的要求,提出一种基于计算统一设备架构(CUDA)加速的高铁振动信号故障诊断方法。首先利用CUDA架构对高铁数据进行经验模态分解(EMD),进而计算分解所得到的各个分量的模糊熵,最后利用最近邻分类(KNN)算法对多个模糊熵特征组成的特征空间进行故障分类。实验结果表明,该方法能高效地对高铁振动信号进行故障分类,运行速度较传统方法有明显提高。 展开更多
关键词 故障诊断 计算统一设备架构 经验模态分解 模糊熵 最近邻分类算法
下载PDF
计算机统一设备架构加速外部计算机断层图像重建 被引量:2
9
作者 曾理 倪风岳 +1 位作者 刘宝东 洪达平 《电子与信息学报》 EI CSCD 北大核心 2011年第11期2665-2671,共7页
外部计算机断层成像(CT)重建主要用于重建管状物(如管道)的管壁截面图像,具有重要的实际意义。外部CT重建算法中,带子区域平均图像总变差最小的凸集投影(SA-TVM-POCS)重建数值算法可以得到高质量的CT图像,可用于管道的无损检测。但由于... 外部计算机断层成像(CT)重建主要用于重建管状物(如管道)的管壁截面图像,具有重要的实际意义。外部CT重建算法中,带子区域平均图像总变差最小的凸集投影(SA-TVM-POCS)重建数值算法可以得到高质量的CT图像,可用于管道的无损检测。但由于在实现过程中计算量较大,阻碍了其在一些时间要求较高环境中的应用。计算机统一设备架构(Computer Unified Device Architecture,CUDA)是近几年发展起来的解决高强度计算的有效工具之一,该文利用CUDA的高强度并行计算性能,提高外部CT问题SA-TVM-POCS算法的速度,从而增加该算法的应用范围;为充分利用CUDA其高强度数据级并行计算能力,该文改进了SA-TVM-POCS算法的实现过程以适应CUDA的并行计算架构。实验结果表明,该文方法可以在重建图像质量没有下降的情况下,加速比达到20倍以上;所以,利用CUDA可以加快SA-TVM-POCS算法的计算速度。 展开更多
关键词 工业CT 外部图像重建 计算机统一设备架构 SA-TVM-POCS算法 并行计算
下载PDF
统一设备计算架构下的栅格河网提取并行算法 被引量:1
10
作者 王玉着 刘修国 张唯 《计算机应用》 CSCD 北大核心 2015年第4期960-963,967,共5页
针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时... 针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时间,进而加速河网提取的运算。实验结果表明,该算法运行效率明显优于串行河网提取算法,在NVIDIA Geforce GTX660上对数据量为600 MB(网格大小为9784×8507)数字高程模型(DEM)数据提取河网加速比达到62。 展开更多
关键词 统一设备计算架构 数字高程模型 栅格河网 D8算法 并行计算
下载PDF
基于线索KD-Tree的射线追踪并行计算
11
作者 厉夫兵 苏永琪 陈文剑 《计算机工程与设计》 北大核心 2023年第12期3677-3682,共6页
针对射线追踪过程中,由于射线数目巨大、部分目标场景复杂,造成计算效率低下的问题,采用线索KD-Tree (K-dimensional tree)空间加速算法,将目标场景进行有序组织,通过对线索KD-Tree进行无堆栈遍历,加快射线与目标场景求交的计算速度。... 针对射线追踪过程中,由于射线数目巨大、部分目标场景复杂,造成计算效率低下的问题,采用线索KD-Tree (K-dimensional tree)空间加速算法,将目标场景进行有序组织,通过对线索KD-Tree进行无堆栈遍历,加快射线与目标场景求交的计算速度。为解决传统方法中,串行计算射线与目标求交过程中造成待遍历射线多的问题,采用图形处理器(graphics processing unit, GPU)在统一计算设备架构(compute unified device architecture, CUDA)平台下并行处理所有射线,加快计算速度。实例仿真计算结果表明,基于线索KD-Tree的射线追踪并行计算相比于串行计算,计算效率提高,获得了很好的加速效果。 展开更多
关键词 射线追踪 线索KD-Tree 无堆栈遍历 求交测试 图形处理器 统一计算设备架构 并行计算
下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:2
12
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
基于计算统一设备架物Fortran的直接模拟蒙特卡洛方法并行优化 被引量:2
13
作者 严立 戴欣怡 +2 位作者 陈佳洛 王平阳 欧阳华 《上海交通大学学报》 EI CAS CSCD 北大核心 2013年第8期1198-1204,共7页
利用基于图形处理器(GPU)的计算统一设备架构(CUDA)Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不... 利用基于图形处理器(GPU)的计算统一设备架构(CUDA)Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4~10倍的加速比,并且加速性能高低与计算规模大小成正比. 展开更多
关键词 直接模拟蒙特卡洛 FORTRAN 图形处理器 计算统一设备架构 气动热
下载PDF
模板运算代码的自动生成与调优框架
14
作者 刘金硕 文尧 《计算机工程》 CAS CSCD 北大核心 2024年第6期35-47,共13页
针对现有模板代码生成方法不支持多图形处理器(GPU)、调优不充分等问题,提出一种由领域专用语言(DSL)描述的模板代码的自动生成与调优框架。在代码自动生成阶段,该框架能够自动解析上层提供的描述语言,构建计算图进而生成模板运算的统... 针对现有模板代码生成方法不支持多图形处理器(GPU)、调优不充分等问题,提出一种由领域专用语言(DSL)描述的模板代码的自动生成与调优框架。在代码自动生成阶段,该框架能够自动解析上层提供的描述语言,构建计算图进而生成模板运算的统一计算设备架构(CUDA)核函数,同时根据单GPU或多GPU环境生成不同的主机端代码。在代码调优阶段,根据不同的GPU型号确定候选参数范围,动态调用生成的CUDA核函数以确定最优参数。在多GPU的情况下,自动生成的主机端代码能够使用计算与通信重叠的方法进行边界数据交换。在4种不同的GPU与7、13、19、27点模板运算中,该框架能找到最优的参数配置。实验结果表明,对于Tesla V100-SXM2,以调优过的参数进行模板运算,该框架在单精度4种模板运算下的每秒万亿次浮点运算数(TFLOPs)分别为1.230、1.680、1.120、1.480,在双精度下分别为0.690、1.010、0.480、1.470,平均性能达到手工优化代码的98%,并且描述更简单,支持多GPU扩展。 展开更多
关键词 模板运算 统一计算设备架构 计算 领域专用语言 代码生成 自动调优
下载PDF
面向GPU的地形遮蔽探测并行算法
15
作者 孙卡 俞俗强 《计算机工程与应用》 CSCD 北大核心 2024年第15期66-76,共11页
地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算... 地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算法,解决了仿真计算速度慢的问题。在CPU端将雷达探测区域内离散采样点的高程数据矩阵化,进而提升高程值在并行化计算中的读取速度。针对雷达仿真计算参数对线程分配方式进行优化,采用循环对比方式对地形遮蔽角的计算进行并行加速。采用设备端线程同步和数据交替传输技术,确保计算结果一致性和最大化利用GPU端计算资源。采用多模式并行化计算模式,使用多线程并行化计算和单线程串行化计算来支撑GPU端计算资源不足时的退化计算,从而保证计算的高可用。实验结果表明,相较于i7-12700H CPU在仿真粒度为3 600条探测波束下的地形遮蔽串行计算和多线程并行计算,在3060 Laptop GPU下分别获取了48倍和17倍加速,为仿真实时性提供了有效的工程解决方案。 展开更多
关键词 并行计算 统一计算设备架构(CUDA) 高程矩阵 地球曲率 地形遮蔽算法
下载PDF
基于GPU的北斗B1宽带复合信号实时发生器设计
16
作者 王子涵 巴晓辉 +3 位作者 姜维 蔡伯根 王剑 文韬 《系统工程与电子技术》 EI CSCD 北大核心 2024年第3期795-804,共10页
为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier... 为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier,SCBOC)调制方式的信号体制进行设计,系统根据用户配置的接收机运动轨迹和星历文件,生成中频信号并通过射频端发射。为了进一步提升GPU并行运算速度,从优化设备内存结构、设计并行线程架构和统一计算设备架构流(compute unified device architecture stream,CUDA)加速3个方面,设计了基于异步运算的加速采样点数据计算的CUDA优化实现方案。测试结果证明,优化后的算法可以基于SCBOC调制实时生成北斗B1I+B1C信号,基于GTX3060的GPU平台,信号90 M采样率下能实现8颗卫星复合信号的实时生成。 展开更多
关键词 B1宽带复合信号 软件无线电 单边带复数二进制偏移载波调制 统一计算设备架构 实时生成
下载PDF
CUDA架构下的快速图像去噪 被引量:12
17
作者 李军 李艳辉 陈双平 《计算机工程与应用》 CSCD 北大核心 2009年第11期183-185,222,共4页
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器... 图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。 展开更多
关键词 图形处理器 图像去噪 统一计算设备架构 并行数据处理
下载PDF
面向CPU+GPU异构计算的SIFT特征匹配并行算法 被引量:11
18
作者 肖汉 郭运宏 周清雷 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第11期1732-1737,共6页
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给... 依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 展开更多
关键词 遥感影像 特征匹配 图形处理器(GPU) 统一计算设备架构(CUDA) 尺度不变特征变换(SIFT)
下载PDF
基于CUDA的加速MATLAB计算研究 被引量:9
19
作者 刘绍波 刘明贵 张国华 《计算机应用研究》 CSCD 北大核心 2010年第6期2140-2143,共4页
介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的... 介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性。 展开更多
关键词 统一计算设备架构 MATLAB 加速计算
下载PDF
基于GPU计算平台的三维波动方程叠前深度偏移 被引量:5
20
作者 匡斌 杜继修 +2 位作者 王华忠 郭见乐 单联瑜 《石油地球物理勘探》 EI CSCD 北大核心 2011年第5期705-709,836+661,共5页
GPU/CPU协同并行计算是一项全新的、具有革命性的技术,将对地震资料处理行业产生深远的影响。本文在充分发挥GPU存储带宽宽、多寄存器和多处理器结构特点的基础上,通过改进地震成像并行计算模块的核心函数,形成一套波动方程地震成像GPU... GPU/CPU协同并行计算是一项全新的、具有革命性的技术,将对地震资料处理行业产生深远的影响。本文在充分发挥GPU存储带宽宽、多寄存器和多处理器结构特点的基础上,通过改进地震成像并行计算模块的核心函数,形成一套波动方程地震成像GPU高效并行算法,并取得理想的加速比和可扩展性。所形成的一套GPU/CPU平台下波动方程叠前深度偏移软件,已投入地震资料处理实际应用。理论模型试算和实际资料的处理验证了本方法的有效性和实用性。 展开更多
关键词 图形处理器 统一计算设备架构 波动方程叠前深度偏移
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部