期刊文献+
共找到388篇文章
< 1 2 20 >
每页显示 20 50 100
Compute Unified Device Architecture Implementation of Euler/Navier-Stokes Solver on Graphics Processing Unit Desktop Platform for 2-D Compressible Flows
1
作者 Zhang Jiale Chen Hongquan 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2016年第5期536-545,共10页
Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/N... Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/Navier-Stokes solver is developed for 2-D compressible flows by using NVIDIA′s Compute Unified Device Architecture(CUDA)programming model in CUDA Fortran programming language.The techniques of implementation of CUDA kernels,double-layered thread hierarchy and variety memory hierarchy are presented to form the GPU-based algorithm of Euler/Navier-Stokes equations.The resulting parallel solver is validated by a set of typical test flow cases.The numerical results show that dozens of times speedup relative to a serial CPU implementation can be achieved using a single GPU desktop platform,which demonstrates that a GPU desktop can serve as a costeffective parallel computing platform to accelerate computational fluid dynamics(CFD)simulations substantially. 展开更多
关键词 graphics processing unit(gpu) gpu parallel computing compute unified device architecture(cuda)Fortran finite volume method(FVM) acceleration
下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:17
2
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(gpu) 通用并行计算架构(cuda)
下载PDF
基于CUDA的多GPU加速SART迭代重建算法 被引量:7
3
作者 雷德川 陈浩 +3 位作者 王远 张成鑫 陈云斌 胡栋材 《强激光与粒子束》 EI CAS CSCD 北大核心 2013年第9期2418-2422,共5页
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步... 为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。 展开更多
关键词 计算机断层成像 统一计算机架构 SART gpu
下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
4
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
下载PDF
基于CUDA的热传导GPU并行算法研究 被引量:3
5
作者 孟小华 黄丛珊 朱丽莎 《计算机工程》 CAS CSCD 2014年第5期41-44,48,共5页
在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式... 在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。 展开更多
关键词 热传导算法 图形处理单元 统一计算设备架构 并行计算 时间效率 加速比
下载PDF
CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法 被引量:1
6
作者 段琼 田博 +2 位作者 陈征 王洁 何增有 《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1525-1538,共14页
蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白... 蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白质质谱数据成为可能.目前基于TD质谱数据的完整蛋白质鉴定算法虽然在匹配精度、PTM位点的推断上取得了一些成效,但它们运行时间还有很大的不足和提升空间.利用图形处理器(graphics processing unit,GPU)可以将大规模的重复计算并行化,提高串行程序的执行速度.CUDA-TP算法基于通用并行计算架构(compute unified device architecture,CUDA)来计算蛋白质与TD质谱数据的匹配分数.首先,对每一个质谱数据,CUDA-TP利用优化的MS-Filter算法在蛋白质数据库中过滤出其对应的少数候选蛋白质集合,然后通过AVL(adelson-velskii and landis)树加速质谱匹配过程.GPU中的多线程技术被用来并行化谱图网格及最终数组中所有元素的前驱结点的求解.同时,该算法还使用target-decoy策略来控制蛋白质与质谱图匹配结果的错误发现率(false discovery rate,FDR).实验结果表明:CUDA-TP算法能够有效地加速完整蛋白质的鉴定,速度分别比MS-TopDown和MS-Align+快10倍与2倍.到目前为止,这是唯一能够利用CUDA架构来加速完整蛋白质鉴定的研究工作.CUDA-TP源代码公布在https://github.com/dqiong/CUDA-TP. 展开更多
关键词 “自顶向下”蛋白质组学 蛋白质鉴定 图形处理器 通用并行计算架构 谱图比对
下载PDF
面向GPU的地形遮蔽探测并行算法
7
作者 孙卡 俞俗强 《计算机工程与应用》 CSCD 北大核心 2024年第15期66-76,共11页
地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算... 地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算法,解决了仿真计算速度慢的问题。在CPU端将雷达探测区域内离散采样点的高程数据矩阵化,进而提升高程值在并行化计算中的读取速度。针对雷达仿真计算参数对线程分配方式进行优化,采用循环对比方式对地形遮蔽角的计算进行并行加速。采用设备端线程同步和数据交替传输技术,确保计算结果一致性和最大化利用GPU端计算资源。采用多模式并行化计算模式,使用多线程并行化计算和单线程串行化计算来支撑GPU端计算资源不足时的退化计算,从而保证计算的高可用。实验结果表明,相较于i7-12700H CPU在仿真粒度为3 600条探测波束下的地形遮蔽串行计算和多线程并行计算,在3060 Laptop GPU下分别获取了48倍和17倍加速,为仿真实时性提供了有效的工程解决方案。 展开更多
关键词 并行计算 统一计算设备架构(cuda) 高程矩阵 地球曲率 地形遮蔽算法
下载PDF
CUDA平台下多核GPU高性能并行编程研究 被引量:1
8
作者 吴长茂 张聪品 +1 位作者 张慧云 王娟 《河南机电高等专科学校学报》 CAS 2011年第1期19-21,29,共4页
现代GPU拥有强大的计算能力。文中提出了利用GPU解决高性能计算的问题,包括GPU编程的方法、高性能计算问题的划分原则等。实验表明,GPU高性能计算相比多核CPU具有更高的效率。
关键词 gpu cuda 并行
下载PDF
GPU并行计算的CUDA架构浅析 被引量:2
9
作者 吴辉 罗清海 彭文武 《教育教学论坛》 2019年第6期277-278,共2页
本文阐述了GPU并行运算的一种主流架构——CUDA架构,包括CUDA编程模型、程序的运行模式、线程架构、存储器结构、指令结构等。
关键词 gpu cuda架构 并行计算
下载PDF
基于GPU的椭圆曲线运算库及相关算法优化
10
作者 高钰洋 张健宁 +2 位作者 王刚 苏明 刘晓光 《信息安全学报》 CSCD 2024年第6期1-16,共16页
在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优... 在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优化也在近几年获得了广泛的关注与研究。本文充分利用GPU作为众核处理器的优势,设计了基于GPU的椭圆曲线运算库。在运算库中,本文在GPU上实现并优化了常用的椭圆曲线运算与大数运算,同时针对不同的需求设计了不同的实现与接口。本文对寄存器与常量内存等存储空间进行了合理分配,并通过利用预计算等优化手段减少了计算量,从而最大化了运算库的吞吐与性能。为了验证运算库的实用性与有效性,本文利用该运算库实现了代理重加密与Bulletproofs范围证明的验证算法,同时充分利用了算法的内部并行性进行优化。实验表明,本文实现的运算库在各个运算中都取得了远超于OpenSSL等常用CPU端运算库的性能。基于该运算库实现的代理重加密算法相比CPU实现能达到最高145倍左右的加速比,Bulletproofs范围证明验证算法相比于CPU端实现也能达到5.57倍左右的加速效果,平均证明验证时间在1 ms内,可以满足数字货币隐私保护场景下超过每秒2000笔交易的性能需求。可见该运算库能为区块链系统隐私保护等对密码学计算具有高吞吐需求的场景提供坚实支持。 展开更多
关键词 椭圆曲线 图形处理单元 统一计算架构 范围证明 代理重加密
下载PDF
基于GPU的北斗B1宽带复合信号实时发生器设计
11
作者 王子涵 巴晓辉 +3 位作者 姜维 蔡伯根 王剑 文韬 《系统工程与电子技术》 EI CSCD 北大核心 2024年第3期795-804,共10页
为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier... 为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier,SCBOC)调制方式的信号体制进行设计,系统根据用户配置的接收机运动轨迹和星历文件,生成中频信号并通过射频端发射。为了进一步提升GPU并行运算速度,从优化设备内存结构、设计并行线程架构和统一计算设备架构流(compute unified device architecture stream,CUDA)加速3个方面,设计了基于异步运算的加速采样点数据计算的CUDA优化实现方案。测试结果证明,优化后的算法可以基于SCBOC调制实时生成北斗B1I+B1C信号,基于GTX3060的GPU平台,信号90 M采样率下能实现8颗卫星复合信号的实时生成。 展开更多
关键词 B1宽带复合信号 软件无线电 单边带复数二进制偏移载波调制 统一计算设备架构流 实时生成
下载PDF
基于GPU通用计算CUDA架构的人体检测技术
12
作者 周晓阳 《信息化研究》 2012年第2期41-43,共3页
随着计算机硬件技术的高速发展,图形处理器(Graphic processing unit,GPU)通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率... 随着计算机硬件技术的高速发展,图形处理器(Graphic processing unit,GPU)通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率,将CUDA技术应用于智能视频监控人体检测系统中,实验验证其高效性及可行性。最后对CUDA的发展方向进行了展望。 展开更多
关键词 图形处理器 并行计算架构 人体检测 视频监控
下载PDF
A Computational Comparison of Basis Updating Schemes for the Simplex Algorithm on a CPU-GPU System
13
作者 Nikolaos Ploskas Nikolaos Samaras 《American Journal of Operations Research》 2013年第6期497-505,共9页
The computation of the basis inverse is the most time-consuming step in simplex type algorithms. This inverse does not have to be computed from scratch at any iteration, but updating schemes can be applied to accelera... The computation of the basis inverse is the most time-consuming step in simplex type algorithms. This inverse does not have to be computed from scratch at any iteration, but updating schemes can be applied to accelerate this calculation. In this paper, we perform a computational comparison in which the basis inverse is computed with five different updating schemes. Then, we propose a parallel implementation of two updating schemes on a CPU-GPU System using MATLAB and CUDA environment. Finally, a computational study on randomly generated full dense linear programs is preented to establish the practical value of GPU-based implementation. 展开更多
关键词 SIMPLEX Algorithm BASIS INVERSE GRAPHICS Processing Unit MATLAB compute unified device architecture
下载PDF
基于GPU的分布式并行CFD计算方法
14
作者 丁一丹 吴之南 +2 位作者 范志君 潘雅欣 汪龙飞 《民用飞机设计与研究》 2024年第2期33-43,共11页
计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉... 计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉及复杂的湍流、反应流和多相流,涉及到大网格量级计算和大批量状态计算,因此需要大量的计算资源。为了提高计算效率,提出了一种基于图形处理单元(graphic processing unit,简称GPU)的分布式并行计算方法。该方法利用统一计算设备架构(compute unified device architecture,简称CUDA)和消息传递接口技术(message passing interface,简称MPI),在GPU上进行并行计算,并使用MPI在多GPU之间进行通信。该方法实现了计算任务和数据传输的并行化,并进行了多流并行优化和非阻塞通信优化,实现了GPU之间的负载均衡。同时将该方法应用于超音速平板流这个典型的CFD案例中,与CPU串行计算相比,单GPU获取了204倍的加速比,4GPU实现了近640倍的加速比,两节点8GPU获得了900倍以上的加速比。这表明该方法具有较好的并行效率和计算性能,在一定程度上解决了CFD应用的计算资源需求问题。 展开更多
关键词 CFD gpu并行计算 cuda MPI 分布式
下载PDF
基于GPU的并行优化技术 被引量:23
15
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
16
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(gpu) cuda 液晶 自适应光学 波面解析
下载PDF
基于CUDA的高速FFT计算 被引量:22
17
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
18
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
下载PDF
Particle-Mesh Ewald(PME)算法的GPU加速 被引量:5
19
作者 徐骥 葛蔚 +1 位作者 任瑛 李静海 《计算物理》 EI CSCD 北大核心 2010年第4期548-554,共7页
讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部... 讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部分的GPU实现.此方法已成功用于7个不同大小的生物分子体系的模拟计算,达到了7倍左右的加速.该程序可耦合到现有分子动力学模拟软件中,或作为进一步开发的GPU分子动力学程序的一部分,显著加速传统分子动力学程序. 展开更多
关键词 PME(Particle-Mesh Ewald)加速 gpu(Graphic Processing Unit图形处理单元) cuda(compute unified device architecture计算统一设备架构)
下载PDF
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现 被引量:14
20
作者 李肯立 彭俊杰 周仕勇 《计算机应用研究》 CSCD 北大核心 2009年第12期4474-4477,共4页
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于C... Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIAGeForce8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA的Kirchhoff叠前时间偏移算法的计算速度最高可得到较传统CPU算法6倍的加速比,从而为快速处理地震偏移提供良好的支持。 展开更多
关键词 统一计算设备架构 图形处理器 地震偏移 地震数据处理
下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部