期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于GPU加速的Boussinesq类波浪传播变形数值模型 被引量:2
1
作者 孙家文 朱桐 +1 位作者 房克照 刘忠波 《海洋工程》 CSCD 北大核心 2020年第2期111-119,共9页
Boussinesq波浪模型是一类相位解析模型,在时域内求解需要较高的空间和时间分辨率以保证计算精度。为提高计算效率,有必要针对该类模型开展并行算法的研究。与传统的中央处理器(CPU)相比,图形处理器(GPU)有大量的运算器,可显著提高计算... Boussinesq波浪模型是一类相位解析模型,在时域内求解需要较高的空间和时间分辨率以保证计算精度。为提高计算效率,有必要针对该类模型开展并行算法的研究。与传统的中央处理器(CPU)相比,图形处理器(GPU)有大量的运算器,可显著提高计算效率。基于统一计算设备架构CUDA C语言和图形处理器,实现了Boussinesq模型的并行运算。将本模型的计算结果同CPU数值模拟结果和解析解相比较,发现得到的结果基本一致。同时也比较了CPU端与GPU端的计算效率,结果表明,GPU数值模型的计算效率有明显提升,并且伴随数值网格的增多,提升效果更为明显。 展开更多
关键词 BOUSSINESQ方程 图形处理器 CUDA C 并行计算 计算效率 波浪传播
下载PDF
Using Graphics Processing Units to Parallelize the FDK Algorithm for Tomographic Image Reconstruction
2
作者 Joel Sancnchez Dominguez Luiz Femando de Oliveira +1 位作者 Nilton Alves Junior Joaquim Teixeira de Assis 《Journal of Chemistry and Chemical Engineering》 2012年第8期760-768,共9页
The paper presents the implementation of a parallel version of FDK (Felkamp, David e Kress) algorithm using graphics processing units. Discussion was briefly some elements the computed tomographic scan and FDK algor... The paper presents the implementation of a parallel version of FDK (Felkamp, David e Kress) algorithm using graphics processing units. Discussion was briefly some elements the computed tomographic scan and FDK algorithm; and some ideas about GPUs (Graphics Processing Units) and its use in general purpose computing were presented. The paper shows a computational implementation of FDK algorithm and the process of parallelization of this implementation. Compare the parallel version of the algorithm with the sequential version, used speedup as a performance metric. To evaluate the performance of parallel version, two GPUs, GeForce 9400GT (16 cores) a low capacity GPU and Quadro 2000 (192 cores) a medium capacity GPU was reached speedup of 3.37. 展开更多
关键词 Computed tomography images reconstruction FDK algorithm GPUS cuda-c parallel processing.
下载PDF
FPGA与GPU并行计算分析——以Kirchhoff叠前时间偏移为例 被引量:6
3
作者 张锦涛 赵惊涛 王真理 《地球物理学进展》 CSCD 北大核心 2013年第3期1464-1471,共8页
高性能计算(high performance computing)是地震数据处理领域一个重要研究课题.目前的高性能计算大多是利用图形处理器(GPU)强大并行处理能力,以GPU/CPU协同并行计算构架为基础实现有关算法.本文讨论了利用CUDA和Impulse C-to-FPGA工具... 高性能计算(high performance computing)是地震数据处理领域一个重要研究课题.目前的高性能计算大多是利用图形处理器(GPU)强大并行处理能力,以GPU/CPU协同并行计算构架为基础实现有关算法.本文讨论了利用CUDA和Impulse C-to-FPGA工具分别在GPU(图形处理器)和FPGA(可编程逻辑门阵列)平台上并行实现Kirchhoff叠前时间偏移算法.处理结果表明,利用GPU加速Kirchhoff叠前时间偏移处理得到了14倍的单核加速比,利用FPGA加速Kirchhoff叠前时间偏移处理得到了9.5倍的单核加速比. 展开更多
关键词 KIRCHHOFF叠前时间偏移 GPU CUDA FPGA ImpulseC
下载PDF
C语言教学实验中的CUDA技术
4
作者 刘忆宁 张永昌 罗家华 《电脑编程技巧与维护》 2010年第10期134-137,共4页
C语言在本科信息技术教学中具有重要的地位,随着GPU性能的增强,以C语言为核心的CUDA具有广阔的应用前景。在C语言实验中引入CUDA开发平台的训练,具有重要的意义。
关键词 C程序 图形处理器 CUDA架构
下载PDF
波形板干燥器内液滴模拟的GPU加速研究
5
作者 张迪 黄伟 +1 位作者 罗琦 王侃 《原子能科学技术》 EI CAS CSCD 北大核心 2015年第3期491-496,共6页
基于CUDA C,使用GPU模拟了波形板内大量液滴的二维运动。根据GPU硬件特性,优化了模拟算法。在CPU上实现相同算法,对比了单一液滴直径、不同液滴数量下GPU与CPU的计算时间。结果表明:液滴数量越大,GPU并行加速效果越明显,在液滴数量较大... 基于CUDA C,使用GPU模拟了波形板内大量液滴的二维运动。根据GPU硬件特性,优化了模拟算法。在CPU上实现相同算法,对比了单一液滴直径、不同液滴数量下GPU与CPU的计算时间。结果表明:液滴数量越大,GPU并行加速效果越明显,在液滴数量较大时,得到约60倍的加速。用GPU分析了典型液滴直径分布的情况,得到约30倍的加速。 展开更多
关键词 波形板干燥器 液滴运动模拟 GPU并行加速 CUDA C
下载PDF
一种Fortran到CUDA C的转换方法
6
作者 刘颖辉 迟学斌 +1 位作者 姜金荣 张峰 《计算机系统应用》 2022年第5期351-357,共7页
基于GPU的异构计算逐渐成为主流计算方法,但限于科学计算编程的历史发展,大量的数值计算软件仍以Fortran语言实现.为了提高计算速度,大量的软件需要移植为CUDA C,但人工实现程序移植是一项浩繁的工程.若能实现从Fortran到CUDA C的自动转... 基于GPU的异构计算逐渐成为主流计算方法,但限于科学计算编程的历史发展,大量的数值计算软件仍以Fortran语言实现.为了提高计算速度,大量的软件需要移植为CUDA C,但人工实现程序移植是一项浩繁的工程.若能实现从Fortran到CUDA C的自动转换,可以极大的提高程序开发效率.本文设计了将Fortran转换为CUDA C的算法,并基于正则表达式和shell脚本实现了该算法,编写测试用例进行了验证.实验表明,该算法可靠稳定兼容性好,在大型程序的移植过程中,能够自动筛选并建立变量信息表,生成CUDA相关操作函数,且结果代码可读性较好,转化正确率达80%以上,有效减少了移植的工作量. 展开更多
关键词 FORTRAN CUDA C 并行计算 正则表达式
下载PDF
CUDA加速工业DR图像分割 被引量:2
7
作者 倪风岳 曾理 刘玲慧 《计算机应用研究》 CSCD 北大核心 2011年第4期1560-1562,共3页
对DR(digtal radiography,数字辐射成像)图像进行分割是工业DR图像处理中一项重要内容。C-V算法对DR图像分割效果较好,但该算法计算量大,在工业应用中达不到实时处理要求。结合高性价比CUDA技术实现C-V算法对DR图像分割并行化,并采用共... 对DR(digtal radiography,数字辐射成像)图像进行分割是工业DR图像处理中一项重要内容。C-V算法对DR图像分割效果较好,但该算法计算量大,在工业应用中达不到实时处理要求。结合高性价比CUDA技术实现C-V算法对DR图像分割并行化,并采用共享内存技术、独立计算与合并计算结合的方法,较大地提高了C-V方法的计算效率。对实际工业DR图像分割实验结果显示,该方法加速比可达到32~44倍,表明使用CU-DA并行化C-V方法分割DR图像高效可行。 展开更多
关键词 并行计算 CUDA(统一计算架构) 图像分割 C-V模型 数字辐射图像
下载PDF
Improving Global Performance on GPU for Algorithms with Main Loop Containing a Reduction Operation: Case of Dijkstra’s Algorithm
8
作者 Amadou Chaibou Oumarou Sie 《Journal of Computer and Communications》 2015年第8期41-54,共14页
In this paper, we study the impact of copying data in GPU computing. GPU computing allows implementing parallel computations at low cost: a GPU can be purchased at under USD 500. Many studies have shown that GPU can b... In this paper, we study the impact of copying data in GPU computing. GPU computing allows implementing parallel computations at low cost: a GPU can be purchased at under USD 500. Many studies have shown that GPU can be used to speed up the calculations. But for algorithms requiring doing a part of the calculations on GPU and another part on CPU, alternately, latency due to the copy of the data is a performance degradation factor. To illustrate this, we consider the Dijkstra’s algorithm on the shortest path used in solving optimization problems. This algorithm is very heavy to run on sequential machine. So, we are considering a parallel approach on GPU. Note that Dijkstra’s algorithm has been subject of many implementations on GPU. In the present work, we use two platforms with external GPU. Graphs are represented in adjacency matrix. During the computation of this algorithm, intermediates results are copied from GPU to CPU or from CPU to GPU. The purpose of this work is to measure the impact of these copies in the overall performance of the algorithm. For that we calculate time due to the copying data’s implementation;then we compare results with implementation computing only on CPU memory (zero-copy). The real impact shown by experiments demonstrates the interest of this study. GP-GPU programmers have to think that they will use either memory zero-copy or GPU memory. The challenge for GPU’s manufacturers is how to reduce this impact. 展开更多
关键词 GP-GPU Parallel COMPUTING CUDA C DIJKSTRA BGL GRID
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部