期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
GPGPU性能模型及应用实例分析 被引量:16
1
作者 韩博 周秉锋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2009年第9期1219-1226,共8页
现代图形处理器(GPU)的高性能吸引了大量非图形应用,为了有效地进行性能预测和优化,提出一种GPU处理通用计算问题的性能模型.通过分析现代GPU并行架构和工作原理,将GPU的通用计算过程划分为数据获取、计算、输出和传输4个并列的阶段,结... 现代图形处理器(GPU)的高性能吸引了大量非图形应用,为了有效地进行性能预测和优化,提出一种GPU处理通用计算问题的性能模型.通过分析现代GPU并行架构和工作原理,将GPU的通用计算过程划分为数据获取、计算、输出和传输4个并列的阶段,结合程序特点和硬件规格对各阶段进行量化分析,完成性能预测.通过实验分析得出两大性能影响要素:计算强度和访问密度,并将其作为性能优化的基本准则.该模型被用于分析几种常见的图像和视频处理算法在GPU上的实现,包括高斯卷积、离散余弦变换和运动估计.实验结果表明,通过增大计算强度和访问密度,文中优化方案显著地降低了GPU上的执行时间,使得计算效率提升了4~10倍,充分说明了该模型在性能预测和优化方面的有效性. 展开更多
关键词 gpu gpgpu 图像处理 性能模型 DCT 卷积 运动估计
下载PDF
GPGPU性能模型研究 被引量:1
2
作者 王锋 杜云飞 陈娟 《计算机工程与科学》 CSCD 北大核心 2013年第12期1-7,共7页
GPGPU的发展为并行程序带来了丰富的计算资源,但是对程序优化提出了更高的要求。程序性能模型对定位程序性能瓶颈,指导优化方法,平衡与其他设备的负载等方面起着重要作用。描述了当前性能模型的研究现状,并对其进行分类和分析。总体上... GPGPU的发展为并行程序带来了丰富的计算资源,但是对程序优化提出了更高的要求。程序性能模型对定位程序性能瓶颈,指导优化方法,平衡与其他设备的负载等方面起着重要作用。描述了当前性能模型的研究现状,并对其进行分类和分析。总体上性能模型分为基于统计方法的性能模型和性能解析模型,性能解析模型又分为性能度量模型、计算和访存并行性感知的模型和分部件定量分析性能模型。每种模型都给出了优缺点,并且实现了一个基于统计信息的插值性能模型,用于指导负载平衡。最后对存在的问题和未来的挑战进行了阐述。 展开更多
关键词 gpgpu gpu 性能模型
下载PDF
面向OpenCL架构的GPGPU量化性能模型 被引量:3
3
作者 朱俊峰 陈钢 +1 位作者 张珂良 吴百锋 《小型微型计算机系统》 CSCD 北大核心 2013年第5期1118-1125,共8页
为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对... 为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对DLP应用的静态分析并设定具体的OpenCL执行配置,在无需编写实际GPGPU程序的前提下采用该模型即可估算出DLP应用在GPU体系结构上的执行时间.在AMD RadeonTMHD 5870 GPU和NVIDIA GeForceTMGTX 280 GPU上对矩阵乘法与并行前缀和的分析与实验结果表明:该性能模型能够相对准确地评估DLP应用并行化后的执行时间. 展开更多
关键词 gpu gpgpu 数据并行 OPENCL 性能模型
下载PDF
利用GPGPU进行快速稀疏磁共振数据重建
4
作者 王聪 冯衍秋 《计算机工程与应用》 CSCD 北大核心 2011年第17期203-206,209,共5页
利用GPGPU(General Purpose GPU)强大的并行处理能力,基于NVIDIA CUDA框架对已有的稀疏磁共振(Sparse MRI)重建算法进行了并行化改造,使其能够适应实际应用的要求。稀疏磁共振成像的重建算法包含大量的浮点运算,计算耗时严重,难以应用... 利用GPGPU(General Purpose GPU)强大的并行处理能力,基于NVIDIA CUDA框架对已有的稀疏磁共振(Sparse MRI)重建算法进行了并行化改造,使其能够适应实际应用的要求。稀疏磁共振成像的重建算法包含大量的浮点运算,计算耗时严重,难以应用于实际,必须对其进行加速和优化。实验结果显示,NVIDIA GTX275 GPU使运算时间从4分多钟缩短到3.4秒左右,与Intel Q8200 CPU相比,达到了76倍的加速。 展开更多
关键词 通用计算图形处理器(gpgpu) 统一计算设备架构(CUDA) 并行计算 压缩传感 稀疏磁共振
下载PDF
图形处理器(GPU)加速时域有限元的二维辐射计算 被引量:5
5
作者 刘昆 王晓斌 廖成 《电波科学学报》 EI CSCD 北大核心 2008年第1期111-114,共4页
时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的... 时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的加速可以达到CPU的近4倍左右。以OpenGL作为应用编程接口(API),使用一个标准的商业图形卡编程解决二维时域有限元的辐射问题。 展开更多
关键词 图形加速卡(gpu) 时域有限元(TD-FEM) 通用计算图形处理单元 (gpgpu)
下载PDF
GPU的通用计算应用研究 被引量:24
6
作者 张浩 李利军 林岚 《计算机与数字工程》 2005年第12期60-62,98,共4页
由于图形处理器(GPU)最近几年迅速发展,国内外学者已经将基于GPU的通用计算作为一个新的研究领域。本文在研究国外最新文献的基础上,分析了GPU本身的特性,阐明了基于GPU的应用程序的结构,研究了GPU在编程方法上与普通CPU的差别,并以高... 由于图形处理器(GPU)最近几年迅速发展,国内外学者已经将基于GPU的通用计算作为一个新的研究领域。本文在研究国外最新文献的基础上,分析了GPU本身的特性,阐明了基于GPU的应用程序的结构,研究了GPU在编程方法上与普通CPU的差别,并以高斯滤波为实例详细描述了GPU编程的方法和过程。 展开更多
关键词 gpu gpgpu 通用计算
下载PDF
CPU和GPU的协同工作 被引量:1
7
作者 翟少华 刘淘英 +1 位作者 王晓欣 赵宏伟 《河北科技大学学报》 CAS 北大核心 2011年第6期585-589,614,共6页
结合当前GPGPU的CUDA编程模型,对GPGPU编程模型和其软硬件特性进行研究和分析,并针对应用进行实际探讨。提出CPU如何加入GPGPU编程,在未来的GPGPU模式将会变得更通用。
关键词 多核 gpu gpgpu SIMD
下载PDF
一种基于冗余线程的GPU多副本容错技术 被引量:8
8
作者 贾佳 杨学军 李志凌 《计算机研究与发展》 EI CSCD 北大核心 2013年第7期1551-1562,共12页
目前随着通用GPU(general purpose computation on graphic processing units,GPGPU)性能的不断提高,利用CPU和GPU构建的异构系统已经成为高性能计算领域的研究热点.然而随着并行计算系统的不断增长,系统可靠性越来越低,已成为并行计算... 目前随着通用GPU(general purpose computation on graphic processing units,GPGPU)性能的不断提高,利用CPU和GPU构建的异构系统已经成为高性能计算领域的研究热点.然而随着并行计算系统的不断增长,系统可靠性越来越低,已成为并行计算向大规模扩展的一个不容忽视的制约因素.由于商用GPGPU容错能力较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐,尚缺乏实用的容错手段,针对这一现实问题提出了一种基于冗余线程的GPU多副本容错技术:RB-TMR(Rollback TMR),同时根据异构系统的编程模型及程序特征对这一面向异构系统的容错机制的设计实现及其编译框架进行了具体分析和描述.最后通过10个案例对此技术进行了实现并评估了其性能.这一技术为异构系统的容错技术研究提供了新的思路,具有重大意义. 展开更多
关键词 通用gpu 异构系统 冗余线程 容错技术 多副本
下载PDF
GPU加速的分段Top-k查询算法 被引量:1
9
作者 黄玉龙 邹循进 +1 位作者 刘奎 苏本跃 《计算机应用》 CSCD 北大核心 2014年第11期3112-3116,共5页
现有Top-k查询优化算法无法充分利用图形处理器(GPU)强大的并行吞吐量及时获取查询结果,为此提出了一种基于统一计算设备架构(CUDA)模型的大规模分段查询算法。通过划分查询过程以及采用分段并行处理策略,该算法可最大限度地提升查询过... 现有Top-k查询优化算法无法充分利用图形处理器(GPU)强大的并行吞吐量及时获取查询结果,为此提出了一种基于统一计算设备架构(CUDA)模型的大规模分段查询算法。通过划分查询过程以及采用分段并行处理策略,该算法可最大限度地提升查询过程中的计算和比较效率。实验结果表明,与4线程多核优化算法相比,所提算法具有明显的性能优势,当有序列表数量为6,遍历步长为120时,性能达到最优,此时比多核算法快40倍。 展开更多
关键词 TOP-K查询 通用计算图形处理器 分段处理 并行优化 禁止随机访问
下载PDF
GPU矩阵乘法的性能定量分析模型 被引量:1
10
作者 尹孟嘉 许先斌 +1 位作者 熊曾刚 张涛 《计算机科学》 CSCD 北大核心 2015年第12期13-17,22,共6页
性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基... 性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基本组成部分,是一种具有计算和访存密集特点的典型应用,其性能是GPU高性能计算的一个重要指标。性能模型作为并行系统性能评价的新的技术解决方案,具有许多其它性能评价方法无法比拟的优势。建立了一个性能模型,模型通过对指令流水线、共享存储器访存、全局存储器访存进行定量分析,找到了程序运行瓶颈,提高了执行速度。实验证明,该模型具有实用性,并有效地实现了矩阵乘法的优化。 展开更多
关键词 gpu gpgpu-Sim 矩阵乘法 性能定量分析模型 指令流水线 共享存储器访存 全局存储器访存
下载PDF
基于GPU的串匹配算法研究综述
11
作者 孙延维 张慧 《湖北第二师范学院学报》 2012年第8期25-27,共3页
串匹配是一个非常经典的问题,本文通过回顾和分析GPU的串匹配算法的国内外研究近况,提出了GPU的串匹配算法的一些新的研究方向,特别是将一些编译解释性的工作放在GPU上实现的思想。
关键词 gpu gpgpu 串匹配 正则表达式 编译
下载PDF
使用GPU加速BLAST算法初探 被引量:3
12
作者 万宁 谢海波 +3 位作者 张清 赵开勇 褚晓文 于军 《计算机工程与科学》 CSCD 北大核心 2009年第11期98-101,共4页
应用GPU通用高性能编程技术实现了一种加速BLAST算法的新方法。BLAST是目前最常用的用于生物序列查询比对的算法和软件包,其处理速度受到串行化执行和磁盘I/O等因素的影响。本文通过实验分析了BLAST软件包中的典型程序BLASTN的运行热点... 应用GPU通用高性能编程技术实现了一种加速BLAST算法的新方法。BLAST是目前最常用的用于生物序列查询比对的算法和软件包,其处理速度受到串行化执行和磁盘I/O等因素的影响。本文通过实验分析了BLAST软件包中的典型程序BLASTN的运行热点,并选定关键热点模块,应用CUDA编程技术对其进行并行化改造。对比实验结果表明,对于平均序列长度较大的序列库,应用GPGPU并行化可明显缩短该模块的运行时间,获得超过35倍的加速比。这说明,我们可以利用GPGPU对BLAST进行并行化加速,以满足高性能生物序列查询的需求。 展开更多
关键词 BLAST BLASTN 序列查询比对 gpu gpgpu CUDA 并行计算
下载PDF
基于GPU通用计算的深度学习模型性能分析
13
作者 齐万华 胡向阳 《科技视界》 2018年第32期218-219,共2页
随着数据化社会的到来,深度学习模型被广泛地研究,并涌现了一批有影响力的模型。由于超参和神经元的数目是百万级别,所以这些模型的复杂度很高。另外,当训练数据集增大时,模型需要消耗更多的计算资源。GPGPU具有强大的并行计算能力,大... 随着数据化社会的到来,深度学习模型被广泛地研究,并涌现了一批有影响力的模型。由于超参和神经元的数目是百万级别,所以这些模型的复杂度很高。另外,当训练数据集增大时,模型需要消耗更多的计算资源。GPGPU具有强大的并行计算能力,大大减少深度学习模型的训练时间。但GPU通用计算的性能提升与模型有关,这方面鲜有人研究。本文侧重于GPGPU下深度学习模型的性能分析。 展开更多
关键词 gpu gpgpu 深度学习 性能
下载PDF
基于GPU的高度并行Marching Cubes改进算法 被引量:4
14
作者 刘伟峰 杨权一 +2 位作者 曹邦功 孟凡密 周洁 《微电子学与计算机》 CSCD 北大核心 2008年第9期151-154,157,共5页
提出一种完全基于GPU(graphics processing unit)的高度并行Marching Cubes改进算法.针对Marching Cubes算法流程中数据处理阶段进行优化.首先并行遍历每个体元,以序列形式得到每体元的非空状态,再利用高效流式缩减操作获得非空体元序... 提出一种完全基于GPU(graphics processing unit)的高度并行Marching Cubes改进算法.针对Marching Cubes算法流程中数据处理阶段进行优化.首先并行遍历每个体元,以序列形式得到每体元的非空状态,再利用高效流式缩减操作获得非空体元序列以便仅针对非空体元高度并行地生成等值面三角形.实验表明,与同市场价格CPU实现相比,该算法效率最高提高到了前者的9倍以上. 展开更多
关键词 图形处理器 MARCHING CUBES 流式缩减 图形处理器的通用计算 统一计算设备架构
下载PDF
GPU通用计算在LBM方法中的应用 被引量:1
15
作者 王凯 封卫兵 晁媛 《计算机工程与设计》 CSCD 北大核心 2009年第19期4513-4515,4535,共4页
提出了一种结合GPU通用计算与计算流体力学中的LBM算法来模拟二维流场的方法。根据GPU通用计算和LBM方法的基本原理,利用OpenGL的离屏渲染技术FBO和Cg语言,基于LBM方法中的D2Q9模型对二维方腔流进行数值模拟,并设计出基于OpenGL的GPU通... 提出了一种结合GPU通用计算与计算流体力学中的LBM算法来模拟二维流场的方法。根据GPU通用计算和LBM方法的基本原理,利用OpenGL的离屏渲染技术FBO和Cg语言,基于LBM方法中的D2Q9模型对二维方腔流进行数值模拟,并设计出基于OpenGL的GPU通用计算的二维流场数值计算框架。实验结果表明,利用GPU模拟与CPU模拟流场的数值结果相当吻合,特别地,利用GPU进行数值模拟实验的速度是利用CPU的4倍左右。 展开更多
关键词 图形处理单元 图形处理单元通用计算 格子波尔兹曼方法 OPENGL 帧缓冲对象
下载PDF
一种基于GPU的快速Kirsch边缘检测算法
16
作者 黄轩 《中国科技信息》 2012年第22期83-84,共2页
传统的Kirsch边缘检测算法的优化和实现都是针对常用处理器提出的。根据Kirsch算法的可并行计算的特点,本文提出了一种基于图形处理器GPU的快速Kirsch算法。快速算法根据GPU的并行结构和硬件特点,采用了纹理存储技术、多点访问技术和对... 传统的Kirsch边缘检测算法的优化和实现都是针对常用处理器提出的。根据Kirsch算法的可并行计算的特点,本文提出了一种基于图形处理器GPU的快速Kirsch算法。快速算法根据GPU的并行结构和硬件特点,采用了纹理存储技术、多点访问技术和对称计算技术三种加速技术,优化了数据存储结构,提高了数据访问效率,降低了算法复杂度。实验表明,采用基于GPU的算法可将对图像的处理速度提高到传统Kirsch边缘检测算法的10倍以上。 展开更多
关键词 gpu KIRSCH算子 边缘检测 gpu通用计算
下载PDF
Mali-T604 GPU的二维浮点矩阵运算并行优化方法 被引量:2
17
作者 龚若皓 杨斌 《单片机与嵌入式系统应用》 2015年第5期43-46,共4页
基于以三星的Exynos5250处理器为核心的Arndale Board嵌入式开发平台,对集成于处理器上的Mali-T604嵌入式GPU的GPGPU(General-Purpose computation on GPU)技术进行研究,并对不同运算规模的浮点矩阵乘法进行并行加速优化,提供实际测试... 基于以三星的Exynos5250处理器为核心的Arndale Board嵌入式开发平台,对集成于处理器上的Mali-T604嵌入式GPU的GPGPU(General-Purpose computation on GPU)技术进行研究,并对不同运算规模的浮点矩阵乘法进行并行加速优化,提供实际测试结果。Linux操作系统上的实验结果显示,基于Mali GPU的并行浮点矩阵乘法方案相对原始串行算法而言,效率显著提高,并且运算规模的增大可以显著提高并行性。 展开更多
关键词 ARM CORTEX-A15 MALI gpu gpgpu技术 Arndale Board开发平台 OPENCL Exynos5250
下载PDF
基于嵌入式移动GPU的离散傅里叶变换并行优化 被引量:2
18
作者 曾宝国 杨斌 《单片机与嵌入式系统应用》 2016年第1期12-15,共4页
GPGPU能够针对计算密集型的计算问题进行大规模的并行加速,为DFT在嵌入式平台上的高效实现提供了一种新的方式。基于Mali-T604嵌入式GPU实现了针对DFT和FFT的并行加速方案,并进行了实际测试。实验结果证明,所设计的并行方案能够在ARM嵌... GPGPU能够针对计算密集型的计算问题进行大规模的并行加速,为DFT在嵌入式平台上的高效实现提供了一种新的方式。基于Mali-T604嵌入式GPU实现了针对DFT和FFT的并行加速方案,并进行了实际测试。实验结果证明,所设计的并行方案能够在ARM嵌入式平台上有效加速DFT和FFT,可大大提升移动设备进行数字信号处理的实时性。 展开更多
关键词 DFT FFT gpgpu Mali—T604 gpu 数字信号处理 ARM嵌入式系统
下载PDF
基于移动多核GPU的并行二维DCT变换实现方法 被引量:2
19
作者 龚若皓 杨斌 《成都信息工程学院学报》 2015年第1期22-26,共5页
传统的基于CPU的串行程序所实现的二维DCT变换算法时间复杂度高变换效率低,难以满足许多应用的实时要求。特别是在当代以嵌入式处理器为核心的移动端信息处理终端,有限的CPU性能更加难以实现快速的DCT变换。值得欣慰的是新一代嵌入式处... 传统的基于CPU的串行程序所实现的二维DCT变换算法时间复杂度高变换效率低,难以满足许多应用的实时要求。特别是在当代以嵌入式处理器为核心的移动端信息处理终端,有限的CPU性能更加难以实现快速的DCT变换。值得欣慰的是新一代嵌入式处理器提供了支持GPGPU技术的GPU,为解决复杂的移动计算问题提供了高效的并行化解决途径。基于最新的ARM Cortex-A15内嵌GPU Mali-T604及Open CL框架设计实现了一种针对二维DCT变换的并行化加速方案并实测了优化效果,实验结果表明文中的并行方案能够提高二维DCT变换的效率,在输入数据量足够大的条件下能够达到近20倍的加速比。 展开更多
关键词 计算机应用技术 异构计算 二维DCT变换 移动多核gpu gpgpu OPENCL 并行化
下载PDF
GPU通用计算的发展及其应用领域综述 被引量:1
20
作者 黄天祺 《计算机光盘软件与应用》 2011年第8期36-36,共1页
GPU的概念提出后。经过十几年的迅速发展,GPU凭借其超高的计算密度以及超大的存储器带宽已经在图形图像、医疗、高性能计算、计算机网络等领域取得了突出的成果和广泛认可,本文通过了解GPU通用计算的发展历程以及追踪国内外最新的GPU... GPU的概念提出后。经过十几年的迅速发展,GPU凭借其超高的计算密度以及超大的存储器带宽已经在图形图像、医疗、高性能计算、计算机网络等领域取得了突出的成果和广泛认可,本文通过了解GPU通用计算的发展历程以及追踪国内外最新的GPU通用计算技术来阐述其在相关领域的应用。 展开更多
关键词 gpu gpgpu CUDA 通用计算 高性能计算
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部