期刊文献+
共找到581篇文章
< 1 2 30 >
每页显示 20 50 100
基于CUDA GPU的多摄像机场面航空器识别加速算法 被引量:1
1
作者 梁海军 王玄 夏正洪 《火力与指挥控制》 CSCD 北大核心 2017年第7期44-47,共4页
基于摄像机的航空器识别是机场场面监视的重要工具。针对多摄像机场面航空器识别算法存在的计算效率低等缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力与GPU计算能力,对算法进行了重新设计与优化。通过实地对多路场面视... 基于摄像机的航空器识别是机场场面监视的重要工具。针对多摄像机场面航空器识别算法存在的计算效率低等缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力与GPU计算能力,对算法进行了重新设计与优化。通过实地对多路场面视频监视数据进行了多次实验,验证了在NVIDIA Geforce 8800GTS显卡上可实现10倍以上的加速性能,提高了航空器目标识别效率,可以满足机场场面监视中对航空器识别与跟踪的实时性要求。 展开更多
关键词 场面监视 目标识别 目标跟踪 gpu cuda
下载PDF
基于CUDA GPU的中期冲突探测加速算法研究
2
作者 杨波 梁海军 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2012年第S1期133-137,共5页
中期冲突探测(MTCD)是空中交通管制的重要决策支持工具。针对Prandini概率型中期冲突探测算法存在计算速度慢、探测精度不够高的缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力和GPU的计算能力,对算法进行了重新设计与优... 中期冲突探测(MTCD)是空中交通管制的重要决策支持工具。针对Prandini概率型中期冲突探测算法存在计算速度慢、探测精度不够高的缺点,提出基于GPU CUDA的加速算法。利用CUDA线程并行处理能力和GPU的计算能力,对算法进行了重新设计与优化。通过仿真实验,证明了在NVIDIA Geforce 8800GTS显卡上可得到50倍以上的加速性能,可以满足大型空管自动化系统20 min内中期冲突探测的实时性和精度要求。 展开更多
关键词 空中交通管制 飞行冲突 中期冲突探测 gpu cuda
下载PDF
GPU任务调度研究综述 被引量:1
3
作者 李来文 胡韬 邓庆绪 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2800-2807,共8页
本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度... 本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度,从stream级到warp级介绍了多种调度方法的相关研究工作.每个级别的调度方法都旨在提高GPU的性能、资源利用率、可靠性或降低能耗.此外,本文还指出了GPU任务调度面临的挑战以及未来的研究方向,如保障GPU执行时间确定性的软硬件机制研究、结合机器学习的GPU任务调度研究、GPU新架构探索研究以及追求GPU性能和能耗平衡的调度技术研究.本文旨在为研究者们提供一个全面的视角,帮助他们了解GPU任务调度的研究动态和未来的发展方向. 展开更多
关键词 图形处理单元 cuda gpu多任务 gpu调度
下载PDF
矩阵乘法的GPU并行计算时耗模型与最优配置方法
4
作者 雷超 刘江 宋佳文 《计算机科学》 CSCD 北大核心 2024年第S01期810-817,共8页
水平矩阵乘竖直矩阵是科学计算及工程领域中的基本计算之一,很大程度上影响了整个算法的计算效率。GPU并行计算是迄今主流的并行计算方式之一,其底层设计使得GPU非常契合于大规模矩阵计算。迄今已经有许多研究基于GPU并行计算框架,针对... 水平矩阵乘竖直矩阵是科学计算及工程领域中的基本计算之一,很大程度上影响了整个算法的计算效率。GPU并行计算是迄今主流的并行计算方式之一,其底层设计使得GPU非常契合于大规模矩阵计算。迄今已经有许多研究基于GPU并行计算框架,针对矩阵的结构设计、优化矩阵乘法,但尚未有针对水平矩阵乘竖直矩阵的GPU并行算法及优化。此外,GPU核函数配置直接影响计算效率,但迄今针对最优核函数配置的研究极为有限,通常需要研究人员针对具体算法的计算特点启发式地设置。基于GPU的线程、内存模型,设计了一种并行水平矩阵乘竖直矩阵乘法PHVM。数值实验结果表明,在左乘矩阵的水平维度远远大于竖直维度时,PHVM要显著优于NVIDIAcuBLAS库中的通用矩阵乘法。进一步,基于GPU的硬件参数,建立了PHVM运行时间的核函数配置最优化理论模型。数值实验结果表明,该理论模型较为准确地描述了PHVM算法运行时间随核函数配置(网格大小、线程块大小)变换的变化趋势,且模型得出的理论最优核函数配置与实际最优运行核函数配置相符。 展开更多
关键词 矩阵乘法 gpu cuda 核函数配置
下载PDF
协同CPU和GPU的核密度估计及其可视化算法
5
作者 胡森 高苏 蔡忠亮 《地理空间信息》 2024年第6期29-33,47,共6页
大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控... 大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控制能力、GPU的并行计算能力以及OpenGL中的核心模式,并借助显存映射,同时优化了核密度估计的计算和可视化2方面。实验结果表明,相较于CPU并行和串行算法,该算法的执行效率分别提高了约5倍和20倍,且随着图像分辨率的提高,加速比呈现逐步上升的趋势。 展开更多
关键词 核密度估计 可视化 gpu OPENGL 统一计算架构
下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现
6
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 cuda平台 并行计算
下载PDF
启发式优化算法的GPU并行加速框架
7
作者 王东杰 温思歆 +1 位作者 孟万植 吴迪 《系统仿真学报》 CAS CSCD 北大核心 2024年第8期1929-1943,共15页
为解决启发式优化算法计算量大、耗时长的缺点,使用图形处理单元(GPU)以及统一计算架构(compute unified device architecture,CUDA)对启发式优化算法进行并行化。提出了一种针对启发式优化算法的GPU并行框架,设计了具有并行逻辑结构的... 为解决启发式优化算法计算量大、耗时长的缺点,使用图形处理单元(GPU)以及统一计算架构(compute unified device architecture,CUDA)对启发式优化算法进行并行化。提出了一种针对启发式优化算法的GPU并行框架,设计了具有并行逻辑结构的信息交互框架、算法并行优化策略,解决了信息交互的逻辑结构在串、并行中的相异性问题,该框架可并行化各类启发式优化算法,具有一般性与高效性。为验证该框架的有效性,利用并行框架对5种常见启发式优化算法进行并行化,给出了多个测试函数下GPU并行计算与CPU串行计算的对比结果,其中差分进化算法、哈里斯鹰优化算法、灰狼优化算法、鲸鱼优化算法在种群维度为5000时,分别加速高达179.1、178.6、74.3、358.2倍,同时保证了结果的准确性,表明所设计并行框架的高效性与实用性。 展开更多
关键词 启发式优化算法 gpu并行 cuda模型 并行框架 信息交互
下载PDF
基于GPU的分布式并行CFD计算方法
8
作者 丁一丹 吴之南 +2 位作者 范志君 潘雅欣 汪龙飞 《民用飞机设计与研究》 2024年第2期33-43,共11页
计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉... 计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉及复杂的湍流、反应流和多相流,涉及到大网格量级计算和大批量状态计算,因此需要大量的计算资源。为了提高计算效率,提出了一种基于图形处理单元(graphic processing unit,简称GPU)的分布式并行计算方法。该方法利用统一计算设备架构(compute unified device architecture,简称CUDA)和消息传递接口技术(message passing interface,简称MPI),在GPU上进行并行计算,并使用MPI在多GPU之间进行通信。该方法实现了计算任务和数据传输的并行化,并进行了多流并行优化和非阻塞通信优化,实现了GPU之间的负载均衡。同时将该方法应用于超音速平板流这个典型的CFD案例中,与CPU串行计算相比,单GPU获取了204倍的加速比,4GPU实现了近640倍的加速比,两节点8GPU获得了900倍以上的加速比。这表明该方法具有较好的并行效率和计算性能,在一定程度上解决了CFD应用的计算资源需求问题。 展开更多
关键词 CFD gpu并行计算 cuda MPI 分布式
下载PDF
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
9
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout Optimization cuda Performance Optimization gpu Memory Optimization Dynamic Programming Matrix Multiplication Memory Access Pattern Optimization in cuda
下载PDF
基于CUDA的GPU并行优化重力三维反演 被引量:5
10
作者 李午阳 张健 林巍 《物探与化探》 CAS CSCD 2016年第1期179-184,共6页
笔者介绍了一种在PGI Fortran平台上开发的重力三维GPU并行反演算法。该方法采用重加权正则化共轭梯度算法(Re-Weight Regularized Conjugate Gradient),可以在具有NVIDIA显卡的个人计算机上使用CUDA进行并行计算,无需借助工作站即可实... 笔者介绍了一种在PGI Fortran平台上开发的重力三维GPU并行反演算法。该方法采用重加权正则化共轭梯度算法(Re-Weight Regularized Conjugate Gradient),可以在具有NVIDIA显卡的个人计算机上使用CUDA进行并行计算,无需借助工作站即可实现几十至上百倍的计算加速,提供稳定可信的反演结果。并对可视化操作系统进行了优化,实现了在高端计算机系统上亿网格点的反演计算,同时在中、低端计算机也可以实现加速。模型计算结果表明,该算法是一种高效且可靠的重力三维反演并行方法。 展开更多
关键词 重力 二三维反演 cuda gpu 并行计算 共轭梯度法
下载PDF
基于CUDA-GPU的宽带高速频谱分析系统的研究 被引量:1
11
作者 刘东亮 南仁东 李建斌 《高技术通讯》 CAS CSCD 北大核心 2012年第2期159-164,共6页
针对射电信号观测的需求,设计并实现了一种基于统一计算设备架构(CUDA)和图形显示卡(GPU)的宽带高速频谱分析系统。该系统通过运用库利.图基(Cooley-Tukey)快速傅立叶变换算法与谱分析算法实现实时宽带高速频谱分析。系统的关... 针对射电信号观测的需求,设计并实现了一种基于统一计算设备架构(CUDA)和图形显示卡(GPU)的宽带高速频谱分析系统。该系统通过运用库利.图基(Cooley-Tukey)快速傅立叶变换算法与谱分析算法实现实时宽带高速频谱分析。系统的关键部分在于通过CUDA来完成运用线程合并算法对数据在CPU-9GPU之间传递时的转换,并使用并行流水算法在总线中共享多核GPU来降低实时运算时间。该系统主要为500m口径射电望远镜工程的高分辨率微波巡视项目而设计,实测中满足目标需求,并可应用在射电信号观测或类似的高速密集数据运算中。 展开更多
关键词 频谱分析 并行计算 库利-图基傅立叶变换 gpu通用计算
下载PDF
利用CUDA实现的基于GPU的SAR成像算法 被引量:9
12
作者 柳彬 王开志 +1 位作者 刘兴钊 郁文贤 《信息技术》 2009年第11期62-65,共4页
高速发展的图形处理器(Graphics Processing Unit,GPU)为高效合成孔径雷达(Synthetic Aperture Radar,SAR)成像算法提供了具有发展前景的新型运算平台。与CPU相比,利用GPU进行通用计算具有成本低、性能高的特点。提出利用CUDA实现的基于... 高速发展的图形处理器(Graphics Processing Unit,GPU)为高效合成孔径雷达(Synthetic Aperture Radar,SAR)成像算法提供了具有发展前景的新型运算平台。与CPU相比,利用GPU进行通用计算具有成本低、性能高的特点。提出利用CUDA实现的基于GPU的SAR成像算法,与传统的基于CPU的成像算法相比,有两位数以上的效率提升,为应对SAR信号处理领域新的挑战提供具有前景的研究方向。 展开更多
关键词 合成孔径雷达 成像算法 图形处理器 cuda
下载PDF
基于CPU与GPU/CUDA的数字图像处理程序的性能比较 被引量:4
13
作者 岳俊 邹进贵 何豫航 《地理空间信息》 2012年第4期45-47,180,共3页
测绘系统通常有大量图像处理工作,而户外图像采集系统更需要极高的实时性。通过对GPU与CPU分别进行数字图像处理性能测试,结果表明GPU并行计算可以大幅提高图像处理性能:可优化图像预处理、后处理速度,使测绘系统更加实时高效。
关键词 CPU gpu cuda 并行计算 数字图像处理
下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:17
14
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(gpu) 通用并行计算架构(cuda)
下载PDF
基于CUDA的热传导GPU并行算法研究 被引量:3
15
作者 孟小华 黄丛珊 朱丽莎 《计算机工程》 CAS CSCD 2014年第5期41-44,48,共5页
在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式... 在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。 展开更多
关键词 热传导算法 图形处理单元 统一计算设备架构 并行计算 时间效率 加速比
下载PDF
基于GPU-CUDA的共轭斜量法实现及性能对比 被引量:1
16
作者 彭土有 《计算机时代》 2014年第4期4-6,共3页
偏微分方程数值解法(包括有限差分法、有限元法)以及大量的数学物理方程数值解法最终都会演变成求解大型线性方程组。因此,探讨快速、稳定、精确的大型线性方程组解法一直是数值计算领域不断深入研究的课题且具有特别重要的意义。在迭... 偏微分方程数值解法(包括有限差分法、有限元法)以及大量的数学物理方程数值解法最终都会演变成求解大型线性方程组。因此,探讨快速、稳定、精确的大型线性方程组解法一直是数值计算领域不断深入研究的课题且具有特别重要的意义。在迭代法中,共轭斜量法(又称共轭梯度法)被公认为最好的方法之一。但是,该方法最大缺点是仅适用于线性方程组系数矩阵为对称正定矩阵的情况,而且常规的CPU算法实现非常耗时。为此,通过将线性方程组系数矩阵作转换成对称矩阵后实施基于GPU-CUDA的快速共轭斜量法来解决一般性大型线性方程组的求解问题。试验结果表明:在求解效率方面,基于GPU-CUDA的共轭斜量法运行效率高,当线性方程组阶数超过3000时,其加速比将超过14;在解的精确性与求解过程的稳定性方面,与高斯列主元消去法相当。基于GPU-CUDA的快速共轭斜量法是求解一般性大型线性方程组快速而非常有效的方法。 展开更多
关键词 gpu cuda 大型线性方程组 共轭斜量法 算法 并行计算
下载PDF
基于CUDA-GPU加速的全景图像拼接
17
作者 杨光 《卫星电视与宽带多媒体》 2020年第24期23-24,共2页
全景拼接是将多张图片拼接到一张整幅图片的技术,实现该技术需要对多张图片提取特征点及部分关键点,然后匹配多张图片中的重合特征并匹配,最后通过RANSAC算法及透视变换完成全景拼接。由于整个工程涉及底层基础数学算法及图形学算法较多... 全景拼接是将多张图片拼接到一张整幅图片的技术,实现该技术需要对多张图片提取特征点及部分关键点,然后匹配多张图片中的重合特征并匹配,最后通过RANSAC算法及透视变换完成全景拼接。由于整个工程涉及底层基础数学算法及图形学算法较多,计算量较大,传统CPU完成计算效率较低,本文提出基于CUDA-GPU加速的全景拼接实现流程,并与CPU计算进行效率对比。 展开更多
关键词 cuda gpu 全景图像 拼接
下载PDF
基于CUDA-GPU架构的超二次曲面离散单元并行算法 被引量:3
18
作者 王嗣强 季顺迎 《应用数学和力学》 CSCD 北大核心 2019年第7期751-767,共17页
大规模离散元的并行计算通常基于理想的球体单元,然而自然界或工业生产中普遍存在的是由非球形颗粒组成的复杂体系,其在不同空间尺度下的动力学行为及力学性质与球形颗粒具有显著差异.基于连续函数包络的超二次曲面单元能有效地构造非... 大规模离散元的并行计算通常基于理想的球体单元,然而自然界或工业生产中普遍存在的是由非球形颗粒组成的复杂体系,其在不同空间尺度下的动力学行为及力学性质与球形颗粒具有显著差异.基于连续函数包络的超二次曲面单元能有效地构造非球形颗粒的几何形态,并通过非线性Newton迭代算法准确计算单元间的作用力.针对非球形颗粒间接触判断的复杂性及其大规模离散元计算的需求,该文发展了基于CUDA-GPU构架下超二次曲面单元并行算法.该方法在球形颗粒并行计算的基础上,通过核函数建立单元包围盒的粗判断列表及Newton迭代的细判断列表,并优化了并行算法和内存访问模式以提高算法的计算效率.为检验超二次曲面并行算法的可靠性,对非球形颗粒的流动过程进行离散元模拟,并与试验结果进行对比验证.在此基础上,进一步分析了颗粒单元不同长宽比和表面尖锐度对颗粒材料流动特性的影响,为非球形颗粒材料的大规模离散元模拟提供了一种有效的数值方法. 展开更多
关键词 cuda-gpu架构 超二次曲面单元 非球形颗粒 离散单元方法 并行算法
下载PDF
基于GPU的CUDA应用开发环境构架 被引量:2
19
作者 邓力 陈晓翔 林嘉宇 《微处理机》 2013年第1期1-3,共3页
随着GPU(graphics processing unit,图像处理单元)的快速发展,其强大的计算能力使得GPU由最初仅用于加速图形计算,越来越多地应用到非图形领域的计算。在CPU-GPU体系中,CPU负责进行复杂的逻辑运算和事务管理等不适合并行处理的数据计算,... 随着GPU(graphics processing unit,图像处理单元)的快速发展,其强大的计算能力使得GPU由最初仅用于加速图形计算,越来越多地应用到非图形领域的计算。在CPU-GPU体系中,CPU负责进行复杂的逻辑运算和事务管理等不适合并行处理的数据计算,GPU负责进行计算密集度高、逻辑分支简单的适合并行处理的大规模数据计算。CPU-GPU体系的不断完善,使得利用GPU来加速大规模科学计算成为了一种必然趋势。着眼GPU的应用开发,介绍在windows环境下CUDA+VS2008开发平台的构架,并对该构架下GPU与CPU的科学计算性能进行比对。 展开更多
关键词 图像处理单元 统一计算架构 环境构架 性能比对
下载PDF
GPU并行计算的CUDA架构浅析 被引量:2
20
作者 吴辉 罗清海 彭文武 《教育教学论坛》 2019年第6期277-278,共2页
本文阐述了GPU并行运算的一种主流架构——CUDA架构,包括CUDA编程模型、程序的运行模式、线程架构、存储器结构、指令结构等。
关键词 gpu cuda架构 并行计算
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部