期刊文献+
共找到1,302篇文章
< 1 2 66 >
每页显示 20 50 100
基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究
1
作者 林拥真 徐传福 +4 位作者 邱昊中 汪青松 王正华 杨富翔 李洁 《计算机科学》 CSCD 北大核心 2024年第9期31-39,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦... DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化。在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 异构并行 MPI+cuda
下载PDF
基于神经网络的伽马射线定位算法及CUDA计算
2
作者 彭敬 王磊 +4 位作者 卢位 杜雨昆 李浩炫 孟娜 邹科峰 《核电子学与探测技术》 CAS 北大核心 2024年第4期663-672,共10页
为实现便携式核辐射成像场景下利用神经网络进行伽马射线定位的快速GPU计算,提出了一种基于CUDA的伽马射线定位计算方法。首先描述了伽马射线探测器模型、MURA成像系统和神经网络射线定位模型,然后对FCNN射线定位模型进行并行计算分析,... 为实现便携式核辐射成像场景下利用神经网络进行伽马射线定位的快速GPU计算,提出了一种基于CUDA的伽马射线定位计算方法。首先描述了伽马射线探测器模型、MURA成像系统和神经网络射线定位模型,然后对FCNN射线定位模型进行并行计算分析,在Jetson Xavier NX平台下实现了基于CUDA的伽马射线定位计算,并验证了该计算方法的准确性和对其计算效率进行对比分析。实验结果表明,对于10000组事件数据,设计的基于CUDA的射线定位计算与CPU射线定位计算结果几乎一致,其实际计算耗时11.5 ms,约为CPU射线定位计算的加速比的364倍。 展开更多
关键词 辐射成像 射线定位 神经网络 推理计算 cuda
下载PDF
MPI+CUDA联合加速重力场反演的并行算法
3
作者 赵锴坤 朱炬波 +1 位作者 谷德峰 韦春博 《大地测量与地球动力学》 CSCD 北大核心 2024年第4期423-428,共6页
针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速... 针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速;基于CUDA编写大规模矩阵相乘的并行加速程序,并针对不同类型的矩阵进行适配,同时联合MPI将法矩阵的计算过程进一步细分,实现对分进程内存峰值的压缩。在单机上完成30阶与120阶重力场仿真解算任务,结果表明,反演30阶重力场时加速比可达180;反演120阶重力场时,并行计算单次迭代仅耗时2 h,而串行模式下无法计算。 展开更多
关键词 重力场 并行计算 cuda MPI
下载PDF
基于CUDA并行计算的煤矿奥灰突水快速准确预测方法
4
作者 刘大鹏 张思睿 《承德石油高等专科学校学报》 CAS 2024年第2期9-12,59,共5页
通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水... 通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水预测方法,将英伟达公司开发的CUDA并行计算技术应用到煤矿突水防治中,详细介绍了CUDA预测突水软件编写思路和模型。编写了CUDA监测突水程序并结合钻孔水位数据对煤矿突水点进行了实际预测,与传统CPU串行计算相比,大大提高了煤矿突水预测计算速度,对实现煤矿突水快速准确预测具有参考意义。 展开更多
关键词 煤矿 cuda 并行计算 突水
下载PDF
基于指令流水线的CUDA核函数时间预测模型
5
作者 张建定 陈根浪 明宗禹 《软件工程》 2024年第10期74-78,共5页
对CUDA核函数(CUDA Kernel Function)在静态下的评估预测是任务调度与程序优化的一个关键组成部分。文章通过对CUDA核函数的PTX(Parallel Thread Execution)进行代码分析和特性建模,精心设计了一个时间预测模型。该模型基于指令流水线... 对CUDA核函数(CUDA Kernel Function)在静态下的评估预测是任务调度与程序优化的一个关键组成部分。文章通过对CUDA核函数的PTX(Parallel Thread Execution)进行代码分析和特性建模,精心设计了一个时间预测模型。该模型基于指令流水线的原理,可以在不执行程序的情况下,预测核函数在给定硬件环境下的执行时间。实验结果表明,该模型在预测CUDA核函数执行时间上的平均百分比误差为22.87%。这意味着该模型能够相对准确地预测核函数的执行时间,为任务调度系统提供参考,并辅助开发人员对程序进行优化。 展开更多
关键词 cuda 时间预测 静态 PTX 流水线
下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
6
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares Memory Throughput Computational Throughput Contiguous Memory Access cuda Optimization
下载PDF
基于CUDA加速的图像特征检测与匹配算法研究
7
作者 成健 《电子制作》 2024年第13期67-70,共4页
针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线... 针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线程id去查询对应的图像块,使用FAST快速检测图像块的角点,初步保留质量较好的角点,计算Harris响应值和非极大值抑制再筛选得到一部分角点作为图像特征点,然后通过256组2维随机点描述符,计算图像特征点的描述子,最后通过计算两幅图像特征点描述子的汉明距离来匹配特征点,剔除汉明距离过大的匹配特征点对。对实际的CUDA代码测试结果分析表明,处理一组同样的1080p图像用时86ms左右,而OpenCV用时至少在210ms。 展开更多
关键词 特征检测 ORB cuda FASR角点检测 Harris响应值 特征匹配 BRIFF描述子
下载PDF
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
8
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout Optimization cuda Performance Optimization GPU Memory Optimization Dynamic Programming Matrix Multiplication Memory Access Pattern Optimization in cuda
下载PDF
Developing a Clang Libtooling-Based Refactoring Tool for CUDA GPU Programming
9
作者 Kian Nejadfard Janche Sang 《Journal of Software Engineering and Applications》 2024年第2期89-108,共20页
Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizin... Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizing them to also evolve to remain compatible with modern advancements. Take, for example, NVIDIA CUDA’s platform for general-purpose GPU programming. Embracing the more contemporary unified memory architecture offers several benefits, such as simplifying program source code, reducing bugs stemming from manual memory management between host and device memory, and optimizing memory transfer through automated memory handling. This paper describes our development of a refactoring tool based on Clang’s Libtooling to facilitate this transition automatically, thereby relieving developers from the burden and risks associated with manually refactoring large code bases. 展开更多
关键词 REFACTORING cuda Unified Memory Clang Libtooling
下载PDF
Qt中基于CUDA实现频域波束形成算法
10
作者 黄建凯 《电脑编程技巧与维护》 2024年第7期3-5,15,共4页
频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是... 频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是一个跨平台的集成开发环境,移植性好、调试效率高。介绍了centos系统下CUDA的安装方法、通过Qt实现CUDA的编译和调用的方法,详细介绍了基于CUDA实现频域波束形成算法的流程。 展开更多
关键词 cuda平台 频域波束形成 并行计算
下载PDF
CUDA架构下的灰度图像匹配并行算法 被引量:15
11
作者 李建江 张磊 +2 位作者 李兴钢 陈翔 黄义双 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第1期110-113,共4页
提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图... 提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。 展开更多
关键词 cuda GPU 灰度 图像匹配 并行
下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
12
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
13
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(GPU) cuda 液晶 自适应光学 波面解析
下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:17
14
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
下载PDF
基于CUDA的并行全搜索运动估计算法 被引量:15
15
作者 甘新标 沈立 王志英 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期457-460,共4页
为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证... 为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证视频质量的同时,结合运动估计计算密集、计算量大等特点,充分利用CUDA架构的并行性加快运动估计的速度,从而达到提高实时编码速度的目的.在GTX280实验平台上的实验结果显示,采用文中算法比优化的CPU实现可获得高达70倍的加速比. 展开更多
关键词 图形处理器 运动估计 并行 cuda
下载PDF
快速鲁棒特征算法的CUDA加速优化 被引量:9
16
作者 刘金硕 曾秋梅 +2 位作者 邹斌 江庄毅 邓娟 《计算机科学》 CSCD 北大核心 2014年第4期24-27,43,共5页
提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型... 提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型方面对算法的构建尺度空间、特征点提取、特征点主方向的确定、特征描述子的生成及特征匹配5个步骤进行CUDA加速优化。实验表明,相比适用于CPU的SURF算法,文中提出的适用于GPU的SURF算法在处理30MB的图片时性能提高了33倍。适用于GPU的SURF算法拓展了SURF算法在遥感等领域的快速应用,尤其是大影像的快速配准。 展开更多
关键词 快速鲁棒特征 cuda 特征提取 影像匹配
下载PDF
基于CUDA的SVM算法并行化研究 被引量:6
17
作者 张巍 张功萱 +2 位作者 王永利 张永平 朱昭萌 《计算机科学》 CSCD 北大核心 2013年第4期69-72,106,共5页
SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进... SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。 展开更多
关键词 cuda GPU 支持向量机 并行计算
下载PDF
一种基于CUDA的三维点云快速光顺算法 被引量:6
18
作者 唐杰 徐波 +1 位作者 宫中樑 武港山 《系统仿真学报》 CAS CSCD 北大核心 2012年第8期1633-1637,1642,共6页
提出了一种基于CUDA的点云光顺算法。算法细分成点云空间划分,K邻近搜索,法矢估算以及光顺等四个独立的且并行程度非常高的步骤。设计了基于CUDA的点云空间平均单元格划分算法及数据结构,有效提升了点云的划分效率;设计了基于CUDA的空间... 提出了一种基于CUDA的点云光顺算法。算法细分成点云空间划分,K邻近搜索,法矢估算以及光顺等四个独立的且并行程度非常高的步骤。设计了基于CUDA的点云空间平均单元格划分算法及数据结构,有效提升了点云的划分效率;设计了基于CUDA的空间K邻近搜索算法;改进了点云法矢估算方法,提出了高斯加权的法矢计算方法,有效改善了法矢估算效果;在光顺过程中加入了邻近点的面积影响因子,缓和了过光顺等不足。最后通过实验验证了算法的有效性。 展开更多
关键词 光顺 cuda GPU计算 点云
下载PDF
CUDA并行程序的内存访问优化技术研究 被引量:17
19
作者 邹岩 杨志义 张凯龙 《计算机测量与控制》 CSCD 北大核心 2009年第12期2504-2506,共3页
对统一计算设备架构CUDA技术进行了研究,分析了CUDA体系结构及其内存访问机制的显著特点,总结了CUDA并行程序常见的内存访问问题,针对全局内存的非对齐访问和共享内存的访问冲突,提出了相应的内存访问优化策略;最后,利用直方图均衡算法... 对统一计算设备架构CUDA技术进行了研究,分析了CUDA体系结构及其内存访问机制的显著特点,总结了CUDA并行程序常见的内存访问问题,针对全局内存的非对齐访问和共享内存的访问冲突,提出了相应的内存访问优化策略;最后,利用直方图均衡算法对此优化技术进行了测试,对比了优化前后的程序执行时间;实验结果表明,利用此优化技术可以大大缩短CUDA程序的执行时间,并且图像像素越大,优化效果越好。 展开更多
关键词 cuda 并行计算 优化技术
下载PDF
动态任务分配CUDA线程束步进体绘制 被引量:4
20
作者 孙万捷 高瞻 +2 位作者 潘海燕 王杰华 蒋峥峥 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2016年第10期1630-1638,共9页
针对标准CUDA光线投射体绘制过程中因线程束内线程计算量不均产生线程束分化,导致计算资源利用率低的问题,提出CUDA线程束步进的算法.首先分析标准CUDA实现导致线程束分化的原因,提出将光线积分映射至线程束上,线程束内所有线程同步分... 针对标准CUDA光线投射体绘制过程中因线程束内线程计算量不均产生线程束分化,导致计算资源利用率低的问题,提出CUDA线程束步进的算法.首先分析标准CUDA实现导致线程束分化的原因,提出将光线积分映射至线程束上,线程束内所有线程同步分段积分直至光线终止,以避免线程束分化;然后结合光线积分的数学原理和GPU的硬件特性提出线程束内光线积分的算法;最后针对静态线程束任务分配方式导致负载失衡的缺点,提出动态线程束任务分配的实现算法.实验结果表明,动态任务分配线程束步进算法的性能较标准CUDA实现可获得1.9~7.9倍的加速效果. 展开更多
关键词 cuda 线程束 体绘制 资源利用率
下载PDF
上一页 1 2 66 下一页 到第
使用帮助 返回顶部