期刊文献+
共找到1,299篇文章
< 1 2 65 >
每页显示 20 50 100
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
1
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout Optimization cuda Performance Optimization GPU Memory Optimization Dynamic Programming Matrix Multiplication Memory Access Pattern Optimization in cuda
下载PDF
MPI+CUDA联合加速重力场反演的并行算法
2
作者 赵锴坤 朱炬波 +1 位作者 谷德峰 韦春博 《大地测量与地球动力学》 CSCD 北大核心 2024年第4期423-428,共6页
针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速... 针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速;基于CUDA编写大规模矩阵相乘的并行加速程序,并针对不同类型的矩阵进行适配,同时联合MPI将法矩阵的计算过程进一步细分,实现对分进程内存峰值的压缩。在单机上完成30阶与120阶重力场仿真解算任务,结果表明,反演30阶重力场时加速比可达180;反演120阶重力场时,并行计算单次迭代仅耗时2 h,而串行模式下无法计算。 展开更多
关键词 重力场 并行计算 cuda MPI
下载PDF
基于CUDA并行计算的煤矿奥灰突水快速准确预测方法
3
作者 刘大鹏 张思睿 《承德石油高等专科学校学报》 CAS 2024年第2期9-12,59,共5页
通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水... 通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水预测方法,将英伟达公司开发的CUDA并行计算技术应用到煤矿突水防治中,详细介绍了CUDA预测突水软件编写思路和模型。编写了CUDA监测突水程序并结合钻孔水位数据对煤矿突水点进行了实际预测,与传统CPU串行计算相比,大大提高了煤矿突水预测计算速度,对实现煤矿突水快速准确预测具有参考意义。 展开更多
关键词 煤矿 cuda 并行计算 突水
下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
4
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares Memory Throughput Computational Throughput Contiguous Memory Access cuda Optimization
下载PDF
基于CUDA加速的图像特征检测与匹配算法研究
5
作者 成健 《电子制作》 2024年第13期67-70,共4页
针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线... 针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线程id去查询对应的图像块,使用FAST快速检测图像块的角点,初步保留质量较好的角点,计算Harris响应值和非极大值抑制再筛选得到一部分角点作为图像特征点,然后通过256组2维随机点描述符,计算图像特征点的描述子,最后通过计算两幅图像特征点描述子的汉明距离来匹配特征点,剔除汉明距离过大的匹配特征点对。对实际的CUDA代码测试结果分析表明,处理一组同样的1080p图像用时86ms左右,而OpenCV用时至少在210ms。 展开更多
关键词 特征检测 ORB cuda FASR角点检测 Harris响应值 特征匹配 BRIFF描述子
下载PDF
Developing a Clang Libtooling-Based Refactoring Tool for CUDA GPU Programming
6
作者 Kian Nejadfard Janche Sang 《Journal of Software Engineering and Applications》 2024年第2期89-108,共20页
Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizin... Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizing them to also evolve to remain compatible with modern advancements. Take, for example, NVIDIA CUDA’s platform for general-purpose GPU programming. Embracing the more contemporary unified memory architecture offers several benefits, such as simplifying program source code, reducing bugs stemming from manual memory management between host and device memory, and optimizing memory transfer through automated memory handling. This paper describes our development of a refactoring tool based on Clang’s Libtooling to facilitate this transition automatically, thereby relieving developers from the burden and risks associated with manually refactoring large code bases. 展开更多
关键词 REFACTORING cuda Unified Memory Clang Libtooling
下载PDF
Qt中基于CUDA实现频域波束形成算法
7
作者 黄建凯 《电脑编程技巧与维护》 2024年第7期3-5,15,共4页
频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是... 频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是一个跨平台的集成开发环境,移植性好、调试效率高。介绍了centos系统下CUDA的安装方法、通过Qt实现CUDA的编译和调用的方法,详细介绍了基于CUDA实现频域波束形成算法的流程。 展开更多
关键词 cuda平台 频域波束形成 并行计算
下载PDF
Simulation of inclined dendrites under natural convection by KKS phase field model based on CUDA 被引量:1
8
作者 Chang-sheng Zhu Tian-yu Li +2 位作者 Bo-rui Zhao Cang-long Wang Zi-hao Gao 《China Foundry》 SCIE CAS CSCD 2023年第5期432-442,共11页
In this work,Al-4.5wt.%Cu was selected as the research object,and a phase field-lattice Boltzmann method(PF-LBM)model based on compute unified device architecture(CUDA)was established to solve the problem of low seria... In this work,Al-4.5wt.%Cu was selected as the research object,and a phase field-lattice Boltzmann method(PF-LBM)model based on compute unified device architecture(CUDA)was established to solve the problem of low serial computing efficiency of a traditional CPU and achieve significant acceleration.This model was used to explore the evolution of dendrite growth under natural convection.Through the study of the tip velocities,it is found that the growth of the dendrite arms at the bottom is inhibited while the growth of the dendrite arms at the top is promoted by natural convection.In addition,research on the inclined dendrite under natural convection was conducted.It is observed that there is a deviation between the actual growth direction and the preferred angle of the inclined dendrite.With the increase of the preferred angle of the seed,the difference between the actual growth direction and the initial preferred angle of the inclined dendrite shows a trend of increasing at first and then decreasing.In the simulation area,the relative deflection directions of the primary dendrite arms in the top right corner and the bottom left corner of the same dendrite are almost counterclockwise,while the relative deflection directions of the other two primary dendrite arms are clockwise. 展开更多
关键词 PF-LBM natural convection inclined dendrites cuda
下载PDF
基于CUDA和OpenGL的多图层叠加的雷达终端显示技术 被引量:1
9
作者 陈龙 《空天预警研究学报》 CSCD 2023年第3期194-197,203,共5页
为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,... 为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,利用该方法可以将雷达视频、电子地图以及点航迹信息进行叠加显示,具有较强的灵活性和扩展性. 展开更多
关键词 雷达终端显示 OpenGL纹理 cuda架构 多图层叠加
下载PDF
基于CUDA的智能电网谐波的检测与监控
10
作者 赵从杰 潘文林 《计算机与数字工程》 2023年第4期954-958,共5页
为了获得更快的处理响应和稳定性,并向用户提供有关电能质量(损耗、谐波、断电、稳态和瞬态事件)的信息,自主检测单元对于智能电网的发展是至关重要的。论文介绍了一种基于CUDA的新型智能电网谐波实时分析系统,图形处理器(Graphics Proc... 为了获得更快的处理响应和稳定性,并向用户提供有关电能质量(损耗、谐波、断电、稳态和瞬态事件)的信息,自主检测单元对于智能电网的发展是至关重要的。论文介绍了一种基于CUDA的新型智能电网谐波实时分析系统,图形处理器(Graphics Processing Unit,GPU)作为高性能并行计算机实现对电网的仿真、分析、可视化及优化控制。在此基础上设计了一种利用优化窗插值快速傅里叶FFT算法,通过CUDA实现并行化计算,从而实现对电网谐波的检测。考虑到FFT算法在检测电网谐波时会由于周期截断产生一定的检测误差,论文提出了一种基于遗传算法的组合预选函数最为插值优化窗。最后通过仿真验证了论文的设计策略的正确性。 展开更多
关键词 电网谐波检测 cuda 快速傅里叶算法 遗传算法
下载PDF
基于CUDA的并行雷达拼图算法研究
11
作者 韩丰 高嵩 +1 位作者 薛峰 李月安 《气象》 CSCD 北大核心 2023年第10期1246-1253,共8页
雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义... 雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义。采用中央处理器(central processing unit,CPU)和图形处理器(graphics processing unit,GPU)混合架构设计并行雷达拼图算法,其中CPU负责雷达数据的解析和调度GPU并行模块,GPU负责大规模数据的并行计算。通过分析计算统一设备架构(compute unified device architecture,CUDA)算法的并行开销和拼图算法的特点,提出并实现了GPU内存管理优化和数据交换流程优化方案,提高了组网拼图算法的效率。对比试验结果表明,基于CUDA的GPU并行拼图算法和SWAN中30线程并行的CPU算法相比,在全国1 km和500 m分辨率的拼图任务上,加速比分别达到3.52和6.82。综上,基于CUDA的并行拼图算法不仅可以提高SWAN短时临近算法序列的时效性,也为更高分辨率雷达资料的拼图提供了技术支持。 展开更多
关键词 组网拼图 GPU并行 计算统一设备架构(cuda) 强对流天气短时临近预报系统(SWAN)
下载PDF
基于CUDA的全景视频实时监控系统设计
12
作者 杨振玲 邹玉英 王高峰 《电子设计工程》 2023年第13期89-93,共5页
针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保... 针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保存在映射表中,在重叠区域寻找一条最佳接缝线并生成接缝线掩码图,利用CUDA编译模型实现全景图像的实时处理。实验结果表明,该监控系统具有良好的视觉性,并达到了全景视频实时性输出的工程要求。 展开更多
关键词 全景视频 图像拼接 实时性 cuda编译模型 图像融合
下载PDF
二维稳态热传导CUDA并行
13
作者 王民 《物联网技术》 2023年第10期124-125,128,共3页
随着计算机技术的发展,面向GPU设备实现应用程序的加速处理成为当前的研究热点之一。文中首先介绍了二维稳态传导程序的基础内容;其次基于有限差分的拉普拉斯方程来实现多核平台上二维稳态热传导程序的编写以及测试工作;再次在NVIDIAGEF... 随着计算机技术的发展,面向GPU设备实现应用程序的加速处理成为当前的研究热点之一。文中首先介绍了二维稳态传导程序的基础内容;其次基于有限差分的拉普拉斯方程来实现多核平台上二维稳态热传导程序的编写以及测试工作;再次在NVIDIAGEFORCE平台上实现对二维稳态热传导程序的并行化,通过使用CUDA并行技术提升应用程序在GPU平台的计算速度。最后借助于计时方法对串行和并行化程序的时间进行记录,基于时间来计算加速比以及并行效率,进而分析二维稳态热传导程序的性能。 展开更多
关键词 有限差分 拉普拉斯 二维稳态热传导 cuda 多核平台 并行化
下载PDF
CUDA相邻归约与其避免线程分化算法的研究
14
作者 卫易东 《信息与电脑》 2023年第18期55-57,61,共4页
在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发... 在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发的基础原理和概念,并解释了CUDA运算的执行流程。通过分析GPU架构原理,提出了相邻归约算法和相邻归约的避免线程分化算法的实现方式和应用方法。 展开更多
关键词 边缘计算 统一计算架构(cuda) 优化算法 相邻归约 避免线程分化 矩阵加法 计算效率
下载PDF
基于CUDA的并行布谷鸟搜索算法设计与实现 被引量:2
15
作者 韦向远 杨辉华 谢谱模 《计算机科学与探索》 CSCD 2014年第6期665-673,共9页
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device arch... 布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。 展开更多
关键词 布谷鸟搜索算法 并行计算 图形处理器(GPU) 统一计算设备架构(cuda) GRAPHIC processing unit (GPU) compute UNIFIED device architecture (cuda)
下载PDF
基于CUDA加速的图像配准算法
16
作者 牛彤 刘立东 武忆涵 《计算机系统应用》 2023年第1期146-155,共10页
针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的... 针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的检测和描述进行CUDA并行优化;基于FLANN和RANSAC算法,采用双向匹配策略进行特征匹配,提高配准精度.结果表明,相对串行算法,本文并行算法对不同分辨率的图像均可实现10倍以上的加速比,而且配准精度较传统配准算法提高17%,精度最优可高达96%.基于CUDA加速的SURF算法可广泛应用于安防监控领域,实现全景图像的实时配准. 展开更多
关键词 快速鲁棒特征 统一计算设备架构 并行加速 快速最近邻搜索算法 RANSAC 双向匹配 图像配准
下载PDF
CUDA架构下的灰度图像匹配并行算法 被引量:15
17
作者 李建江 张磊 +2 位作者 李兴钢 陈翔 黄义双 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第1期110-113,共4页
提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图... 提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。 展开更多
关键词 cuda GPU 灰度 图像匹配 并行
下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
18
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
19
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(GPU) cuda 液晶 自适应光学 波面解析
下载PDF
CUDA处理机管理机制分析
20
作者 陈乐 《福建电脑》 2010年第8期29-29,43,共2页
NVIDIA推出的CUDA架构将GPU本质上是外部设备的一个芯片内处理机集群。它的处理机管理机制与传统CPU所遵循的思想存在着巨大的差异。有关CUDA线程的若干基本概念及线程的调度算法均有许多独特之处,这些新的理论尚未完全公开。本文做出了... NVIDIA推出的CUDA架构将GPU本质上是外部设备的一个芯片内处理机集群。它的处理机管理机制与传统CPU所遵循的思想存在着巨大的差异。有关CUDA线程的若干基本概念及线程的调度算法均有许多独特之处,这些新的理论尚未完全公开。本文做出了CUDA线程的定义,提出了CU-DA TCB等基本概念;分析了线程的生命周期,并最终给出了协处理机CUDA CORE上的线程调度模型。 展开更多
关键词 cuda TCB cuda线程 WARP 调度算法
下载PDF
上一页 1 2 65 下一页 到第
使用帮助 返回顶部