期刊文献+
共找到1,302篇文章
< 1 2 66 >
每页显示 20 50 100
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
1
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout Optimization cuda Performance Optimization GPU Memory Optimization Dynamic Programming Matrix Multiplication Memory Access Pattern Optimization in cuda
下载PDF
基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究
2
作者 林拥真 徐传福 +4 位作者 邱昊中 汪青松 王正华 杨富翔 李洁 《计算机科学》 CSCD 北大核心 2024年第9期31-39,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦... DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化。在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 异构并行 MPI+cuda
下载PDF
基于神经网络的伽马射线定位算法及CUDA计算
3
作者 彭敬 王磊 +4 位作者 卢位 杜雨昆 李浩炫 孟娜 邹科峰 《核电子学与探测技术》 CAS 北大核心 2024年第4期663-672,共10页
为实现便携式核辐射成像场景下利用神经网络进行伽马射线定位的快速GPU计算,提出了一种基于CUDA的伽马射线定位计算方法。首先描述了伽马射线探测器模型、MURA成像系统和神经网络射线定位模型,然后对FCNN射线定位模型进行并行计算分析,... 为实现便携式核辐射成像场景下利用神经网络进行伽马射线定位的快速GPU计算,提出了一种基于CUDA的伽马射线定位计算方法。首先描述了伽马射线探测器模型、MURA成像系统和神经网络射线定位模型,然后对FCNN射线定位模型进行并行计算分析,在Jetson Xavier NX平台下实现了基于CUDA的伽马射线定位计算,并验证了该计算方法的准确性和对其计算效率进行对比分析。实验结果表明,对于10000组事件数据,设计的基于CUDA的射线定位计算与CPU射线定位计算结果几乎一致,其实际计算耗时11.5 ms,约为CPU射线定位计算的加速比的364倍。 展开更多
关键词 辐射成像 射线定位 神经网络 推理计算 cuda
下载PDF
MPI+CUDA联合加速重力场反演的并行算法
4
作者 赵锴坤 朱炬波 +1 位作者 谷德峰 韦春博 《大地测量与地球动力学》 CSCD 北大核心 2024年第4期423-428,共6页
针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速... 针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速;基于CUDA编写大规模矩阵相乘的并行加速程序,并针对不同类型的矩阵进行适配,同时联合MPI将法矩阵的计算过程进一步细分,实现对分进程内存峰值的压缩。在单机上完成30阶与120阶重力场仿真解算任务,结果表明,反演30阶重力场时加速比可达180;反演120阶重力场时,并行计算单次迭代仅耗时2 h,而串行模式下无法计算。 展开更多
关键词 重力场 并行计算 cuda MPI
下载PDF
基于CUDA并行计算的煤矿奥灰突水快速准确预测方法
5
作者 刘大鹏 张思睿 《承德石油高等专科学校学报》 CAS 2024年第2期9-12,59,共5页
通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水... 通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水预测方法,将英伟达公司开发的CUDA并行计算技术应用到煤矿突水防治中,详细介绍了CUDA预测突水软件编写思路和模型。编写了CUDA监测突水程序并结合钻孔水位数据对煤矿突水点进行了实际预测,与传统CPU串行计算相比,大大提高了煤矿突水预测计算速度,对实现煤矿突水快速准确预测具有参考意义。 展开更多
关键词 煤矿 cuda 并行计算 突水
下载PDF
基于指令流水线的CUDA核函数时间预测模型
6
作者 张建定 陈根浪 明宗禹 《软件工程》 2024年第10期74-78,共5页
对CUDA核函数(CUDA Kernel Function)在静态下的评估预测是任务调度与程序优化的一个关键组成部分。文章通过对CUDA核函数的PTX(Parallel Thread Execution)进行代码分析和特性建模,精心设计了一个时间预测模型。该模型基于指令流水线... 对CUDA核函数(CUDA Kernel Function)在静态下的评估预测是任务调度与程序优化的一个关键组成部分。文章通过对CUDA核函数的PTX(Parallel Thread Execution)进行代码分析和特性建模,精心设计了一个时间预测模型。该模型基于指令流水线的原理,可以在不执行程序的情况下,预测核函数在给定硬件环境下的执行时间。实验结果表明,该模型在预测CUDA核函数执行时间上的平均百分比误差为22.87%。这意味着该模型能够相对准确地预测核函数的执行时间,为任务调度系统提供参考,并辅助开发人员对程序进行优化。 展开更多
关键词 cuda 时间预测 静态 PTX 流水线
下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
7
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares Memory Throughput Computational Throughput Contiguous Memory Access cuda Optimization
下载PDF
基于CUDA加速的图像特征检测与匹配算法研究
8
作者 成健 《电子制作》 2024年第13期67-70,共4页
针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线... 针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线程id去查询对应的图像块,使用FAST快速检测图像块的角点,初步保留质量较好的角点,计算Harris响应值和非极大值抑制再筛选得到一部分角点作为图像特征点,然后通过256组2维随机点描述符,计算图像特征点的描述子,最后通过计算两幅图像特征点描述子的汉明距离来匹配特征点,剔除汉明距离过大的匹配特征点对。对实际的CUDA代码测试结果分析表明,处理一组同样的1080p图像用时86ms左右,而OpenCV用时至少在210ms。 展开更多
关键词 特征检测 ORB cuda FASR角点检测 Harris响应值 特征匹配 BRIFF描述子
下载PDF
Developing a Clang Libtooling-Based Refactoring Tool for CUDA GPU Programming
9
作者 Kian Nejadfard Janche Sang 《Journal of Software Engineering and Applications》 2024年第2期89-108,共20页
Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizin... Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizing them to also evolve to remain compatible with modern advancements. Take, for example, NVIDIA CUDA’s platform for general-purpose GPU programming. Embracing the more contemporary unified memory architecture offers several benefits, such as simplifying program source code, reducing bugs stemming from manual memory management between host and device memory, and optimizing memory transfer through automated memory handling. This paper describes our development of a refactoring tool based on Clang’s Libtooling to facilitate this transition automatically, thereby relieving developers from the burden and risks associated with manually refactoring large code bases. 展开更多
关键词 REFACTORING cuda Unified Memory Clang Libtooling
下载PDF
Qt中基于CUDA实现频域波束形成算法
10
作者 黄建凯 《电脑编程技巧与维护》 2024年第7期3-5,15,共4页
频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是... 频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是一个跨平台的集成开发环境,移植性好、调试效率高。介绍了centos系统下CUDA的安装方法、通过Qt实现CUDA的编译和调用的方法,详细介绍了基于CUDA实现频域波束形成算法的流程。 展开更多
关键词 cuda平台 频域波束形成 并行计算
下载PDF
基于CUDA的智能电网谐波的检测与监控 被引量:1
11
作者 赵从杰 潘文林 《计算机与数字工程》 2023年第4期954-958,共5页
为了获得更快的处理响应和稳定性,并向用户提供有关电能质量(损耗、谐波、断电、稳态和瞬态事件)的信息,自主检测单元对于智能电网的发展是至关重要的。论文介绍了一种基于CUDA的新型智能电网谐波实时分析系统,图形处理器(Graphics Proc... 为了获得更快的处理响应和稳定性,并向用户提供有关电能质量(损耗、谐波、断电、稳态和瞬态事件)的信息,自主检测单元对于智能电网的发展是至关重要的。论文介绍了一种基于CUDA的新型智能电网谐波实时分析系统,图形处理器(Graphics Processing Unit,GPU)作为高性能并行计算机实现对电网的仿真、分析、可视化及优化控制。在此基础上设计了一种利用优化窗插值快速傅里叶FFT算法,通过CUDA实现并行化计算,从而实现对电网谐波的检测。考虑到FFT算法在检测电网谐波时会由于周期截断产生一定的检测误差,论文提出了一种基于遗传算法的组合预选函数最为插值优化窗。最后通过仿真验证了论文的设计策略的正确性。 展开更多
关键词 电网谐波检测 cuda 快速傅里叶算法 遗传算法
下载PDF
基于CUDA和OpenGL的多图层叠加的雷达终端显示技术 被引量:2
12
作者 陈龙 《空天预警研究学报》 CSCD 2023年第3期194-197,203,共5页
为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,... 为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,利用该方法可以将雷达视频、电子地图以及点航迹信息进行叠加显示,具有较强的灵活性和扩展性. 展开更多
关键词 雷达终端显示 OpenGL纹理 cuda架构 多图层叠加
下载PDF
Simulation of inclined dendrites under natural convection by KKS phase field model based on CUDA 被引量:1
13
作者 Chang-sheng Zhu Tian-yu Li +2 位作者 Bo-rui Zhao Cang-long Wang Zi-hao Gao 《China Foundry》 SCIE CAS CSCD 2023年第5期432-442,共11页
In this work,Al-4.5wt.%Cu was selected as the research object,and a phase field-lattice Boltzmann method(PF-LBM)model based on compute unified device architecture(CUDA)was established to solve the problem of low seria... In this work,Al-4.5wt.%Cu was selected as the research object,and a phase field-lattice Boltzmann method(PF-LBM)model based on compute unified device architecture(CUDA)was established to solve the problem of low serial computing efficiency of a traditional CPU and achieve significant acceleration.This model was used to explore the evolution of dendrite growth under natural convection.Through the study of the tip velocities,it is found that the growth of the dendrite arms at the bottom is inhibited while the growth of the dendrite arms at the top is promoted by natural convection.In addition,research on the inclined dendrite under natural convection was conducted.It is observed that there is a deviation between the actual growth direction and the preferred angle of the inclined dendrite.With the increase of the preferred angle of the seed,the difference between the actual growth direction and the initial preferred angle of the inclined dendrite shows a trend of increasing at first and then decreasing.In the simulation area,the relative deflection directions of the primary dendrite arms in the top right corner and the bottom left corner of the same dendrite are almost counterclockwise,while the relative deflection directions of the other two primary dendrite arms are clockwise. 展开更多
关键词 PF-LBM natural convection inclined dendrites cuda
下载PDF
基于CUDA的并行雷达拼图算法研究 被引量:1
14
作者 韩丰 高嵩 +1 位作者 薛峰 李月安 《气象》 CSCD 北大核心 2023年第10期1246-1253,共8页
雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义... 雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义。采用中央处理器(central processing unit,CPU)和图形处理器(graphics processing unit,GPU)混合架构设计并行雷达拼图算法,其中CPU负责雷达数据的解析和调度GPU并行模块,GPU负责大规模数据的并行计算。通过分析计算统一设备架构(compute unified device architecture,CUDA)算法的并行开销和拼图算法的特点,提出并实现了GPU内存管理优化和数据交换流程优化方案,提高了组网拼图算法的效率。对比试验结果表明,基于CUDA的GPU并行拼图算法和SWAN中30线程并行的CPU算法相比,在全国1 km和500 m分辨率的拼图任务上,加速比分别达到3.52和6.82。综上,基于CUDA的并行拼图算法不仅可以提高SWAN短时临近算法序列的时效性,也为更高分辨率雷达资料的拼图提供了技术支持。 展开更多
关键词 组网拼图 GPU并行 计算统一设备架构(cuda) 强对流天气短时临近预报系统(SWAN)
下载PDF
基于CUDA的全景视频实时监控系统设计
15
作者 杨振玲 邹玉英 王高峰 《电子设计工程》 2023年第13期89-93,共5页
针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保... 针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保存在映射表中,在重叠区域寻找一条最佳接缝线并生成接缝线掩码图,利用CUDA编译模型实现全景图像的实时处理。实验结果表明,该监控系统具有良好的视觉性,并达到了全景视频实时性输出的工程要求。 展开更多
关键词 全景视频 图像拼接 实时性 cuda编译模型 图像融合
下载PDF
二维稳态热传导CUDA并行
16
作者 王民 《物联网技术》 2023年第10期124-125,128,共3页
随着计算机技术的发展,面向GPU设备实现应用程序的加速处理成为当前的研究热点之一。文中首先介绍了二维稳态传导程序的基础内容;其次基于有限差分的拉普拉斯方程来实现多核平台上二维稳态热传导程序的编写以及测试工作;再次在NVIDIAGEF... 随着计算机技术的发展,面向GPU设备实现应用程序的加速处理成为当前的研究热点之一。文中首先介绍了二维稳态传导程序的基础内容;其次基于有限差分的拉普拉斯方程来实现多核平台上二维稳态热传导程序的编写以及测试工作;再次在NVIDIAGEFORCE平台上实现对二维稳态热传导程序的并行化,通过使用CUDA并行技术提升应用程序在GPU平台的计算速度。最后借助于计时方法对串行和并行化程序的时间进行记录,基于时间来计算加速比以及并行效率,进而分析二维稳态热传导程序的性能。 展开更多
关键词 有限差分 拉普拉斯 二维稳态热传导 cuda 多核平台 并行化
下载PDF
CUDA相邻归约与其避免线程分化算法的研究
17
作者 卫易东 《信息与电脑》 2023年第18期55-57,61,共4页
在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发... 在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发的基础原理和概念,并解释了CUDA运算的执行流程。通过分析GPU架构原理,提出了相邻归约算法和相邻归约的避免线程分化算法的实现方式和应用方法。 展开更多
关键词 边缘计算 统一计算架构(cuda) 优化算法 相邻归约 避免线程分化 矩阵加法 计算效率
下载PDF
基于CUDA的并行布谷鸟搜索算法设计与实现 被引量:2
18
作者 韦向远 杨辉华 谢谱模 《计算机科学与探索》 CSCD 2014年第6期665-673,共9页
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device arch... 布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。 展开更多
关键词 布谷鸟搜索算法 并行计算 图形处理器(GPU) 统一计算设备架构(cuda) GRAPHIC processing unit (GPU) compute UNIFIED device architecture (cuda)
下载PDF
基于CUDA加速的图像配准算法
19
作者 牛彤 刘立东 武忆涵 《计算机系统应用》 2023年第1期146-155,共10页
针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的... 针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的检测和描述进行CUDA并行优化;基于FLANN和RANSAC算法,采用双向匹配策略进行特征匹配,提高配准精度.结果表明,相对串行算法,本文并行算法对不同分辨率的图像均可实现10倍以上的加速比,而且配准精度较传统配准算法提高17%,精度最优可高达96%.基于CUDA加速的SURF算法可广泛应用于安防监控领域,实现全景图像的实时配准. 展开更多
关键词 快速鲁棒特征 统一计算设备架构 并行加速 快速最近邻搜索算法 RANSAC 双向匹配 图像配准
下载PDF
CUDA架构下的灰度图像匹配并行算法 被引量:15
20
作者 李建江 张磊 +2 位作者 李兴钢 陈翔 黄义双 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第1期110-113,共4页
提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图... 提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。 展开更多
关键词 cuda GPU 灰度 图像匹配 并行
下载PDF
上一页 1 2 66 下一页 到第
使用帮助 返回顶部