期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
基于CUDA的全景视频实时监控系统设计
1
作者 杨振玲 邹玉英 王高峰 《电子设计工程》 2023年第13期89-93,共5页
针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保... 针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保存在映射表中,在重叠区域寻找一条最佳接缝线并生成接缝线掩码图,利用CUDA编译模型实现全景图像的实时处理。实验结果表明,该监控系统具有良好的视觉性,并达到了全景视频实时性输出的工程要求。 展开更多
关键词 全景视频 图像拼接 实时性 cuda编译模型 图像融合
下载PDF
基于CUDA的快速LBP纹理背景建模算法 被引量:2
2
作者 祖仲林 李勃 陈启美 《武汉理工大学学报(交通科学与工程版)》 2011年第1期91-94,100,共5页
针对复杂条件下背景建模这一视频检测领域的难点,提出一种基于Nvidia CUDA架构图形处理器(GPU)的快速LBP纹理直方图背景建模算法,算法根据GPU的并发结构和硬件特点,采用纹理存储和分页存储方式,利用共享内存与多点访问技术,提高数据访... 针对复杂条件下背景建模这一视频检测领域的难点,提出一种基于Nvidia CUDA架构图形处理器(GPU)的快速LBP纹理直方图背景建模算法,算法根据GPU的并发结构和硬件特点,采用纹理存储和分页存储方式,利用共享内存与多点访问技术,提高数据访问效率,降低了算法复杂度.实验结果表明,相比CPU实现,GPU方式能够明显改善实时性能,平均加速比在30x左右,帧处理速度达到40 f/s以上. 展开更多
关键词 cuda LBP直方图 背景建模 多点访问技术
下载PDF
非线性图像扩散LB模型的CUDA算法设计与实现 被引量:1
3
作者 周明 严壮志 黄彬 《应用科学学报》 CAS CSCD 北大核心 2014年第1期85-92,共8页
为提高基于格子波尔兹曼(Lattice Boltzmann,LB)模型图像去噪方法的性能,研究了非线性图像扩散LB模型的CUDA算法,即分别利用纹理内存、共享内存以及直接使用全局内存来实现非线性图像扩散LB模型中的迁移过程.利用合成图像和真实图像的... 为提高基于格子波尔兹曼(Lattice Boltzmann,LB)模型图像去噪方法的性能,研究了非线性图像扩散LB模型的CUDA算法,即分别利用纹理内存、共享内存以及直接使用全局内存来实现非线性图像扩散LB模型中的迁移过程.利用合成图像和真实图像的去噪实验表明,针对非线性图像扩散LB模型,GPU相对CPU的加速比可达90倍以上;而且加速比的提高与GPU流处理器的数目成正比. 展开更多
关键词 图像去噪 非线性图像扩散 LB模型 cuda算法
下载PDF
启发式优化算法的GPU并行加速框架
4
作者 王东杰 温思歆 +1 位作者 孟万植 吴迪 《系统仿真学报》 CAS CSCD 北大核心 2024年第8期1929-1943,共15页
为解决启发式优化算法计算量大、耗时长的缺点,使用图形处理单元(GPU)以及统一计算架构(compute unified device architecture,CUDA)对启发式优化算法进行并行化。提出了一种针对启发式优化算法的GPU并行框架,设计了具有并行逻辑结构的... 为解决启发式优化算法计算量大、耗时长的缺点,使用图形处理单元(GPU)以及统一计算架构(compute unified device architecture,CUDA)对启发式优化算法进行并行化。提出了一种针对启发式优化算法的GPU并行框架,设计了具有并行逻辑结构的信息交互框架、算法并行优化策略,解决了信息交互的逻辑结构在串、并行中的相异性问题,该框架可并行化各类启发式优化算法,具有一般性与高效性。为验证该框架的有效性,利用并行框架对5种常见启发式优化算法进行并行化,给出了多个测试函数下GPU并行计算与CPU串行计算的对比结果,其中差分进化算法、哈里斯鹰优化算法、灰狼优化算法、鲸鱼优化算法在种群维度为5000时,分别加速高达179.1、178.6、74.3、358.2倍,同时保证了结果的准确性,表明所设计并行框架的高效性与实用性。 展开更多
关键词 启发式优化算法 GPU并行 cuda模型 并行框架 信息交互
下载PDF
基于CUDA的汇流分析并行算法的研究与实现 被引量:6
5
作者 赵向辉 苗青 +2 位作者 付忠良 苏畅 李昕 《计算机应用研究》 CSCD 北大核心 2010年第7期2445-2447,2451,共4页
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和... 针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法,对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。 展开更多
关键词 并行计算 图形处理器 统一设备计算架构 汇流分析 数字高程模型
下载PDF
基于MPI+CUDA环境的静电相互作用能并行求解 被引量:1
6
作者 刘青昆 马名威 +1 位作者 杨荣杰 宫利东 《计算机应用与软件》 CSCD 北大核心 2012年第11期35-38,共4页
ABEEMσπ(Atom-Bond Electronegativity EqualizationσπModel)模型中,原串行程序求静电相互作用能的方法非常耗时,致使研究问题的效率降低。针对原程序中多个循环相互嵌套的求解部分,采用带状卷帘存储迭代分配的MPI(Message Passing ... ABEEMσπ(Atom-Bond Electronegativity EqualizationσπModel)模型中,原串行程序求静电相互作用能的方法非常耗时,致使研究问题的效率降低。针对原程序中多个循环相互嵌套的求解部分,采用带状卷帘存储迭代分配的MPI(Message Passing Inter-face)并行化处理;对体系中所有原子、σ键、孤对电子、π键位点之间的静电相互作用能采用多线程CUDA(Computer Unified DeviceArchitecture)并行化处理。传统MPI+CUDA环境中,GPU和CPU之间的数据传输开销大,导致整体性能下降以及各种粒子间计算串行调用CUDA,致使时间浪费。针对上述情况,使用GPU核心的缓存机制解决传输开销大的问题,并利用多CUDA流技术实现多个循环异步进行计算,从而缩短了运行时间。然后选取多个不同类型的大分子体系进行测试,结果表明,利用改进的MPI+CUDA并行模型进行动力学模拟,并行加速比显著提高,大幅度缩减了求解静电相互作用能的时间,并得到与串行一致的结果。 展开更多
关键词 原子-键电负性均衡σπ模型 静电子相互作用能 并行计算 消息传递接口 统一计算设备架构
下载PDF
雾天退化模型参数估计与CUDA设计 被引量:3
7
作者 余春艳 林晖翔 +1 位作者 徐小丹 叶鑫焱 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2018年第2期327-335,共9页
针对基于物理模型的去雾方法大多采用统计或假设等先验信息获取模型参数精度较低的问题,提出一种非假设的雾天退化模型参数估计方法.为了尽可能准确地获取大气光值和透射率值,首先采用四叉树算法求解大气光值;随后利用预训练的卷积神经... 针对基于物理模型的去雾方法大多采用统计或假设等先验信息获取模型参数精度较低的问题,提出一种非假设的雾天退化模型参数估计方法.为了尽可能准确地获取大气光值和透射率值,首先采用四叉树算法求解大气光值;随后利用预训练的卷积神经网络获取粗略透射率图,并使用引导滤波算法优化透射率图;最后通过大气散射模型逆向求解获取复原图像.实验结果表明,文中方法在去雾各项性能指标上表现均衡,不仅提高了雾天图像的清晰度和亮度,而且可以有效地避免"晕轮效应".算法时间性能实验表明,文中算法CPU效率比其他去雾算法提高40%+,应用CUDA并行设计将耗时的引导滤波算法并行化后效率有显著提升,处理分辨率大小为640×480(单位为像素)雾天图像仅需0.048 9 s,可直接迁移应用于视频去雾处理,满足视频处理的实时性要求. 展开更多
关键词 大气散射模型 四叉树算法 卷积神经网络 cuda
下载PDF
面向异构众核的CUDA程序二进制翻译
8
作者 李男 庞建民 单征 《计算机工程与应用》 CSCD 北大核心 2016年第7期17-23,共7页
通过二进制翻译手段将CUDA程序移植到其他异构众核处理器平台特别是国产处理器平台,对扩展CUDA程序应用范围,发挥目标平台的众核优势以及支持民族产业都具有现实意义。设计了CUDA程序的二进制翻译框架,从CUDA程序可执行代码入手,采用&qu... 通过二进制翻译手段将CUDA程序移植到其他异构众核处理器平台特别是国产处理器平台,对扩展CUDA程序应用范围,发挥目标平台的众核优势以及支持民族产业都具有现实意义。设计了CUDA程序的二进制翻译框架,从CUDA程序可执行代码入手,采用"分而治之"的手段,将主机端代码和设备端代码分别翻译。重点介绍了移植过程中几个关键问题的解决,包括设备端代码的提取,计算模型的映射,存储模型的映射,栅栏同步和指令翻译问题。通过实验验证了系统功能的正确性。 展开更多
关键词 cuda程序 二进制翻译 计算模型映射 存储模型映射 栅栏同步 指令翻译
下载PDF
基于CUDA的混合模型多模态图像配准方法
9
作者 熊淑云 黄娟 《信息与电脑》 2022年第19期64-66,共3页
目前方法图像配准时间较长,影响配准效果。为此,设计基于CUDA的混合模型多模态图像配准方法。首先,提取出多模态图像特征,分析图像配准坐标空间;其次,利用CUDA平台建立出图像配准空间变换矩阵,加强图像空间特征配准效果;最后,优化混合... 目前方法图像配准时间较长,影响配准效果。为此,设计基于CUDA的混合模型多模态图像配准方法。首先,提取出多模态图像特征,分析图像配准坐标空间;其次,利用CUDA平台建立出图像配准空间变换矩阵,加强图像空间特征配准效果;最后,优化混合模型多模态图像配准的相似性测度函数,缩短图像配准时间,进而实现多模态图像的高精度配准。对比实验结果表明:设计的配准方法配准效果更佳,具有较高的推广价值。 展开更多
关键词 cuda 混合模型 多模态图像 配准方法
下载PDF
基于CUDA平台的海洋表面模拟 被引量:1
10
作者 易松 刘福岩 +2 位作者 李雪敏 王威 陈业成 《计算机工程与设计》 CSCD 北大核心 2011年第3期998-1001,共4页
针对目前许多基于物理的流体模拟方法的缺点,如计算数据量大,实时性差等,提出了一种新的基于统一计算设备架构平台的实时海洋表面模拟方法。采取快速傅立叶变换与统计模型的方法获取海洋表面的高度场数据,充分利用CUDA编程模型的并行性... 针对目前许多基于物理的流体模拟方法的缺点,如计算数据量大,实时性差等,提出了一种新的基于统一计算设备架构平台的实时海洋表面模拟方法。采取快速傅立叶变换与统计模型的方法获取海洋表面的高度场数据,充分利用CUDA编程模型的并行性加速建模过程,海洋表面真实感光照渲染主要通过对周围景物的反射投影与折射效果及近似菲涅尔系数进行模拟。实验结果表明,采用CUDA加速的模拟过程明显提高了效率,适合虚拟现实与游戏中的实时模拟。 展开更多
关键词 计算统一设备架构 傅立叶变换 统计模型 高度场 反射投影 菲涅尔系数
下载PDF
基于CUDA的电磁场快速体绘制研究 被引量:3
11
作者 张文波 曹耀钦 +1 位作者 孙伟 王连锋 《计算机科学》 CSCD 北大核心 2013年第10期83-86,共4页
电磁场数据的生成和体绘制是密集型计算,且十分耗时。为了实现数据的快速生成,提出基于CUDA加速的电磁场数据计算框架,亦即将大量的传播模型计算移植到GPU中。同时,为了达到可交互性,将光线投射算法移植到GPU上执行。鉴于电磁场数据的特... 电磁场数据的生成和体绘制是密集型计算,且十分耗时。为了实现数据的快速生成,提出基于CUDA加速的电磁场数据计算框架,亦即将大量的传播模型计算移植到GPU中。同时,为了达到可交互性,将光线投射算法移植到GPU上执行。鉴于电磁场数据的特点,提出相交投影的概念,并利用其判断光线与数据场的相交情况。仿真结果显示,基于CUDA的数据生成可以达到158的加速比,光线投射算法也能以高达63的帧速进行绘制,满足了实时性和交互性要求。 展开更多
关键词 电磁场绘制 cuda ITM模型 体绘制
下载PDF
非静压海洋数值模式加速计算的CUDA实现 被引量:2
12
作者 王春晖 苗春葆 沈飙 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第8期107-113,118,共8页
海洋数值模式具有非常高的计算密度,为了提高计算速度,可以使用GPU来进行加速计算。本文即使用CU-DA实现了一个非静压海洋数值模式的GPU加速计算,与CPU串行程序相比,基于GPU的程序可以在不牺牲模拟精度的前提下(相对误差不超过2×10... 海洋数值模式具有非常高的计算密度,为了提高计算速度,可以使用GPU来进行加速计算。本文即使用CU-DA实现了一个非静压海洋数值模式的GPU加速计算,与CPU串行程序相比,基于GPU的程序可以在不牺牲模拟精度的前提下(相对误差不超过2×10-3)大大提高计算效率;单精度计算的加速比最高可以达到232,双精度计算的加速比最高可以达到142。目前大部分海洋数值模式的计算都基于CPU为核心,还没有移植到GPU平台,因而无法利用GPU强大的计算能力。本文为海洋数值模式向GPU平台的移植积累了丰富的经验,计算速度的显著提高展现了海洋数值模式应用GPU进行加速的广阔前景。 展开更多
关键词 GPU cuda 高性能计算 海洋数值模式
下载PDF
基于CUDA的医学图像处理算法平台的设计与初步实现 被引量:2
13
作者 刘俊杰 聂生东 王远军 《中国医学物理学杂志》 CSCD 2011年第5期2872-2877,共6页
目的:本文介绍了所开发的医学图像处理算法平台(cudaGIL),设计平台主要是为医学图像处理算法的开发和测试提供一个简洁的框架。方法:该平台封装了cudpp,cufft,thrust等第三方库,并提供简洁的算法接口,使得并行算法能在该平台上高效执行... 目的:本文介绍了所开发的医学图像处理算法平台(cudaGIL),设计平台主要是为医学图像处理算法的开发和测试提供一个简洁的框架。方法:该平台封装了cudpp,cufft,thrust等第三方库,并提供简洁的算法接口,使得并行算法能在该平台上高效执行;采用了优化的迭代器模式和数据分页方法,用以降低数据索引的时间消耗;组件管理模式被用于该平台中,用户可以新建组件扩展自定义算法;使用建立在OpenGL与CUDA基础上的异步操作实时显示图像。结果:通过与已有平台的比较,结果显示该平台在算法效率和显示速度上有了较大的提升。结论:本文设计的医学图像处理算法平台可作为医学图像算法的开发工具。 展开更多
关键词 GPU加速 cuda 算法平台 组件模式 OPENGL 实时算法
下载PDF
利用CUDA快速实现IMM目标跟踪 被引量:2
14
作者 辛召强 沈晓峰 《雷达科学与技术》 2012年第6期656-659,共4页
根据二维空间内目标作匀速直线运动和匀速圆周运动的特点,在建立目标运动模型和观测模型的基础上采用基于交互多模算法(IMM)的卡尔曼滤波器对机动目标进行跟踪。但由于IMM算法存在大量的递归与矩阵运算,所以实时性降低,这也是工程上难... 根据二维空间内目标作匀速直线运动和匀速圆周运动的特点,在建立目标运动模型和观测模型的基础上采用基于交互多模算法(IMM)的卡尔曼滤波器对机动目标进行跟踪。但由于IMM算法存在大量的递归与矩阵运算,所以实时性降低,这也是工程上难以实现的原因。通过CUDA对算法进行加速实现,在不影响算法性能的基础上实时性大大提高。仿真结果表明,利用该架构实现的IMM算法不仅能够对匀速直线运动和匀速圆周运动的目标进行实时跟踪,而且在运动模型发生变化时,实时性也得到很大提升,滤波误差也比较小。 展开更多
关键词 目标跟踪 统一计算设备架构 交互多模 机动 图形处理器
下载PDF
基于CUDA的体数据可视化工具
15
作者 叶良 单桂华 +1 位作者 刘俊 迟学斌 《计算机系统应用》 2011年第1期185-187,共3页
GPU的可编程性和并行计算能力的飞速发展为可视化提供了新的解决途径。基于支持CUDA的GPU,利用光线投射,实现了一个可以对体数据进行交互式可视化的工具,包括阻光度融合、等值面绘制、MIP绘制以及X光线投影等多种绘制效果,并加入了Phon... GPU的可编程性和并行计算能力的飞速发展为可视化提供了新的解决途径。基于支持CUDA的GPU,利用光线投射,实现了一个可以对体数据进行交互式可视化的工具,包括阻光度融合、等值面绘制、MIP绘制以及X光线投影等多种绘制效果,并加入了Phong光照模型以提高阻光度融合和等值面绘制的图像质量。实验表明,该工具较好的利用了GPU的并行计算能力,能够绘制出较高质量的图像,并具有良好的可交互性和可扩展性。 展开更多
关键词 cuda 可视化 光线投射 PHONG光照模型
下载PDF
基于CUDA并行的智能车辆MPC轨迹规划算法 被引量:1
16
作者 周妍 梁华为 +2 位作者 赵盼 李碧春 余彪 《仪表技术》 2019年第10期20-24,共5页
模型预测控制(Model Predictive Cmitrol-MPC)轨迹规划算法涉及复杂的优化过程,易导致过多的计算负担,同时随采样密集度增大规划耗时成倍增长。为了提升轨迹规划效率,在满足规划实时性的前提下尽可能采样更加密集的轨迹簇以改善最终的... 模型预测控制(Model Predictive Cmitrol-MPC)轨迹规划算法涉及复杂的优化过程,易导致过多的计算负担,同时随采样密集度增大规划耗时成倍增长。为了提升轨迹规划效率,在满足规划实时性的前提下尽可能采样更加密集的轨迹簇以改善最终的规划结果,提出了基于CUDA并行的智能车辆MPC轨迹规划算法,在CUDA架构中实现轨迹生成和代价评估的并行设计,代价评估筛选与障碍物不相碰撞的平滑轨迹,确保得到的最优轨迹可行可靠。测试表明,该算法得到的规划结果是可靠的,且对比算法的CPU实现加速比提升了8倍。 展开更多
关键词 轨迹规划 模型预测控制 cuda并行 智能车辆
下载PDF
基于CUDA的机载MIMO雷达杂波建模
17
作者 王占广 罗忠涛 +1 位作者 李军 孙颖 《火控雷达技术》 2011年第4期35-39,共5页
针对机载MIMO雷达杂波模型运算量大的问题,建立了基于CUDA的模型,利用图形处理器的并行运算能力来加速运算。为了符合CUDA的通用计算架构特性,该模型在算法上优先设计并行运算,在编程上尽量引入并行线程,实现图形处理器的浮点运算、存... 针对机载MIMO雷达杂波模型运算量大的问题,建立了基于CUDA的模型,利用图形处理器的并行运算能力来加速运算。为了符合CUDA的通用计算架构特性,该模型在算法上优先设计并行运算,在编程上尽量引入并行线程,实现图形处理器的浮点运算、存储器以及带宽资源的有效利用。最后测试了加速效果与模型结构、数据规模的关系。实验结果表明,与CPUIntel i5 750比较,图形处理器GTX465的建模运算结果准确,效率提升数十倍,能支持更大的运算量。 展开更多
关键词 机载 杂波模型 统一计算设备架构 图形处理器 多输入多输出雷达
下载PDF
CUDA加速工业DR图像分割 被引量:2
18
作者 倪风岳 曾理 刘玲慧 《计算机应用研究》 CSCD 北大核心 2011年第4期1560-1562,共3页
对DR(digtal radiography,数字辐射成像)图像进行分割是工业DR图像处理中一项重要内容。C-V算法对DR图像分割效果较好,但该算法计算量大,在工业应用中达不到实时处理要求。结合高性价比CUDA技术实现C-V算法对DR图像分割并行化,并采用共... 对DR(digtal radiography,数字辐射成像)图像进行分割是工业DR图像处理中一项重要内容。C-V算法对DR图像分割效果较好,但该算法计算量大,在工业应用中达不到实时处理要求。结合高性价比CUDA技术实现C-V算法对DR图像分割并行化,并采用共享内存技术、独立计算与合并计算结合的方法,较大地提高了C-V方法的计算效率。对实际工业DR图像分割实验结果显示,该方法加速比可达到32~44倍,表明使用CU-DA并行化C-V方法分割DR图像高效可行。 展开更多
关键词 并行计算 cuda(统一计算架构) 图像分割 C-V模型 数字辐射图像
下载PDF
高斯混合模型盲信号分离方法的CUDA实现
19
作者 苏洁洪 李宇 《自动化与信息工程》 2013年第1期21-25,共5页
对一组线性瞬时混合信号,采用高斯混合模型拟合各个独立源的概率密度分布进行分离,其复杂度随信号源数量、高斯混合模型阶数的增加急剧上升。提出用统一计算设备架构(compute unified device architecture,CUDA)对该分离方法进行设计,... 对一组线性瞬时混合信号,采用高斯混合模型拟合各个独立源的概率密度分布进行分离,其复杂度随信号源数量、高斯混合模型阶数的增加急剧上升。提出用统一计算设备架构(compute unified device architecture,CUDA)对该分离方法进行设计,实现该方法的并行加速处理。实验结果表明,此加速方案可以有效降低该盲分离方法的时间复杂度。 展开更多
关键词 盲分离 高斯混合模型 统一计算设备架构
下载PDF
基于卷积神经网络与CUDA加速计算的手势识别算法应用研究 被引量:3
20
作者 姜洋洋 《系统仿真技术》 2020年第1期22-26,共5页
针对服务性智能终端对识别鲁棒性和用户体验的高要求,基于PC的传统计算机视觉算法已不能保证抗干扰力与实时响应的问题,提出了一种基于卷积神经网络与CUDA加速计算的手势识别算法。首先,建立数据训练机制,收集各种手势图像,分为训练集... 针对服务性智能终端对识别鲁棒性和用户体验的高要求,基于PC的传统计算机视觉算法已不能保证抗干扰力与实时响应的问题,提出了一种基于卷积神经网络与CUDA加速计算的手势识别算法。首先,建立数据训练机制,收集各种手势图像,分为训练集和测试集,为深度学习训练做好数据标注准备。然后,基于卷积神经网络原理,根据核心方程模型,进行代码实现,构成识别模型,并对手势样本训练集进行自动特征学习,完成模型迭代。最后,引入CUDA加速计算技术,将识别机制代码移植到独立显卡GPU平台,提高训练与识别过程的加速。实验测试结果显示:所提方法较好地兼顾了较高的识别精度与效率,耗时仅为1. 5 ms。 展开更多
关键词 卷积神经网络 cuda加速计算 GPU 手势识别 识别模型
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部