期刊文献+
共找到83篇文章
< 1 2 5 >
每页显示 20 50 100
基于霍特林变换与CUDA架构的缺陷标记方法 被引量:1
1
作者 王成顺 卢荣胜 +1 位作者 李琪 付琰 《科学技术与工程》 北大核心 2012年第11期2556-2560,共5页
在表面缺陷自动光学检测图像处理中,需要对每个缺陷进行标记,便于后续判别缺陷的类型、大小、位置、方向等Blob特性。研究了应用Hotelling变换(霍特林变换)求出缺陷的主轴方向和最小外接矩形,沿着主轴方向将缺陷标记出来的算法,并给出... 在表面缺陷自动光学检测图像处理中,需要对每个缺陷进行标记,便于后续判别缺陷的类型、大小、位置、方向等Blob特性。研究了应用Hotelling变换(霍特林变换)求出缺陷的主轴方向和最小外接矩形,沿着主轴方向将缺陷标记出来的算法,并给出了应用NVIDIA的CUDA架构对标记算法进行加速实现的方法。研究结果表明,根据图像缺陷大小的不同,可以取得5~10倍的加速实现存记。 展开更多
关键词 缺陷标记 霍特林变换 最小外接矩形 cuda架构
下载PDF
GPU并行计算的CUDA架构浅析 被引量:2
2
作者 吴辉 罗清海 彭文武 《教育教学论坛》 2019年第6期277-278,共2页
本文阐述了GPU并行运算的一种主流架构——CUDA架构,包括CUDA编程模型、程序的运行模式、线程架构、存储器结构、指令结构等。
关键词 GPU cuda架构 并行计算
下载PDF
CUDA架构下大规模稠密线性方程组的并行求解 被引量:6
3
作者 杨梅 李志民 曹大勇 《计算机工程与应用》 CSCD 北大核心 2011年第32期27-30,共4页
在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-... 在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。 展开更多
关键词 计算统一设备架构(cuda) 并行算法 改进Gauss-Jordan消去法 大规模稠密线性方程组
下载PDF
基于CUDA架构的三维CPML-FDTD并行方法 被引量:4
4
作者 胡媛 李康 +1 位作者 孔凡敏 杜刘革 《计算机工程与应用》 CSCD 北大核心 2011年第25期220-223,共4页
为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件... 为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。 展开更多
关键词 时域有限差分(FDTD) 并行计算 时域卷积完全匹配层(CPML) 基于计算统一设备架构(cuda) 通用图形处理器(GPGPU) 加速
下载PDF
CUDA计算架构在水泥水化过程建模中的应用
5
作者 杨波 王琳 +1 位作者 赵秀阳 张庆科 《临沂大学学报》 2013年第3期74-78,共5页
硅酸盐水泥水化过程的复杂性使得基于传统方法的水化动力学方程人工推导极为困难.通过进化计算方法可以从观测到的硅酸盐水泥水化程度时间序列数据中自动萃取水化动力学方程,然而其时间复杂度很高.因此,可以利用CUDA计算架构对进化过程... 硅酸盐水泥水化过程的复杂性使得基于传统方法的水化动力学方程人工推导极为困难.通过进化计算方法可以从观测到的硅酸盐水泥水化程度时间序列数据中自动萃取水化动力学方程,然而其时间复杂度很高.因此,可以利用CUDA计算架构对进化过程进行并行加速来减少运算时间.实验结果表明,采用CUDA架构可以获得较高的加速比,所得到的仿真结果可以很好地吻合观测到的水化程度时间序列数据. 展开更多
关键词 硅酸盐水泥 水化动力学方程 cuda计算架构 进化计算
下载PDF
基于CUDA和OpenGL的多图层叠加的雷达终端显示技术
6
作者 陈龙 《空天预警研究学报》 CSCD 2023年第3期194-197,203,共5页
为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,... 为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,利用该方法可以将雷达视频、电子地图以及点航迹信息进行叠加显示,具有较强的灵活性和扩展性. 展开更多
关键词 雷达终端显示 OpenGL纹理 cuda架构 多图层叠加
下载PDF
基于CUDA的并行雷达拼图算法研究
7
作者 韩丰 高嵩 +1 位作者 薛峰 李月安 《气象》 CSCD 北大核心 2023年第10期1246-1253,共8页
雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义... 雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义。采用中央处理器(central processing unit,CPU)和图形处理器(graphics processing unit,GPU)混合架构设计并行雷达拼图算法,其中CPU负责雷达数据的解析和调度GPU并行模块,GPU负责大规模数据的并行计算。通过分析计算统一设备架构(compute unified device architecture,CUDA)算法的并行开销和拼图算法的特点,提出并实现了GPU内存管理优化和数据交换流程优化方案,提高了组网拼图算法的效率。对比试验结果表明,基于CUDA的GPU并行拼图算法和SWAN中30线程并行的CPU算法相比,在全国1 km和500 m分辨率的拼图任务上,加速比分别达到3.52和6.82。综上,基于CUDA的并行拼图算法不仅可以提高SWAN短时临近算法序列的时效性,也为更高分辨率雷达资料的拼图提供了技术支持。 展开更多
关键词 组网拼图 GPU并行 计算统一设备架构(cuda) 强对流天气短时临近预报系统(SWAN)
下载PDF
CUDA相邻归约与其避免线程分化算法的研究
8
作者 卫易东 《信息与电脑》 2023年第18期55-57,61,共4页
在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发... 在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发的基础原理和概念,并解释了CUDA运算的执行流程。通过分析GPU架构原理,提出了相邻归约算法和相邻归约的避免线程分化算法的实现方式和应用方法。 展开更多
关键词 边缘计算 统一计算架构(cuda) 优化算法 相邻归约 避免线程分化 矩阵加法 计算效率
下载PDF
面向GPU的地形遮蔽探测并行算法
9
作者 孙卡 俞俗强 《计算机工程与应用》 CSCD 北大核心 2024年第15期66-76,共11页
地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算... 地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算法,解决了仿真计算速度慢的问题。在CPU端将雷达探测区域内离散采样点的高程数据矩阵化,进而提升高程值在并行化计算中的读取速度。针对雷达仿真计算参数对线程分配方式进行优化,采用循环对比方式对地形遮蔽角的计算进行并行加速。采用设备端线程同步和数据交替传输技术,确保计算结果一致性和最大化利用GPU端计算资源。采用多模式并行化计算模式,使用多线程并行化计算和单线程串行化计算来支撑GPU端计算资源不足时的退化计算,从而保证计算的高可用。实验结果表明,相较于i7-12700H CPU在仿真粒度为3 600条探测波束下的地形遮蔽串行计算和多线程并行计算,在3060 Laptop GPU下分别获取了48倍和17倍加速,为仿真实时性提供了有效的工程解决方案。 展开更多
关键词 并行计算 统一计算设备架构(cuda) 高程矩阵 地球曲率 地形遮蔽算法
下载PDF
C语言教学实验中的CUDA技术
10
作者 刘忆宁 张永昌 罗家华 《电脑编程技巧与维护》 2010年第10期134-137,共4页
C语言在本科信息技术教学中具有重要的地位,随着GPU性能的增强,以C语言为核心的CUDA具有广阔的应用前景。在C语言实验中引入CUDA开发平台的训练,具有重要的意义。
关键词 C程序 图形处理器 cuda架构
下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:16
11
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
下载PDF
基于CUDA的眼底图像快速自动配准与拼接 被引量:2
12
作者 王玉亮 沈建新 +1 位作者 廖文和 张运海 《中国机械工程》 EI CAS CSCD 北大核心 2013年第13期1749-1754,共6页
针对眼底图像对比度低、光照不均匀、视场局限及不同视场间存在几何畸变等特点,提出一种基于CUDA的眼底图像快速自动配准与拼接算法。该算法利用CUDA加快了各视场眼底图像同态滤波增强的速度及增强后各有效视场的SIFT特征提取与相互匹... 针对眼底图像对比度低、光照不均匀、视场局限及不同视场间存在几何畸变等特点,提出一种基于CUDA的眼底图像快速自动配准与拼接算法。该算法利用CUDA加快了各视场眼底图像同态滤波增强的速度及增强后各有效视场的SIFT特征提取与相互匹配的速度,并加快了结合透视变换模型的RANSAC算法进行的匹配点对提纯速度、周围视场与中央视场变换矩阵的计算速度,配准、融合后得到了眼底全景图像。实际的眼底照相机获取图像的自动配准与拼接表明,该算法可以快速、高精度地实现不同视场眼底图像的自动配准与拼接,算法速度是未采用CUDA的算法的10~30倍,精度达到像素级,具有很好的鲁棒性。 展开更多
关键词 计算统一设备架构(cuda) 尺度不变特征变换 图像配准 图像拼接
下载PDF
基于CUDA的三维数据场航路规划方法 被引量:1
13
作者 笪良龙 臧涛 +1 位作者 杨廷武 刘贝 《计算机工程》 CAS CSCD 北大核心 2009年第19期245-247,共3页
针对数据量庞大、复杂的三维数据场环境下航路规划速度偏低的问题,提出一种基于统一计算设备架构(CUDA)的三维数据场航路规划方法。该方法以三维水下声场为威胁模型,水下航行的潜艇为背景,运用CUDA对大规模数据场环境下对航路进行规划,... 针对数据量庞大、复杂的三维数据场环境下航路规划速度偏低的问题,提出一种基于统一计算设备架构(CUDA)的三维数据场航路规划方法。该方法以三维水下声场为威胁模型,水下航行的潜艇为背景,运用CUDA对大规模数据场环境下对航路进行规划,对可并行计算部分与CUDA进行计算,仿真结果证明该方法可以提高规划速率、优化初始航路。 展开更多
关键词 航路规划 统一计算设备架构(cuda) 航路优化
下载PDF
面向CPU-GPU架构的源到源自动映射方法 被引量:2
14
作者 朱正东 刘袁 +3 位作者 魏洪昌 颜康 王寅峰 董小社 《计算机工程与应用》 CSCD 北大核心 2015年第21期41-47,共7页
针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端... 针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端控制代码。基于该方法实现了一个编译原型系统,完成了C语言源程序到CUDA源程序的自动生成。对原型系统在功能和性能方面的测试结果表明,该系统生成的CUDA源程序与C语言源程序在功能上一致,其性能有显著提高,在一定程度上解决了计算密集型应用向CPU-GPU异构多核系统移植困难的问题。 展开更多
关键词 通用计算图形处理器(GPGPU) 统一计算架构(cuda) 自动映射 源到源编译
下载PDF
基于CUDA的声辐射力弹性成像算法研究 被引量:2
15
作者 曾博 雷友诚 +5 位作者 王丛知 邱维宝 冯歌 曾成志 杨戈 郑海荣 《计算机工程与应用》 CSCD 北大核心 2015年第18期249-254,265,共7页
声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射... 声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。 展开更多
关键词 二维声辐射力弹性成像 统一计算架构(cuda) 图形处理器(GPU) 并行算法
下载PDF
CUDA加速的地图代数并行算法 被引量:1
16
作者 张剑波 周斯波 张帅 《桂林理工大学学报》 CAS 北大核心 2011年第1期139-143,共5页
针对传统地图代数实现方法应用于海量栅格数据计算时效率低下的问题,在一种全新的GPU并行编程模型CUDA上,利用地图代数算子体现出来的基于栅格点集、处理流程相对固定、数据处理具有内在的并行性等特点,将传统的串行算法映射到GPU并行... 针对传统地图代数实现方法应用于海量栅格数据计算时效率低下的问题,在一种全新的GPU并行编程模型CUDA上,利用地图代数算子体现出来的基于栅格点集、处理流程相对固定、数据处理具有内在的并行性等特点,将传统的串行算法映射到GPU并行处理架构上,旨在从串行算法的并行化映射、计算机图形处理器资源的自适应参数调整等多角度来研究地图代数空间并行算法的实现机制,为空间分析算法的优化研究提供一种新的解决思路。 展开更多
关键词 地图代数 统一计算设备架构(cuda) 并行计算
下载PDF
利用CUDA实现矢量地图栅格化的并行处理 被引量:3
17
作者 程博艳 刘强 +1 位作者 李小文 张涛 《测绘通报》 CSCD 北大核心 2014年第11期97-101,共5页
为了解决矢量地图栅格化的计算效率问题,提出了基于计算统一设备架构(CUDA)实现矢量地图栅格化的并行处理方案。根据矢量地图中多边形的数目和图形处理器(GPU)的硬件性能,定义并行执行的线程数目,每一个线程对相应的多边形进行边填充栅... 为了解决矢量地图栅格化的计算效率问题,提出了基于计算统一设备架构(CUDA)实现矢量地图栅格化的并行处理方案。根据矢量地图中多边形的数目和图形处理器(GPU)的硬件性能,定义并行执行的线程数目,每一个线程对相应的多边形进行边填充栅格化。试验结果表明,加速比达到了10倍以上,相比中央处理器(CPU)栅格化的处理方法,运算效率有显著提升。 展开更多
关键词 矢量栅格化 边填充法 图形处理器(GPU) 计算统一设备架构(cuda)
下载PDF
基于CUDA的2D、3D刚性配准方法 被引量:2
18
作者 徐建 秦安 +2 位作者 孟晓林 陈武凡 冯前进 《中国医学物理学杂志》 CSCD 2010年第2期1721-1725,1730,共6页
目的:实时医学图像配准技术是外科手术导航系统的关键技术之一。在医学图像分析中,图像配准通常是一个非常耗时的操作,不利于临床实时性需求,本文研究实现了图像配准过程的加速。方法:为了提高配准速度,本文提出了一种基于CUDA(compute ... 目的:实时医学图像配准技术是外科手术导航系统的关键技术之一。在医学图像分析中,图像配准通常是一个非常耗时的操作,不利于临床实时性需求,本文研究实现了图像配准过程的加速。方法:为了提高配准速度,本文提出了一种基于CUDA(compute unified device architecture)编程模型的硬件加速配准新技术,采用并行的方法实现像素的坐标变换,线性插值,同时计算对应像素的灰度值残差。结果:配准误差为亚像素级别,配准速度要比基于CPU的配准快几十甚至上百倍。结论:该方法在保持配准精度不变的前提下,大大提高了刚性配准的速度。 展开更多
关键词 医学图像配准 GPU(图形处理器) cuda(统一计算设备架构)
下载PDF
运动估计搜索算法的CUDA优化与实现 被引量:1
19
作者 陈佐 陈汉 季加良 《计算机工程与应用》 CSCD 北大核心 2010年第32期171-176,共6页
针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题... 针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。 展开更多
关键词 统一计算设备架构(cuda) 运动估计 全域消除算法(GEA) 并行计算
下载PDF
基于CUDA的并行布谷鸟搜索算法设计与实现 被引量:2
20
作者 韦向远 杨辉华 谢谱模 《计算机科学与探索》 CSCD 2014年第6期665-673,共9页
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device arch... 布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。 展开更多
关键词 布谷鸟搜索算法 并行计算 图形处理器(GPU) 统一计算设备架构(cuda) GRAPHIC processing unit (GPU) compute UNIFIED device architecture (cuda)
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部