期刊文献+
共找到373篇文章
< 1 2 19 >
每页显示 20 50 100
Compute Unified Device Architecture Implementation of Euler/Navier-Stokes Solver on Graphics Processing Unit Desktop Platform for 2-D Compressible Flows
1
作者 Zhang Jiale Chen Hongquan 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2016年第5期536-545,共10页
Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/N... Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/Navier-Stokes solver is developed for 2-D compressible flows by using NVIDIA′s Compute Unified Device Architecture(CUDA)programming model in CUDA Fortran programming language.The techniques of implementation of CUDA kernels,double-layered thread hierarchy and variety memory hierarchy are presented to form the GPU-based algorithm of Euler/Navier-Stokes equations.The resulting parallel solver is validated by a set of typical test flow cases.The numerical results show that dozens of times speedup relative to a serial CPU implementation can be achieved using a single GPU desktop platform,which demonstrates that a GPU desktop can serve as a costeffective parallel computing platform to accelerate computational fluid dynamics(CFD)simulations substantially. 展开更多
关键词 graphics processing unit(GPU) GPU parallel computing compute unified device architecture(cuda)Fortran finite volume method(FVM) acceleration
下载PDF
基于CUDA加速的图像配准算法
2
作者 牛彤 刘立东 武忆涵 《计算机系统应用》 2023年第1期146-155,共10页
针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的... 针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的检测和描述进行CUDA并行优化;基于FLANN和RANSAC算法,采用双向匹配策略进行特征匹配,提高配准精度.结果表明,相对串行算法,本文并行算法对不同分辨率的图像均可实现10倍以上的加速比,而且配准精度较传统配准算法提高17%,精度最优可高达96%.基于CUDA加速的SURF算法可广泛应用于安防监控领域,实现全景图像的实时配准. 展开更多
关键词 快速鲁棒特征 统一计算设备架构 并行加速 快速最近邻搜索算法 RANSAC 双向匹配 图像配准
下载PDF
基于改进AlexNet与CUDA的大豆快速三分类方法
3
作者 林伟 仲伟波 +2 位作者 袁毓 齐国庆 李浩东 《计算机与数字工程》 2023年第12期2997-3003,共7页
为了能够精确、快速实现大豆籽粒分类,提出了基于改进AlexNet与CUDA的大豆籽粒快速三分类方法。以大豆籽粒多分类为目标,构建大豆籽粒图像库;根据快速分类的任务要求,对传统AlexNet模型进行改进并采用统一计算设备架构C++实现;以NVIDIA ... 为了能够精确、快速实现大豆籽粒分类,提出了基于改进AlexNet与CUDA的大豆籽粒快速三分类方法。以大豆籽粒多分类为目标,构建大豆籽粒图像库;根据快速分类的任务要求,对传统AlexNet模型进行改进并采用统一计算设备架构C++实现;以NVIDIA Jetson TX2为核心构建大豆籽粒快速分类系统。训练集及验证集分类准确率分别可达98%和94%;对于在线采集的大豆图像进行分类测试准确率约为93%,且一粒大豆籽粒分类耗时约6ms,能够满足快速分类的应用需求。 展开更多
关键词 图像处理 机器视觉 大豆籽粒分类 AlexNet改进模型 统一计算设备架构
下载PDF
基于CUDA的并行雷达拼图算法研究
4
作者 韩丰 高嵩 +1 位作者 薛峰 李月安 《气象》 CSCD 北大核心 2023年第10期1246-1253,共8页
雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义... 雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义。采用中央处理器(central processing unit,CPU)和图形处理器(graphics processing unit,GPU)混合架构设计并行雷达拼图算法,其中CPU负责雷达数据的解析和调度GPU并行模块,GPU负责大规模数据的并行计算。通过分析计算统一设备架构(compute unified device architecture,CUDA)算法的并行开销和拼图算法的特点,提出并实现了GPU内存管理优化和数据交换流程优化方案,提高了组网拼图算法的效率。对比试验结果表明,基于CUDA的GPU并行拼图算法和SWAN中30线程并行的CPU算法相比,在全国1 km和500 m分辨率的拼图任务上,加速比分别达到3.52和6.82。综上,基于CUDA的并行拼图算法不仅可以提高SWAN短时临近算法序列的时效性,也为更高分辨率雷达资料的拼图提供了技术支持。 展开更多
关键词 组网拼图 GPU并行 计算统一设备架构(cuda) 强对流天气短时临近预报系统(SWAN)
下载PDF
CUDA相邻归约与其避免线程分化算法的研究
5
作者 卫易东 《信息与电脑》 2023年第18期55-57,61,共4页
在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发... 在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发的基础原理和概念,并解释了CUDA运算的执行流程。通过分析GPU架构原理,提出了相邻归约算法和相邻归约的避免线程分化算法的实现方式和应用方法。 展开更多
关键词 边缘计算 统一计算架构(cuda) 优化算法 相邻归约 避免线程分化 矩阵加法 计算效率
下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
6
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
下载PDF
基于CUDA的高速FFT计算 被引量:22
7
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
8
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(GPU) cuda 液晶 自适应光学 波面解析
下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:15
9
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
下载PDF
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现 被引量:14
10
作者 李肯立 彭俊杰 周仕勇 《计算机应用研究》 CSCD 北大核心 2009年第12期4474-4477,共4页
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于C... Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CU-DA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIAGeForce8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA的Kirchhoff叠前时间偏移算法的计算速度最高可得到较传统CPU算法6倍的加速比,从而为快速处理地震偏移提供良好的支持。 展开更多
关键词 统一计算设备架构 图形处理器 地震偏移 地震数据处理
下载PDF
基于CUDA的多尺度Retinex图像增强算法实现 被引量:8
11
作者 王正宁 刘昌忠 +2 位作者 陈雷霆 吴宏刚 吴敏 《计算机应用》 CSCD 北大核心 2010年第9期2441-2443,共3页
多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强... 多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强并行算法,将多尺度高斯滤波、对数空间差分和动态范围压缩等计算非常耗时的模块采用并行方式放在GPU中进行计算。实验结果表明所提算法能显著提高计算速度,随着图像分辨率的增加,最大加速比超过100倍。 展开更多
关键词 图像增强 多尺度RETINEX 计算统一设备架构
下载PDF
基于CUDA的尺度不变特征变换快速算法 被引量:14
12
作者 田文 徐帆 +1 位作者 王宏远 周波 《计算机工程》 CAS CSCD 北大核心 2010年第8期219-221,共3页
针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度... 针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。 展开更多
关键词 尺度不变特征变换 特征提取与匹配 图像处理单元 统一计算设备架构
下载PDF
基于CUDA的加速MATLAB计算研究 被引量:9
13
作者 刘绍波 刘明贵 张国华 《计算机应用研究》 CSCD 北大核心 2010年第6期2140-2143,共4页
介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的... 介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性。 展开更多
关键词 统一计算设备架构 MATLAB 加速计算
下载PDF
基于MPI+CUDA的异构并行可压缩流求解器 被引量:7
14
作者 刘枫 李桦 +1 位作者 田正雨 潘沙 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第1期6-10,共5页
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数... 在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。 展开更多
关键词 消息传递接口 统一计算设备架构 异构计算 可压缩流
下载PDF
基于CUDA的汇流分析并行算法的研究与实现 被引量:6
15
作者 赵向辉 苗青 +2 位作者 付忠良 苏畅 李昕 《计算机应用研究》 CSCD 北大核心 2010年第7期2445-2447,2451,共4页
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和... 针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法,对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。 展开更多
关键词 并行计算 图形处理器 统一设备计算架构 汇流分析 数字高程模型
下载PDF
基于CUDA的点云去噪算法 被引量:9
16
作者 徐波 唐杰 武港山 《计算机工程》 CAS CSCD 北大核心 2011年第2期224-226,共3页
提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结... 提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结果表明,该算法能有效提高法矢计算的准确度,与CPU算法相比,计算速度提高了多个数量级。 展开更多
关键词 统一计算设备架构 GPU并行计算 点云去噪 双边滤波
下载PDF
CUDA架构下的快速图像去噪 被引量:12
17
作者 李军 李艳辉 陈双平 《计算机工程与应用》 CSCD 北大核心 2009年第11期183-185,222,共4页
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器... 图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。 展开更多
关键词 图形处理器 图像去噪 统一计算设备架构 并行数据处理
下载PDF
基于CUDA的拉普拉斯边缘检测算法 被引量:6
18
作者 孟小华 刘坚强 +1 位作者 区业祥 张庆丰 《计算机工程》 CAS CSCD 2012年第18期190-193,共4页
拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并... 拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。 展开更多
关键词 拉普拉斯边缘检测算法 图形处理单元 统一计算设备架构 并行处理 天文图像 宇宙射线
下载PDF
基于CUDA的多GPU加速SART迭代重建算法 被引量:7
19
作者 雷德川 陈浩 +3 位作者 王远 张成鑫 陈云斌 胡栋材 《强激光与粒子束》 EI CAS CSCD 北大核心 2013年第9期2418-2422,共5页
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步... 为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。 展开更多
关键词 计算机断层成像 统一计算机架构 SART 多GPU
下载PDF
基于CUDA的地震数据相干体并行算法 被引量:10
20
作者 吴连贵 易瑜 李肯立 《计算机应用》 CSCD 北大核心 2009年第3期912-914,共3页
在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和... 在地震探测解释方面,运用相干体技术可以清楚地识别断层和地层特征。由于相干体是通过三维地震数据体计算得到,传统方法难以满足计算需求。基于CUDA平台,提出了一种并行相干体算法,该算法可加速相干体算法中的矩阵相乘计算。理论分析和配有Intel Core2 Due CPU和NVIDIA GeForce 8800 GT显卡的实验结果表明:基于GPU的并行相干体算法可取得理想的线性加速比,提高系统的计算效率。 展开更多
关键词 统一计算设备架构 图形处理器 相干体技术 地震数据处理 并行处理
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部