期刊文献+
共找到313篇文章
< 1 2 16 >
每页显示 20 50 100
基于最小剩余时间算法与SR-IOV技术的GPU资源优化调度方案
1
作者 梁桂才 何现海 +1 位作者 马梓钧 陆富业 《计算机应用文摘》 2024年第9期140-145,共6页
为了优化GPU资源利用率,文章提出了一种新型的GPU资源调度方案。该方案结合了最小剩余时间算法与SR-IOV(SingleRootI/OVirtualization)技术,可优化多用户、多任务环境下的GPU资源利用率和系统性能。传统的GPU调度方法往往面临资源利用... 为了优化GPU资源利用率,文章提出了一种新型的GPU资源调度方案。该方案结合了最小剩余时间算法与SR-IOV(SingleRootI/OVirtualization)技术,可优化多用户、多任务环境下的GPU资源利用率和系统性能。传统的GPU调度方法往往面临资源利用不足、任务等待时间长和系统吞吐量受限等问题。为了应对这些挑战,该方案通过动态分析任务的剩余执行时间,利用SR-IOV技术实现了GPU资源的细粒度隔离与共享,可为更高效的资源分配和任务调度提供支持。实验结果表明,相较于传统的无调度、容器调度和常见机器学习调度方案,该方案在均值准确率、GPU利用率、系统吞吐量和任务执行时间等方面均具有一定的优势,可为多用户多任务场景下的GPU资源管理提供有益的参考。 展开更多
关键词 最小剩余时间算法 SR-IOV技术 gpu资源调度 资源利用率
下载PDF
基于GPU加速的分布式水文模型并行计算性能
2
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
下载PDF
基于GPU并行算法的景观斑块周长模拟测量仿真 被引量:1
3
作者 吴国荣 渠琛 《计算机仿真》 北大核心 2023年第3期280-284,共5页
针对景观斑块周长模拟测量过程中收敛速度较慢的问题,提出基于GPU并行算法的景观斑块周长模拟测量方法。通过航拍技术采集景观斑块航拍图像,利用纠偏处理过程与高斯滤波处理过程对景观斑块航拍图像进行预处理。将景观斑块航拍图像输入GP... 针对景观斑块周长模拟测量过程中收敛速度较慢的问题,提出基于GPU并行算法的景观斑块周长模拟测量方法。通过航拍技术采集景观斑块航拍图像,利用纠偏处理过程与高斯滤波处理过程对景观斑块航拍图像进行预处理。将景观斑块航拍图像输入GPU内,通过计算机GPU片段程序构建景观斑块航拍图像的高斯差分金字塔模型,并行运算过程提取景观斑块航拍图像特征点,确定景观斑块航拍图像中景观斑块的边界线。以边界线为基础,计算景观斑块周长。仿真测试结果显示,上述方法特征点提取过程中横轴与纵轴误差完全收敛时间分别为2.12s和1.80s,周长测量绝对误差与相对误差分别控制在0.60m和1.00%以下。 展开更多
关键词 并行算法 景观斑块周长 模拟测量 航拍图像 特征提取
下载PDF
面向深度学习图像分类的GPU并行方法研究 被引量:1
4
作者 韩彦岭 沈思扬 +3 位作者 徐利军 王静 张云 周汝雁 《计算机工程》 CAS CSCD 北大核心 2023年第1期191-200,共10页
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加... 针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。 展开更多
关键词 gpu并行 Ring All Reduce算法 数据并行 模型并行 深度学习 图像分类
下载PDF
基于GPU加速随机森林算法的大豆基因型填充研究 被引量:1
5
作者 李明亮 李卓 +4 位作者 黄斌 于军 辛鹏 张继成 唐友 《大豆科学》 CAS CSCD 北大核心 2023年第6期742-748,共7页
基因型填充(Genotype Imputation, GI)是一种利用现有的基因型信息来推断未测定或不完整基因型的技术。为了探索在大豆基因组测序中处理不完整数据的高效填充方法,以提高数据处理速度和效率,本研究采用真实的大豆参考面板基因型数据,通... 基因型填充(Genotype Imputation, GI)是一种利用现有的基因型信息来推断未测定或不完整基因型的技术。为了探索在大豆基因组测序中处理不完整数据的高效填充方法,以提高数据处理速度和效率,本研究采用真实的大豆参考面板基因型数据,通过对数据进行2%、5%、10%和25%的完全随机缺失处理,利用GPU加速的随机森林机器学习算法构建填充模型,并对不同缺失比例的数据进行填充。同时,对比分析了不同处理器的准确性和性能。结果显示:基于GPU加速的随机森林算法在大豆基因组中实现了优秀的填充精度。与主流基因填充软件相比,该方法至少提供了4倍以上的运算时间优势。因此,GPU加速的基因型填充策略可应用于大规模基因型数据处理中,提高大豆基因型数据处理的速度和效率,同时减少计算时间和资源消耗。 展开更多
关键词 大豆基因填充 随机森林算法 gpu加速 数据处理
下载PDF
基于GPU的并行相位解卷绕算法
6
作者 毛飞龙 焦义文 +3 位作者 马宏 张宇翔 聂欣林 高泽夫 《中国空间科学技术》 CSCD 北大核心 2023年第5期119-131,共13页
针对大量数据串行相位解卷绕实时性较差的问题,设计了基于GPU的并行相位解卷绕算法。首先分析了典型的串行解卷绕算法在GPU平台实现的可行性,之后设计了适合于GPU加速的并行解卷绕算法。最后对基于GPU的并行相位解卷绕算法进行了仿真验... 针对大量数据串行相位解卷绕实时性较差的问题,设计了基于GPU的并行相位解卷绕算法。首先分析了典型的串行解卷绕算法在GPU平台实现的可行性,之后设计了适合于GPU加速的并行解卷绕算法。最后对基于GPU的并行相位解卷绕算法进行了仿真验证,多次测试结果表明:在保证解卷绕正确性的基础上,基于GPU的并行相位解卷绕算法相比传统CPU串行解卷绕算法约有3.5倍的加速比,基于GPU的并行相位解卷绕算法相比GPU串行解卷绕算法有63倍的加速比。 展开更多
关键词 相位解卷绕 gpu 并行算法 实时处理 加速比
下载PDF
基于GPU加速的全源对最短路径并行算法
7
作者 肖汉 肖诗洋 +1 位作者 李焕勤 周清雷 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第5期1022-1032,共11页
针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分... 针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分支,最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明,与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理(Open Multi-Processing, OpenMP)并行算法和基于统一计算设备架构(Compute Unified Device Architecture, CUDA)并行算法相比,最短路径并行算法在开放式计算语言(Open Computing Language, OpenCL)架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比,验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 最短路径 重复平方法 图形处理器 开放式计算语言 并行算法
下载PDF
基于NVIDIA GPU后向投影FFBP算法的加速研究
8
作者 潘丰 高伟 +3 位作者 罗俊 刘文冬 周春元 张慧 《电子测量技术》 北大核心 2023年第22期148-152,共5页
后向投影(BP)算法,在计算成像过程中未采用近似,成像质量高,任何阵列构型成像均适合。近年来在雷达成像技术领域广泛应用。但在毫米波三维全息成像中,计算效率较低,影响了实时成像的实现。在三维极坐标条件下,快速因式分解后向投影(FFBP... 后向投影(BP)算法,在计算成像过程中未采用近似,成像质量高,任何阵列构型成像均适合。近年来在雷达成像技术领域广泛应用。但在毫米波三维全息成像中,计算效率较低,影响了实时成像的实现。在三维极坐标条件下,快速因式分解后向投影(FFBP)算法,利用子孔径划分的方式进行成像,一定程度上解决了实时成像的问题。本文利用四线程CPU与GPU加速CUDA平台实现FFBP算法,并对比分析了多点目标成像,结果基本一致,进而验证加速算法的有效性。进一步,通过电磁仿真软件,对分辨力板建模和仿真,模拟真实目标,并进行GPU加速成像,计算时间比四线程CPU提高33.97倍,适用于三维近场实时成像系统,更好的应用于人体安检领域。 展开更多
关键词 三维极坐标系 FFBP算法 图像处理器(gpu) 子孔径划分
下载PDF
基于GPU的长轨SAR实时成像算法
9
作者 谭运馨 黄海风 +2 位作者 赖涛 但琪洪 欧鹏飞 《数据采集与处理》 CSCD 北大核心 2023年第6期1380-1391,共12页
为了满足长轨道超高分辨W波段合成孔径雷达(Synthetic aperture radar,SAR)的快速成像需求,本文提出了一种基于图形处理器(Graphics processing unit,GPU)的ω-K实时成像算法,该算法采用并行架构和双流多线程的处理方式。默认流沿着物... 为了满足长轨道超高分辨W波段合成孔径雷达(Synthetic aperture radar,SAR)的快速成像需求,本文提出了一种基于图形处理器(Graphics processing unit,GPU)的ω-K实时成像算法,该算法采用并行架构和双流多线程的处理方式。默认流沿着物理原理的方向进行数据处理,首先对距离补偿、误差校正和补零等操作进行并行化处理,然后采用一层嵌套的插值方式,通过维持上下层的依赖关系和同步管理就能达到约30的加速比。阻塞流与默认流同时启动,生成默认流所需的参数和函数,并在执行前将其存入显存,极大地缩小了算法的运行时间,同时通过在默认流上设置事件以保持双流的同步并行执行。实验结果表明,算法总的加速比可达13左右,幅值和相位相对误差趋近0,不仅具有良好的实时性、聚焦性,还保持了良好的成像效果。 展开更多
关键词 长轨道合成孔径雷达 图形处理器 实时成像 Stolt插值 ω-K算法
下载PDF
GPU在复杂场景的阴影绘制中的应用 被引量:9
10
作者 杨兵 李凤霞 +1 位作者 战守义 胡敏勇 《计算机工程》 EI CAS CSCD 北大核心 2006年第2期220-222,共3页
通过有效利用图形硬件的图形处理单元(GPU)的运算能力和可编程性,将大量计算从CPU分离出来。在GPU上采用顶点和片元程序进行阴影计算,从而加速复杂场景阴影绘制。选择图像空间阴影算法进行GPU加速绘制。用Cg图形编程语言和OpenGL实现了... 通过有效利用图形硬件的图形处理单元(GPU)的运算能力和可编程性,将大量计算从CPU分离出来。在GPU上采用顶点和片元程序进行阴影计算,从而加速复杂场景阴影绘制。选择图像空间阴影算法进行GPU加速绘制。用Cg图形编程语言和OpenGL实现了算法的绘制过程,能够满足通用的复杂3D场景应用的需要,达到满意的实时绘制效果。 展开更多
关键词 图形处理单元 阴影算法 顶点程序 片元程序
下载PDF
基于GPU的现代并行优化算法 被引量:27
11
作者 张庆科 杨波 +1 位作者 王琳 朱福祥 《计算机科学》 CSCD 北大核心 2012年第4期304-310,F0003,共8页
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模... 针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。 展开更多
关键词 现代优化算法 图形处理器(gpu) 计算统一设备架构(CUDA) 组合优化 并行计算
下载PDF
海量地形实时动态存储与绘制的GPU实现算法 被引量:4
12
作者 郑新 刘玮 +1 位作者 吕辰雷 郭平 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2013年第8期1146-1152,共7页
为了降低实时更新和存储海量地形的形变数据对动态绘制速度的影响,提出一种基于整数小波变换与限制性四叉树相结合的GPU并行动态存储与绘制算法.首先设计面向CUDA并行且无损的基于块的整数小波变换算法和SPIHT压缩算法,提高地形压缩比... 为了降低实时更新和存储海量地形的形变数据对动态绘制速度的影响,提出一种基于整数小波变换与限制性四叉树相结合的GPU并行动态存储与绘制算法.首先设计面向CUDA并行且无损的基于块的整数小波变换算法和SPIHT压缩算法,提高地形压缩比以减小数据传输量,同时解决了海量地形动态数据存储的编解码的实时性问题,实现了局部动态地形数据的实时存储;然后将小波系数、限制性四叉树层次结构以及模板技术相结合,提出一种自适应三角化和绘制的并行处理算法.实验结果表明,对于海量地形数据,文中算法可以在实现后端及时保存局部形变数据的同时,前端可以保持较高的绘制帧率. 展开更多
关键词 实时动态绘制 海量地形可视化 整数小波变换 SPIHT gpu算法
下载PDF
基于GPU的超声弹性成像并行实现研究 被引量:6
13
作者 彭博 谌勇 刘东权 《光电工程》 CAS CSCD 北大核心 2013年第5期97-105,共9页
为了提高超声弹性成像计算速度,提出使用GPU硬件加速基于互相关技术和相位零估计的弹性成像技术。先描述这两种弹性成像技术的实现细节及特点,然后分析这两种技术的计算密集操作部分的并行化计算可能性,最后通过GPU程序开发工具ArrayFir... 为了提高超声弹性成像计算速度,提出使用GPU硬件加速基于互相关技术和相位零估计的弹性成像技术。先描述这两种弹性成像技术的实现细节及特点,然后分析这两种技术的计算密集操作部分的并行化计算可能性,最后通过GPU程序开发工具ArrayFire实现了基于GPU的互相关和相位零估计的超声弹性成像技术。通过模拟和扫描仿真人体组织的弹性成像体模获得的压缩前后数据帧对基于GPU的超声弹性成像方法进行测试与验证。实验结果表明,基于GPU的方法可以大幅提高弹性图计算速度,在处理单帧弹性图条件下,与基于互相关方法比较,加速比达到42,而基于相位零估计的方法在提高数据吞吐量的情况下加速比可达到65。 展开更多
关键词 超声影像 弹性成像 应变成像 图像处理器 并行算法
下载PDF
一种基于GPU集群的深度优先并行算法设计与实现 被引量:6
14
作者 余莹 李肯立 郑光勇 《计算机科学》 CSCD 北大核心 2015年第1期82-85,共4页
深度优先搜索算法在GPU集群中大型图上的简单执行,会导致线程间的负载不平衡和无法合并内存访问的情况,这使得算法的性能较低。为了明显提高算法在单个GPU和多个GPU环境下的性能,在处理数据之前通过采取一系列有效的操作来进行重新编排... 深度优先搜索算法在GPU集群中大型图上的简单执行,会导致线程间的负载不平衡和无法合并内存访问的情况,这使得算法的性能较低。为了明显提高算法在单个GPU和多个GPU环境下的性能,在处理数据之前通过采取一系列有效的操作来进行重新编排。提出了构造线程和数据之间映射的新技术,通过利用前缀求和及二分查找操作来达到完美的负载平衡。为了降低通信开销,对DFS各分支中需要进行交换的边集执行修剪操作。实验结果表明,算法在单个GPU上可以尽可能地实现最佳的并行性,在多GPU环境下可以最小化通信开销。在一个GPU集群中,它可以对含有数十亿节点的图有效地执行分布式DFS。 展开更多
关键词 gpu 深度优先搜索(DFS) 分布式算法 CUDA MPI
下载PDF
Bellman-Ford算法性能可移植的GPU并行优化 被引量:7
15
作者 刘磊 王燕燕 +2 位作者 申春 李玉祥 刘雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第5期1559-1564,共6页
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AM... 提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。 展开更多
关键词 计算机软件 Bellman-Ford算法 gpu并行编程及优化技术 并行归约算法 性能可移植性
下载PDF
用GPU加速求解线性方程组的高斯消元法 被引量:8
16
作者 夏健明 魏德敏 《计算机工程与设计》 CSCD 北大核心 2009年第19期4447-4450,共4页
提出了应用图形处理器(GPU)加速求解线性方程组的高斯消元法,用二维四通道纹理表示系数矩阵与常数向量构成的矩阵,在该矩阵内完成归一化、消元等操作。提出了新的纹理缩减算法,该算法不要求纹理的边长是2的幂,把该纹理算法应用于高斯消... 提出了应用图形处理器(GPU)加速求解线性方程组的高斯消元法,用二维四通道纹理表示系数矩阵与常数向量构成的矩阵,在该矩阵内完成归一化、消元等操作。提出了新的纹理缩减算法,该算法不要求纹理的边长是2的幂,把该纹理算法应用于高斯消元法的列主元搜索和确定主元行号。根据这些算法,使用OpenGL着色语言编程,用图形处理器实现加速求解线性方程组的高斯消元法,运算时间与基于CPU的算法比较,随着方程组未知量数量增多,基于GPU的算法具有较快的运算速度,证实图形处理器能加速线性方程组的求解。 展开更多
关键词 图形处理器 缩减算法 纹理 高斯消元法 OpenGL着色语言
下载PDF
基于GPU加速的分形地形生成方法 被引量:6
17
作者 李建明 马淑芳 钱昆明 《系统仿真学报》 CAS CSCD 北大核心 2010年第4期1075-1078,共4页
针对分形方法生成大规模地形数据时计算量大和运算速度慢的问题,提出基于GPU加速的分形地形生成方法,将Diamond-Square分形地形生成算法转化为CUDA线程块并行执行过程,使地形生成过程完全在GPU中加速执行,在取得较好模拟效果的同时,显... 针对分形方法生成大规模地形数据时计算量大和运算速度慢的问题,提出基于GPU加速的分形地形生成方法,将Diamond-Square分形地形生成算法转化为CUDA线程块并行执行过程,使地形生成过程完全在GPU中加速执行,在取得较好模拟效果的同时,显著提高了算法的运算速度。 展开更多
关键词 分形地形 DIAMOND-SQUARE算法 gpu CUDA
下载PDF
基于GPU的MD6算法快速实现 被引量:2
18
作者 李立新 叶剑 余洋 《北京工业大学学报》 EI CAS CSCD 北大核心 2010年第5期640-645,650,共7页
安全散列算法(SHA)已经被广泛地应用于电子商务等信息安全领域.为了满足安全散列算法计算速度的需要,本文通过对SHA-3算法的候选算法——MD6算法的并行性分析,在GPU平台上快速实现了MD6算法,其最快实现速度是CPU速度的5倍,为快速高效的... 安全散列算法(SHA)已经被广泛地应用于电子商务等信息安全领域.为了满足安全散列算法计算速度的需要,本文通过对SHA-3算法的候选算法——MD6算法的并行性分析,在GPU平台上快速实现了MD6算法,其最快实现速度是CPU速度的5倍,为快速高效的实现安全散列算法提供了有效的途径. 展开更多
关键词 图形处理器 SHA算法 MD6算法 线程构建模块 计算统一设备架构
下载PDF
大规模声学边界元法的GPU并行计算 被引量:7
19
作者 张锐 文立华 校金友 《计算物理》 CSCD 北大核心 2015年第3期299-309,共11页
提出一种大规模声学边界元法的高效率、高精度GPU并行计算方法.基于Burton-Miller边界积分方程,推导适于GPU的并行计算格式并实现了传统边界元法的GPU加速算法.为提高原型算法的效率,研究GPU数据缓存优化方法.由于GPU的双精度浮点运算... 提出一种大规模声学边界元法的高效率、高精度GPU并行计算方法.基于Burton-Miller边界积分方程,推导适于GPU的并行计算格式并实现了传统边界元法的GPU加速算法.为提高原型算法的效率,研究GPU数据缓存优化方法.由于GPU的双精度浮点运算能力较低,为了降低数值误差,研究基于单精度浮点运算实现的doublesingle精度算法.数值算例表明,改进的算法实现了最高89.8%的GPU使用效率,且数值精度与直接使用双精度数相当,而计算时间仅为其1/28,显存消耗也仅为其一半.该方法可在普通PC机(8GB内存,NVIDIA Ge Force 660 Ti显卡)上快速完成自由度超过300万的大规模声学边界元分析,计算速度和内存消耗均优于快速边界元法. 展开更多
关键词 声学 边界元法 大规模问题 gpu计算 优化算法
下载PDF
复杂轨迹合成孔径雷达后向投影算法图像流GPU成像 被引量:8
20
作者 韦顺军 蒲羚 +1 位作者 张晓玲 师君 《电讯技术》 北大核心 2016年第8期879-886,共8页
相对于基于傅里叶变换的频域成像算法,后向投影(BP)算法因采用时域逐点相干积累,更适合于复杂轨迹合成孔径雷达(SAR)高精度成像。但BP算法计算量巨大,限制了其应用于SAR大场景大数据量快速成像。图形处理器(GPU)具有强大浮点运算和并行... 相对于基于傅里叶变换的频域成像算法,后向投影(BP)算法因采用时域逐点相干积累,更适合于复杂轨迹合成孔径雷达(SAR)高精度成像。但BP算法计算量巨大,限制了其应用于SAR大场景大数据量快速成像。图形处理器(GPU)具有强大浮点运算和并行处理能力,为大场景BP算法快速成像实现提供了途径。结合GPU并行处理,提出了一种基于图像流的复杂运动SAR大场景BP快速成像处理方法。该方法借助BP算法中图像像素点相互独立处理的特性,采用图像像素点并行及图像流程处理,设计了孔径与图像缓存调度方案,提高SAR大场景大数据BP算法成像效率。仿真和机载实测数据结果验证了方法的有效性,在有限GPU显存条件下实现了8 192×8 192大场景快速成像,并且成像加速比相对于传统CPU单线程处理可达300倍以上。 展开更多
关键词 SAR 复杂轨迹 后向投影算法 gpu加速 大场景成像
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部