期刊文献+
共找到600篇文章
< 1 2 30 >
每页显示 20 50 100
融合GPU的拟单层覆盖近似集计算方法
1
作者 吴正江 吕成功 王梦松 《计算机工程》 CAS CSCD 北大核心 2024年第5期71-82,共12页
拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算... 拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算过程。为了实现这一目标,使用布尔矩阵表示拟单层覆盖近似空间中的元素,引入与集合运算对应的布尔矩阵算子,提出拟单层覆盖粗糙近似集(DE、DA、DE0与DA0)的矩阵表示,并设计矩阵化拟单层覆盖近似集算法(M_SMC)。同时,相应的定理证明了拟单层覆盖近似集的矩阵表示形式与原始定义的等价性。然而,M_SMC运行过程中出现了矩阵存储和计算步骤的内存消耗过多问题。为了将算法部署到显存有限的GPU上,优化矩阵存储和计算步骤,提出分批处理的矩阵化拟单层覆盖近似集算法(BM_SMC)。在10个数据集上的实验结果表明,融合GPU的BM_SMC算法与单纯使用中央处理器(CPU)的BM_SMC算法相比计算效率提高2.16~11.3倍,BM_SMC算法可以在有限的存储空间条件下充分利用GPU,能够有效地提高拟单层覆盖近似集的计算效率。 展开更多
关键词 拟单层覆盖近似集 集值信息系统 矩阵化 gpu加速 分批处理
下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式
2
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(gpu)
下载PDF
GNNSched:面向GPU的图神经网络推理任务调度框架 被引量:1
3
作者 孙庆骁 刘轶 +4 位作者 杨海龙 王一晴 贾婕 栾钟治 钱德沛 《计算机工程与科学》 CSCD 北大核心 2024年第1期1-11,共11页
由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并... 由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并发任务的显存占用情况,以确保并发任务在GPU上的成功共置。此外,多租户场景提交的推理任务亟需灵活的调度策略,以满足并发推理任务的服务质量要求。为了解决上述问题,提出了GNNSched,其在GPU上高效管理GNN推理任务的共置运行。具体来说,GNNSched将并发推理任务组织为队列,并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组,这些任务组被迭代地提交到GPU并发执行。实验结果表明,GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。 展开更多
关键词 图神经网络 图形处理器 推理框架 任务调度 估计模型
下载PDF
GPU异构计算环境中长短时记忆网络模型的应用及优化
4
作者 梁桂才 梁思成 陆莹 《计算机应用文摘》 2024年第10期37-41,共5页
随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包... 随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包括门控循环单元、丢弃法、Adam与双向长短时记忆网络等);其次,提出了在GPU上执行的一系列优化方法,如CuDNN库的应用及并行计算的设计等。最终,通过实验分析了以上优化方法在训练时间、验证集性能、测试集性能、超参数和硬件资源使用等方面的差异。 展开更多
关键词 gpu异构 长短时记忆网络 门控循环单元 ADAM DROPOUT CuDNN
下载PDF
基于GPU的LBM迁移模块算法优化
5
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
下载PDF
The inversion of density structure by graphic processing unit(GPU) and identification of igneous rocks in Xisha area 被引量:1
6
作者 Lei Yu Jian Zhang +2 位作者 Wei Lin Rongqiang Wei Shiguo Wu 《Earthquake Science》 2014年第1期117-125,共9页
Organic reefs, the targets of deep-water petroleum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the igne... Organic reefs, the targets of deep-water petroleum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the igneous rocks have become interference for future exploration by having similar seismic reflection characteristics. Yet, the density and magnetism of organic reefs are very different from igneous rocks. It has obvious advantages to identify organic reefs and igneous rocks by gravity and magnetic data. At first, frequency decomposition was applied to the free-air gravity anomaly in Xisha area to obtain the 2D subdivision of the gravity anomaly and magnetic anomaly in the vertical direction. Thus, the distribution of igneous rocks in the horizontal direction can be acquired according to high-frequency field, low-frequency field, and its physical properties. Then, 3D forward modeling of gravitational field was carried out to establish the density model of this area by reference to physical properties of rocks based on former researches. Furthermore, 3D inversion of gravity anomaly by genetic algorithm method of the graphic processing unit(GPU) parallel processing in Xisha target area was applied, and 3D density structure of this area was obtained. By this way, we can confine the igneous rocks to the certain depth according to the density of the igneous rocks. The frequency decomposition and 3D inversion of gravity anomaly by genetic algorithm method of the GPU parallel processing proved to be a useful method for recognizing igneous rocks to its 3D geological position. So organic reefs and igneous rocks can be identified, which provide a prescient information for further exploration. 展开更多
关键词 图形处理单元 密度结构 三维反演 火成岩 gpu 识别 沙区 重力异常
下载PDF
晶硅分子动力学模拟的GPU加速算法优化
7
作者 林琳 祝爱琦 +6 位作者 赵明璨 张帅 叶炎昊 徐骥 韩林 赵荣彩 侯超峰 《计算机工程》 CAS CSCD 北大核心 2023年第4期166-173,共8页
分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待... 分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合Nvidia Tesla V100 GPU硬件体系结构特点,对晶硅MD模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用GPU强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅MD模拟算法的计算速度相比于优化前提升了1.69~1.97倍,相比于国际上主流的GPU加速MD模拟软件HOOMDblue和LAMMPS分别提升了3.20~3.47倍和17.40~38.04倍,具有较好的模拟加速效果。 展开更多
关键词 分子动力学 图形处理器 合并访存 循环展开 原子操作 性能优化
下载PDF
基于GPU加速的全源对最短路径并行算法
8
作者 肖汉 肖诗洋 +1 位作者 李焕勤 周清雷 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第5期1022-1032,共11页
针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分... 针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分支,最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明,与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理(Open Multi-Processing, OpenMP)并行算法和基于统一计算设备架构(Compute Unified Device Architecture, CUDA)并行算法相比,最短路径并行算法在开放式计算语言(Open Computing Language, OpenCL)架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比,验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 最短路径 重复平方法 图形处理器 开放式计算语言 并行算法
下载PDF
GPU上的查询算子的设计与优化
9
作者 冷芳玲 刘军 +1 位作者 吴莹莹 鲍玉斌 《计算机工程与应用》 CSCD 北大核心 2023年第8期81-88,共8页
选择、连接、投影和聚集等是传统关系型数据库中的基本操作。为了实现关系型数据库在GPU上的查询优化,必须使用相应的GPU算法实现对应的关系算子。借鉴GDB分而治之的分层设计思想将关系代数拆分成算子层和原语层。数据查询处理过程中存... 选择、连接、投影和聚集等是传统关系型数据库中的基本操作。为了实现关系型数据库在GPU上的查询优化,必须使用相应的GPU算法实现对应的关系算子。借鉴GDB分而治之的分层设计思想将关系代数拆分成算子层和原语层。数据查询处理过程中存在着一些难点问题,如数据传输时延、过度使用共享内存、活跃线程数减少和线程之间数据通信产生的通信时延。针对这些问题,基于较新的Pascal架构实现了查询优化算法,在原有的连接、聚集和条件选择算法原理基础上,对相应的算法进行了设计与优化。提高了每个工作线程的工作负载,实现了内核计算与数据传输之间的延迟隐藏,解决了连接操作中的数据倾斜问题。 展开更多
关键词 图形处理器(gpu) Pascal架构 查询算子 原语操作
下载PDF
基于GPU的固态晶体硅分子动力学算法优化
10
作者 李靖 祝爱琦 +1 位作者 韩林 侯超峰 《计算机工程》 CAS CSCD 北大核心 2023年第3期288-295,共8页
分子动力学模拟通常用于晶体硅热力学性质的研究,因原子间采用复杂的多体作用势,分子模拟通常面临较高的计算负载,导致计算的时间和空间尺度受限。图形处理器(GPU)采用并行多线程技术,用于计算密集型处理任务,在分子动力学模拟领域中显... 分子动力学模拟通常用于晶体硅热力学性质的研究,因原子间采用复杂的多体作用势,分子模拟通常面临较高的计算负载,导致计算的时间和空间尺度受限。图形处理器(GPU)采用并行多线程技术,用于计算密集型处理任务,在分子动力学模拟领域中显示巨大的应用潜力。因此,充分利用GPU硬件架构特性提升固态共价晶体硅分子动力学模拟的时空尺度对晶体硅导热机制的研究具有重要意义。基于固态共价晶体硅分子动力学模拟算法,提出面向GPU计算平台的固定邻居算法设计与优化。利用数据结构、分支结构优化等方法解决分子动力学模拟的固定邻居算法全局访存和分支结构的耗时问题,降低数据访存消耗和分支冲突,通过改变线程并行调度方式,在GPU计算平台上实现高性能并行计算,有效解决计算负载问题。实验结果表明,LAMMPS双精度固态晶体硅分子动力学模拟与双精度固定邻居算法的加速比为11.62,HOOMD-blue双精度固态晶体硅分子动力学模拟与双精度固定邻居算法和单精度固定邻居算法的加速比分别为9.39和12.18。 展开更多
关键词 分子动力学模拟 图形处理器 固定邻居 数据结构 分支结构
下载PDF
基于GPU的数字下变频累积误差控制方法 被引量:1
11
作者 李超 焦义文 +2 位作者 傅诗媛 高泽夫 毛飞龙 《系统工程与电子技术》 EI CSCD 北大核心 2023年第4期965-972,共8页
针对数字下变频系统中高速数据处理实时性需求,设计了基于中央处理器(central processing unit,CPU)+图形处理单元(graphic processing unit,GPU)的异构平台数字下变频处理算法,并完成了相应并行程序设计,进行了实际数据验证。鉴于GPU... 针对数字下变频系统中高速数据处理实时性需求,设计了基于中央处理器(central processing unit,CPU)+图形处理单元(graphic processing unit,GPU)的异构平台数字下变频处理算法,并完成了相应并行程序设计,进行了实际数据验证。鉴于GPU运算采用单精度浮点数格式进行数据处理,进行长时程数据处理过程中,会产生浮点数舍入误差累积,导致结果的不准确不可靠,设计了联合相位循环归零法和无误差变换补偿法,实现了浮点数舍入误差的控制与补偿。数据测试结果表明,所提方法可将相位误差控制在10-11rad以内,且不随时间累积,计算结果准确可靠。 展开更多
关键词 图形处理单元 舍入误差 累积误差 无误差变换
下载PDF
带状稀疏矩阵乘法及高效GPU实现
12
作者 刘丽 陈长波 《计算机应用》 CSCD 北大核心 2023年第12期3856-3867,共12页
稀疏-稠密矩阵乘法(SpMM)广泛应用于科学计算和深度学习等领域,提高它的效率具有重要意义。针对具有带状特征的一类稀疏矩阵,提出一种新的存储格式BRCV(Banded Row Column Value)以及基于此格式的SpMM算法和高效图形处理单元(GPU)实现... 稀疏-稠密矩阵乘法(SpMM)广泛应用于科学计算和深度学习等领域,提高它的效率具有重要意义。针对具有带状特征的一类稀疏矩阵,提出一种新的存储格式BRCV(Banded Row Column Value)以及基于此格式的SpMM算法和高效图形处理单元(GPU)实现。由于每个稀疏带可以包含多个稀疏块,所提格式可看成块稀疏矩阵格式的推广。相较于常用的CSR(Compressed Sparse Row)格式,BRCV格式通过避免稀疏带中列下标的冗余存储显著降低存储复杂度;同时,基于BRCV格式的SpMM的GPU实现通过同时复用稀疏和稠密矩阵的行更高效地利用GPU的共享内存,提升SpMM算法的计算效率。在两种不同GPU平台上针对随机生成的带状稀疏矩阵的实验结果显示,BRCV的性能不仅优于cuBLAS(CUDA Basic Linear Algebra Subroutines),也优于基于CSR和块稀疏两种不同格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比分别为6.20和4.77。此外,将新的实现应用于图神经网络(GNN)中的SpMM算子的加速。在实际应用数据集上的测试结果表明,BRCV的性能优于cuBLAS和基于CSR格式的cuSPARSE,且在大多数情况下优于基于块稀疏格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比为4.47。以上结果表明BRCV可以有效提升SpMM的效率。 展开更多
关键词 带状稀疏矩阵 稀疏存储格式 稀疏矩阵乘法 图形处理单元 共享内存
下载PDF
基于GPU的子图匹配优化技术
13
作者 李安腾 崔鹏杰 +1 位作者 袁野 王国仁 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第9期1856-1864,共9页
提出高效的基于图形处理器(GPU)的子图匹配算法GpSI,针对主流算法的过滤阶段和连接阶段分别设计优化方案.提出基于复合签名的过滤算法,在过滤阶段利用结点所处局部的数量特征和结构特征提升候选集过滤能力.采用基于候选点的连接策略,在... 提出高效的基于图形处理器(GPU)的子图匹配算法GpSI,针对主流算法的过滤阶段和连接阶段分别设计优化方案.提出基于复合签名的过滤算法,在过滤阶段利用结点所处局部的数量特征和结构特征提升候选集过滤能力.采用基于候选点的连接策略,在连接阶段以最小邻居数为粒度预分配空间,设计高效的集合运算,避免传统方法重复连接的额外开销.多个数据集测试结果表明GpSI较主流GPU子图匹配算法在候选集过滤能力、执行用时、GPU内存占用和稳定性上均有明显优势.在真实数据集测试中,相比GPU友好子图匹配算法,GpSI的执行用时加速2~10倍. 展开更多
关键词 子图同构 数据挖掘 图形处理器(gpu) 并行计算 高性能计算
下载PDF
基于GPU的天线组阵信号时延补偿方法
14
作者 毛飞龙 焦义文 +4 位作者 马宏 韩久江 高泽夫 李超 李冬 《系统工程与电子技术》 EI CSCD 北大核心 2023年第8期2383-2394,共12页
针对天线组阵合成系统对于宽带、高速、并行信号的实时合成需求,设计了基于图形处理器(graphic processing unit,GPU)的天线组阵信号时延补偿方法。首先,分析了典型的整数时延补偿方法在GPU平台上实现的可行性,设计了基于数据块重叠保... 针对天线组阵合成系统对于宽带、高速、并行信号的实时合成需求,设计了基于图形处理器(graphic processing unit,GPU)的天线组阵信号时延补偿方法。首先,分析了典型的整数时延补偿方法在GPU平台上实现的可行性,设计了基于数据块重叠保留的整数时延补偿方法。然后,对比了典型的小数时延补偿方法的优劣,设计了适合于GPU并行加速的频域小数时延补偿方法。最后,对基于GPU的天线组阵信号时延补偿方法进行了实验验证。多次实验测试结果表明,在确保时延补偿正确性的基础上,基于GPU的时延补偿方法相比传统串行CPU时延补偿方法加速比提升了约18倍,采用基于GPU的时延补偿方法可实现对多天线信号的实时合成。 展开更多
关键词 时延补偿 天线组阵 图形处理器 并行计算
下载PDF
基于GPU的长轨SAR实时成像算法
15
作者 谭运馨 黄海风 +2 位作者 赖涛 但琪洪 欧鹏飞 《数据采集与处理》 CSCD 北大核心 2023年第6期1380-1391,共12页
为了满足长轨道超高分辨W波段合成孔径雷达(Synthetic aperture radar,SAR)的快速成像需求,本文提出了一种基于图形处理器(Graphics processing unit,GPU)的ω-K实时成像算法,该算法采用并行架构和双流多线程的处理方式。默认流沿着物... 为了满足长轨道超高分辨W波段合成孔径雷达(Synthetic aperture radar,SAR)的快速成像需求,本文提出了一种基于图形处理器(Graphics processing unit,GPU)的ω-K实时成像算法,该算法采用并行架构和双流多线程的处理方式。默认流沿着物理原理的方向进行数据处理,首先对距离补偿、误差校正和补零等操作进行并行化处理,然后采用一层嵌套的插值方式,通过维持上下层的依赖关系和同步管理就能达到约30的加速比。阻塞流与默认流同时启动,生成默认流所需的参数和函数,并在执行前将其存入显存,极大地缩小了算法的运行时间,同时通过在默认流上设置事件以保持双流的同步并行执行。实验结果表明,算法总的加速比可达13左右,幅值和相位相对误差趋近0,不仅具有良好的实时性、聚焦性,还保持了良好的成像效果。 展开更多
关键词 长轨道合成孔径雷达 图形处理器 实时成像 Stolt插值 ω-K算法
下载PDF
基于NVIDIA GPU后向投影FFBP算法的加速研究
16
作者 潘丰 高伟 +3 位作者 罗俊 刘文冬 周春元 张慧 《电子测量技术》 北大核心 2023年第22期148-152,共5页
后向投影(BP)算法,在计算成像过程中未采用近似,成像质量高,任何阵列构型成像均适合。近年来在雷达成像技术领域广泛应用。但在毫米波三维全息成像中,计算效率较低,影响了实时成像的实现。在三维极坐标条件下,快速因式分解后向投影(FFBP... 后向投影(BP)算法,在计算成像过程中未采用近似,成像质量高,任何阵列构型成像均适合。近年来在雷达成像技术领域广泛应用。但在毫米波三维全息成像中,计算效率较低,影响了实时成像的实现。在三维极坐标条件下,快速因式分解后向投影(FFBP)算法,利用子孔径划分的方式进行成像,一定程度上解决了实时成像的问题。本文利用四线程CPU与GPU加速CUDA平台实现FFBP算法,并对比分析了多点目标成像,结果基本一致,进而验证加速算法的有效性。进一步,通过电磁仿真软件,对分辨力板建模和仿真,模拟真实目标,并进行GPU加速成像,计算时间比四线程CPU提高33.97倍,适用于三维近场实时成像系统,更好的应用于人体安检领域。 展开更多
关键词 三维极坐标系 FFBP算法 图像处理器(gpu) 子孔径划分
下载PDF
CPU-GPU协同高性能卫星数传预处理方法
17
作者 张鑫宇 杨甲森 +3 位作者 徐聪 陈志敏 智佳 陈托 《上海航天(中英文)》 CSCD 2023年第4期38-45,共8页
空间数据系统咨询委员会(CCSDS)协议的分层特征对数传预处理的完全并行提出挑战,虚拟信道、应用过程的多路复用为并行处理提供契机。本文面向高性能数传预处理需求,在分析处理性能瓶颈的基础上,提出一种层间流程中央处理器(CPU)控制、... 空间数据系统咨询委员会(CCSDS)协议的分层特征对数传预处理的完全并行提出挑战,虚拟信道、应用过程的多路复用为并行处理提供契机。本文面向高性能数传预处理需求,在分析处理性能瓶颈的基础上,提出一种层间流程中央处理器(CPU)控制、层内瓶颈步骤GPU加速的协同处理新方法。以高级在轨系统(AOS)帧循环冗余校验(CRC)、工程参数提取与物理量转换算法为研究对象,对图形处理器(GPU)线程分配、CPU-GPU协同任务划分进行设计。实验结果表明:方法可实现CRC校验11.4496 GB·s^(-1)、工程参数提取与物理量转换0.9024GB·s^(-1)的处理速率,性能较传统CPU架构提升显著。 展开更多
关键词 卫星 并行处理 数传数据预处理 中央处理器(gpu) 统一计算设备架构(CUDA)
下载PDF
无人机载MiniSAR实时成像处理GPU异步优化
18
作者 袁溆东 雒梅逸香 +2 位作者 王智超 谭佳伟 王峰 《上海航天(中英文)》 CSCD 2023年第4期15-24,共10页
合成孔径雷达(SAR)以其全天候、全天时的工作特性及其分辨率不随平台高度变化的成像特性,已成为航天遥感、目标检测领域重要的传感器之一。SAR算法复杂度往往与成像分辨率呈正相关,其中计算量问题成为雷达成像实时性的一大挑战。无人机... 合成孔径雷达(SAR)以其全天候、全天时的工作特性及其分辨率不随平台高度变化的成像特性,已成为航天遥感、目标检测领域重要的传感器之一。SAR算法复杂度往往与成像分辨率呈正相关,其中计算量问题成为雷达成像实时性的一大挑战。无人机载MiniSAR具有小型化、低功耗、灵活性强和隐蔽性强等优点,其小型化使设备计算能力受限,加剧了复杂度与分辨率之间的矛盾。图形处理单元(GPU)和多线程技术发展迅速,为无人机载MiniSAR实时成像提供了平台。本文根据实时处理机数据流和GPU异构系统的特点,提出了一种GPU异步优化方案,该方案可明显提高中央处理单元(CPU)与GPU之间的并行工作效率,节约大部分的数据存取开销。实验结果证明:GPU的成像效率是单CPU系统的12倍左右,在此基础上,使用GPU异步优化方案后效率可继续提升15%左右。本文提出的设计思路可显著缓解无人机载MiniSAR的实时成像计算压力。 展开更多
关键词 合成孔径雷达(SAR) 无人机(UAV) 实时处理机 图形处理单元(gpu) 异步优化
下载PDF
混沌线程池与GPU优化的批量图像加密算法
19
作者 潘明华 王一涵 +1 位作者 谷盛民 孙绍华 《科学技术与工程》 北大核心 2023年第34期14618-14626,共9页
数据量大且冗余度高是数字图像显著的特征,这对大批量图像快速实时加密提出了挑战。为了解决此问题,基于Lorenz混沌加密技术,设计了一种采用线程池与图形处理器(graphics processing unit,GPU)组合优化的批量图像加密算法。该算法通过... 数据量大且冗余度高是数字图像显著的特征,这对大批量图像快速实时加密提出了挑战。为了解决此问题,基于Lorenz混沌加密技术,设计了一种采用线程池与图形处理器(graphics processing unit,GPU)组合优化的批量图像加密算法。该算法通过线程池改进图像的读写,并进行图像镜像变换;利用Lorenz混沌系统生成加密序列,结合图像分块混沌序列进行加密;然后对批量图像数据进行打包,通过GPU进行大批量的异步计算;最后重组图像矩阵得到批量加密图像。实验测试表明,该算法能够有效抵御常见的攻击手段,经过性能优化后的批量数字图像加密算法,可以保证图像安全性;同时,在批量图像读取速率和加解密处理效率方面有显著的提高。 展开更多
关键词 图像加密 混沌系统 并行计算 线程池 图形处理器(graphics processing unit gpu)
下载PDF
地震叠前逆时偏移算法的CPU/GPU实施对策 被引量:83
20
作者 李博 刘红伟 +4 位作者 刘国峰 佟小龙 刘洪 郭建 裴江云 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2010年第12期2938-2943,共6页
相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O... 相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O(输入/输出)量却是最大的.针对此问题,本文在分析现行逆时偏移的多种算法基础上,提出利用CPU/GPU(中央处理器/图形处理器)作为数值计算核心,建立随机边界模型,从而克服存储I/O难题和提高计算效率.在实际的数据测试中,本文的方法可以大幅度的提高计算效率和减少存储单元,从而促使其高效地应用于生产实际. 展开更多
关键词 逆时偏移 波动方程 随机边界 中央处理器 图形处理器
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部