期刊文献+
共找到593篇文章
< 1 2 30 >
每页显示 20 50 100
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:1
1
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(gpu)
下载PDF
融合GPU的拟单层覆盖近似集计算方法
2
作者 吴正江 吕成功 王梦松 《计算机工程》 CAS CSCD 北大核心 2024年第5期71-82,共12页
拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算... 拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算过程。为了实现这一目标,使用布尔矩阵表示拟单层覆盖近似空间中的元素,引入与集合运算对应的布尔矩阵算子,提出拟单层覆盖粗糙近似集(DE、DA、DE0与DA0)的矩阵表示,并设计矩阵化拟单层覆盖近似集算法(M_SMC)。同时,相应的定理证明了拟单层覆盖近似集的矩阵表示形式与原始定义的等价性。然而,M_SMC运行过程中出现了矩阵存储和计算步骤的内存消耗过多问题。为了将算法部署到显存有限的GPU上,优化矩阵存储和计算步骤,提出分批处理的矩阵化拟单层覆盖近似集算法(BM_SMC)。在10个数据集上的实验结果表明,融合GPU的BM_SMC算法与单纯使用中央处理器(CPU)的BM_SMC算法相比计算效率提高2.16~11.3倍,BM_SMC算法可以在有限的存储空间条件下充分利用GPU,能够有效地提高拟单层覆盖近似集的计算效率。 展开更多
关键词 拟单层覆盖近似集 集值信息系统 矩阵化 gpu加速 分批处理
下载PDF
GNNSched:面向GPU的图神经网络推理任务调度框架 被引量:2
3
作者 孙庆骁 刘轶 +4 位作者 杨海龙 王一晴 贾婕 栾钟治 钱德沛 《计算机工程与科学》 CSCD 北大核心 2024年第1期1-11,共11页
由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并... 由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并发任务的显存占用情况,以确保并发任务在GPU上的成功共置。此外,多租户场景提交的推理任务亟需灵活的调度策略,以满足并发推理任务的服务质量要求。为了解决上述问题,提出了GNNSched,其在GPU上高效管理GNN推理任务的共置运行。具体来说,GNNSched将并发推理任务组织为队列,并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组,这些任务组被迭代地提交到GPU并发执行。实验结果表明,GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。 展开更多
关键词 图神经网络 图形处理器 推理框架 任务调度 估计模型
下载PDF
The inversion of density structure by graphic processing unit(GPU) and identification of igneous rocks in Xisha area 被引量:1
4
作者 Lei Yu Jian Zhang +2 位作者 Wei Lin Rongqiang Wei Shiguo Wu 《Earthquake Science》 2014年第1期117-125,共9页
Organic reefs, the targets of deep-water petro- leum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the ig... Organic reefs, the targets of deep-water petro- leum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the igneous rocks have become interference for future explo- ration by having similar seismic reflection characteristics. Yet, the density and magnetism of organic reefs are very different from igneous rocks. It has obvious advantages to identify organic reefs and igneous rocks by gravity and magnetic data. At first, frequency decomposition was applied to the free-air gravity anomaly in Xisha area to obtain the 2D subdivision of the gravity anomaly and magnetic anomaly in the vertical direction. Thus, the dis- tribution of igneous rocks in the horizontal direction can be acquired according to high-frequency field, low-frequency field, and its physical properties. Then, 3D forward model- ing of gravitational field was carried out to establish the density model of this area by reference to physical properties of rocks based on former researches. Furthermore, 3D inversion of gravity anomaly by genetic algorithm method of the graphic processing unit (GPU) parallel processing in Xisha target area was applied, and 3D density structure of this area was obtained. By this way, we can confine the igneous rocks to the certain depth according to the density of the igneous rocks. The frequency decomposition and 3D inversion of gravity anomaly by genetic algorithm method of the GPU parallel processing proved to be a useful method for recognizing igneous rocks to its 3D geological position. So organic reefs and igneous rocks can be identified, which provide a prescient information for further exploration. 展开更多
关键词 Xisha area Organic reefs and igneous rocks -Frequency decomposition of potential field 3D inversionof the graphic processing unit (gpu parallel processing
下载PDF
GPU任务调度研究综述 被引量:1
5
作者 李来文 胡韬 邓庆绪 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2800-2807,共8页
本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度... 本文针对运行在GPU上的任务的管理和调度研究进行了综述,并且把讨论重点放在针对单GPU上的相关研究工作.随着人工智能技术的发展以及相关应用的普及,使得GPU成为加速计算的关键工具.本文首先介绍了GPU的架构和编程模型,然后按照调度粒度,从stream级到warp级介绍了多种调度方法的相关研究工作.每个级别的调度方法都旨在提高GPU的性能、资源利用率、可靠性或降低能耗.此外,本文还指出了GPU任务调度面临的挑战以及未来的研究方向,如保障GPU执行时间确定性的软硬件机制研究、结合机器学习的GPU任务调度研究、GPU新架构探索研究以及追求GPU性能和能耗平衡的调度技术研究.本文旨在为研究者们提供一个全面的视角,帮助他们了解GPU任务调度的研究动态和未来的发展方向. 展开更多
关键词 图形处理单元 CUDA gpu多任务 gpu调度
下载PDF
基于GPU和角正交投影视图的多视角投影全息图
6
作者 曹雪梅 张春晓 +4 位作者 管明祥 夏林中 郭丽丽 苗玉虎 曹士平 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第5期536-541,共6页
针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,... 针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,即在计算过程中同时将沿着投影方向移位后的一系列角正交投影视图乘以其相应的常数相位因子.其中,每个投影图像的投影角决定了其移位的距离和常数相位因子.将所有并行计算结果累加,可以得到一个包含物体三维信息的二维复矩阵,即菲涅尔全息图.相较于使用计算机中央处理器(central processing unit,CPU)进行计算,本方法显著提升了计算速度,将计算效率提高了30~40倍,为多视角投影全息图的高效生成提供一种可行途径. 展开更多
关键词 信息处理技术 计算全息 全息显示 图形处理单元 角正交投影视图 多视角投影全息
下载PDF
GPU加速下的三维快速分解后向投影SAS成像算法
7
作者 陶鸿博 张东升 黄勇 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3247-3256,共10页
后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三... 后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三维快速分解BP(fast factorized BP,FFBP)成像算法,并利用图形处理器(graphics processing unit,GPU)加速三维FFBP算法。经过对点目标的测试,计算时间从原本的263 s降低到了2.3 s,解决了SAS中的三维成像实时性问题。同时,验证了所提算法在非理想航迹下的成像效果。结果表明,在添加幅度不超过0.1 m(一个波长以内)的正弦扰动时,所提算法对点目标仍有良好的聚焦效果。 展开更多
关键词 快速分解后向投影 并行计算 图形处理器 合成孔径声纳 三维成像
下载PDF
隐私计算环境下深度学习的GPU加速技术综述
8
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 gpu计算 隐私计算 安全多方计算 同态加密
下载PDF
GPU异构计算环境中长短时记忆网络模型的应用及优化
9
作者 梁桂才 梁思成 陆莹 《计算机应用文摘》 2024年第10期37-41,共5页
随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包... 随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包括门控循环单元、丢弃法、Adam与双向长短时记忆网络等);其次,提出了在GPU上执行的一系列优化方法,如CuDNN库的应用及并行计算的设计等。最终,通过实验分析了以上优化方法在训练时间、验证集性能、测试集性能、超参数和硬件资源使用等方面的差异。 展开更多
关键词 gpu异构 长短时记忆网络 门控循环单元 ADAM DROPOUT CuDNN
下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现
10
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
下载PDF
NTRU格基密钥封装方案GPU高性能实现
11
作者 李文倩 沈诗羽 赵运磊 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2163-2178,共16页
随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封... 随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封装算法对于后量子时代的密码技术储备和应用具有重要意义.同时,图形处理器(Graphics Processing Unit,GPU)以其强大的并行计算能力、高吞吐量、低能耗等特性,已成为当前高并发密码工程实现的重要平台.本文给出后量子密码算法CTRU/CNTR的首个GPU高性能实现方案.对GPU主要资源占用进行分析,我们综合考虑并行计算、内存访问、数据布局和算法优化等多个方面,采用一系列计算和内存优化技术,旨在并行加速计算、优化访存、合理占用GPU资源以及减少I/O时延,从而提高本方案的计算能力和性能.本文的主要贡献在于以下几个方面:首先,针对模约减操作,使用NVIDIA并行指令集实现,有效减少所需指令条数;其次,针对耗时的多项式乘法模块,采用混合基NTT,并采用层融合、循环展开和延迟约减等方法,加快计算速度;此外,针对内存重复访问和冲突访问等问题,通过合并访存、核函数融合等优化技术,实现内存的高效访问;最后,为实现高并行的算法,设计恰当的线程块大小和数量,采用内存池机制,实现多任务的快速访存和高效处理.基于NVIDIA RTX4090平台,本方案CTRU768实现中密钥生成、封装和解封装的吞吐量分别为每秒1170.9万次、926.7万次和315.4万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了336倍、174倍和128倍.本方案CNTR768实现中密钥生成、封装和解封装的吞吐量分别为每秒1117.3万次、971.8万次和322.2万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了329倍、175倍和134倍;与开源Kyber实现相比,密钥生成、密钥封装和密钥解封装的吞吐量分别提升10.84~11.36倍、9.49~9.95倍和5.11~5.22倍.高性能的密钥封装实现在大规模任务处理场景下具有较大的应用潜力,对保障后量子时代的信息和数据安全具有重要意义. 展开更多
关键词 后量子密码 格基密码 密钥封装方案 并行处理 图形处理器
下载PDF
基于GPU的LBM迁移模块算法优化
12
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
下载PDF
基于GPU对角稀疏矩阵向量乘法的动态划分算法
13
作者 涂进兴 李志雄 黄建强 《计算机应用》 CSCD 北大核心 2024年第11期3521-3529,共9页
在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)... 在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)。首先,设计一种全新的动态划分策略,根据矩阵的不同特征进行分块,在保证GPU高计算效率的同时大幅减少零元填充,去除冗余计算量;其次,提出一种对角稀疏矩阵存储格式BDIA(Block DIAgonal)存储分块数据,并调整数据布局,提高GPU上的访存性能;最后,基于GPU的底层进行条件分支优化,以减少分支判断,并使用动态共享内存解决向量的不规则访问问题。DIA-Dynamic与前沿Tile SpMV算法相比,平均加速比达到了1.88;与前沿BRCSD(Diagonal Compressed Storage based on Row-Blocks)-Ⅱ算法相比,平均零元填充减少了43%,平均加速比达到了1.70。实验结果表明,DIA-Dynamic能够有效提高GPU上对角SpMV的计算效率,缩短计算时间,提升程序性能。 展开更多
关键词 图形处理器 对角稀疏矩阵 稀疏矩阵向量乘法 动态划分 共享内存
下载PDF
地震叠前逆时偏移算法的CPU/GPU实施对策 被引量:83
14
作者 李博 刘红伟 +4 位作者 刘国峰 佟小龙 刘洪 郭建 裴江云 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2010年第12期2938-2943,共6页
相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O... 相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O(输入/输出)量却是最大的.针对此问题,本文在分析现行逆时偏移的多种算法基础上,提出利用CPU/GPU(中央处理器/图形处理器)作为数值计算核心,建立随机边界模型,从而克服存储I/O难题和提高计算效率.在实际的数据测试中,本文的方法可以大幅度的提高计算效率和减少存储单元,从而促使其高效地应用于生产实际. 展开更多
关键词 逆时偏移 波动方程 随机边界 中央处理器 图形处理器
下载PDF
三维逆时偏移GPU/CPU机群实现方案研究 被引量:36
15
作者 刘守伟 王华忠 +1 位作者 陈生昌 孔祥宁 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2013年第10期3487-3496,共10页
叠前逆时偏移是当前最为准确的地震成像方法,由于计算量大、存储量大等原因需要合适的实现策略和高效的计算平台.本文以高阶有限差分逆时偏移为基础,重点讨论了在GPU上实现需要解决的显存不足问题和人工边界问题.利用区域分解技术可以... 叠前逆时偏移是当前最为准确的地震成像方法,由于计算量大、存储量大等原因需要合适的实现策略和高效的计算平台.本文以高阶有限差分逆时偏移为基础,重点讨论了在GPU上实现需要解决的显存不足问题和人工边界问题.利用区域分解技术可以在当前GPU上高效地实现任意生产规模的三维逆时偏移成像,不会受到GPU显存规模的制约.常规最佳匹配层边界条件边界区域控制方程与内部区域差异较大,不适于GPU高速运算.本文在GPU上实现近似最佳匹配层(NPML)边界条件,使得高阶有限差分计算不需要分支判断,边界区域辅助波场的存储量也较低,保证了在GPU上进行波场传播的高效性.三维理论数据和实际资料成像结果表明了本文方法的正确性. 展开更多
关键词 逆时偏移 图形处理器 区域分解 近似最佳匹配层
下载PDF
基于GPU和Kinect的快速物体重建 被引量:50
16
作者 刘鑫 许华荣 胡占义 《自动化学报》 EI CSCD 北大核心 2012年第8期1288-1297,共10页
便宜的物体快速三维建模技术是当前计算机视觉领域重要的研究课题.给出了一种基于Kinect传感器的快速物体重建方法,以及基于该方法的一种图形处理器(Graphic processing unit,GPU)原型系统实现.本文方法主要分为两步:1)系统的初始标定;2... 便宜的物体快速三维建模技术是当前计算机视觉领域重要的研究课题.给出了一种基于Kinect传感器的快速物体重建方法,以及基于该方法的一种图形处理器(Graphic processing unit,GPU)原型系统实现.本文方法主要分为两步:1)系统的初始标定;2)全自动的物体重建.对于系统初始标定,提出了一种简单易用的粗标定方法;对于物体重建,提出一种全自动的快速物体重建方法.本文方法鲁棒性高,在出现点云配准错误时仍然能够稳定地得到较理想的重建模型.针对环闭合(Loop-closure)问题,提出了一种全局的点云配准方法.对几类物体的重建实验结果表明,本文方法方便实用,且能得到较好的重建效果.此外,本文还探索了有遮挡物体的重建问题.将本文方法应用于有遮挡物体的重建,也取得了较好的重建效果. 展开更多
关键词 三维物体建模 图形处理器 KINECT 遮挡问题 环闭合
下载PDF
基于图形处理器(GPU)的通用计算 被引量:227
17
作者 吴恩华 柳有权 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第5期601-612,共12页
伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年... 伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年来 ,随着图形处理器 (GPU)性能的大幅度提高以及可编程特性的发展 ,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移 除了计算机图形学本身的应用 ,涉及到其他领域的计算 ,以至于通用计算近 2~ 3年来成为GPU的应用之一 ,并成为研究热点 文中从若干图形硬件发展的历史开始 ,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况 。 展开更多
关键词 图形处理器 通用计算 gpu 图形硬件 可编程性 代数运算 性能分析
下载PDF
基于GPU的并行优化技术 被引量:23
18
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
下载PDF
基于GPU的MD5高速解密算法的实现 被引量:15
19
作者 乐德广 常晋义 +1 位作者 刘祥南 郭东辉 《计算机工程》 CAS CSCD 北大核心 2010年第11期154-155,158,共3页
MD5快速碰撞算法由于不支持逆向过程而无法在MD5密码攻击中得到实际应用。针对上述问题,通过分析基于图形处理单元(GPU)的MD5密码并行攻击算法原理,设计基于GPU的MD5高速解密算法,在此基础上实现一个MD5高速密码攻击系统。测试结果证明... MD5快速碰撞算法由于不支持逆向过程而无法在MD5密码攻击中得到实际应用。针对上述问题,通过分析基于图形处理单元(GPU)的MD5密码并行攻击算法原理,设计基于GPU的MD5高速解密算法,在此基础上实现一个MD5高速密码攻击系统。测试结果证明,该算法能有效加快MD5密码破解速度。 展开更多
关键词 MD5算法 密码学 图形处理单元
下载PDF
基于GPU并行算法的水动力数学模型建立及其效率分析 被引量:11
20
作者 赵旭东 梁书秀 +3 位作者 孙昭晨 刘忠波 韩松林 任喜峰 《大连理工大学学报》 EI CAS CSCD 北大核心 2014年第2期204-209,共6页
应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460... 应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460显卡和集群机的计算效率对比表明,在保持计算精度的前提下,速度提升了一个量级,且随着网格数的持续递增,可以保持较高的加速比增幅,比较适合应用于大范围海域的水动力模型的数值计算. 展开更多
关键词 gpu 非结构化网格 水动力模型
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部