期刊文献+
共找到2,241篇文章
< 1 2 113 >
每页显示 20 50 100
A Hybrid Parallel Strategy for Isogeometric Topology Optimization via CPU/GPU Heterogeneous Computing
1
作者 Zhaohui Xia Baichuan Gao +3 位作者 Chen Yu Haotian Han Haobo Zhang Shuting Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第2期1103-1137,共35页
This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstr... This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstrategy of CPU/GPU is proposed, while the hybrid parallel strategies for stiffness matrix assembly, equationsolving, sensitivity analysis, and design variable update are discussed in detail. To ensure the high efficiency ofCPU/GPU computing, a workload balancing strategy is presented for optimally distributing the workload betweenCPU and GPU. To illustrate the advantages of the proposedmethod, three benchmark examples are tested to verifythe hybrid parallel strategy in this paper. The results show that the efficiency of the hybrid method is faster thanserial CPU and parallel GPU, while the speedups can be up to two orders of magnitude. 展开更多
关键词 Topology optimization high-efficiency isogeometric analysis CPU/gpu parallel computing hybrid OpenMPCUDA
下载PDF
融合GPU的拟单层覆盖近似集计算方法
2
作者 吴正江 吕成功 王梦松 《计算机工程》 CAS CSCD 北大核心 2024年第5期71-82,共12页
拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算... 拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算过程。为了实现这一目标,使用布尔矩阵表示拟单层覆盖近似空间中的元素,引入与集合运算对应的布尔矩阵算子,提出拟单层覆盖粗糙近似集(DE、DA、DE0与DA0)的矩阵表示,并设计矩阵化拟单层覆盖近似集算法(M_SMC)。同时,相应的定理证明了拟单层覆盖近似集的矩阵表示形式与原始定义的等价性。然而,M_SMC运行过程中出现了矩阵存储和计算步骤的内存消耗过多问题。为了将算法部署到显存有限的GPU上,优化矩阵存储和计算步骤,提出分批处理的矩阵化拟单层覆盖近似集算法(BM_SMC)。在10个数据集上的实验结果表明,融合GPU的BM_SMC算法与单纯使用中央处理器(CPU)的BM_SMC算法相比计算效率提高2.16~11.3倍,BM_SMC算法可以在有限的存储空间条件下充分利用GPU,能够有效地提高拟单层覆盖近似集的计算效率。 展开更多
关键词 拟单层覆盖近似集 集值信息系统 矩阵化 gpu加速 分批处理
下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式
3
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(gpu)
下载PDF
GPU异构计算环境中长短时记忆网络模型的应用及优化
4
作者 梁桂才 梁思成 陆莹 《计算机应用文摘》 2024年第10期37-41,共5页
随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包... 随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包括门控循环单元、丢弃法、Adam与双向长短时记忆网络等);其次,提出了在GPU上执行的一系列优化方法,如CuDNN库的应用及并行计算的设计等。最终,通过实验分析了以上优化方法在训练时间、验证集性能、测试集性能、超参数和硬件资源使用等方面的差异。 展开更多
关键词 gpu异构 长短时记忆网络 门控循环单元 ADAM DROPOUT CuDNN
下载PDF
混合现实中基于GPU虚拟化的AI计算优化
5
作者 梁桂才 李玉荣 《通信与信息技术》 2024年第2期114-120,共7页
研究探讨混合现实(MR)应用中,通过GPU虚拟化优化AI计算,聚焦于多任务调度与资源共享。研究提出了一个模型,其包含一种根据任务优先级、资源需求和等待时间,动态为正在执行的任务分配GPU资源的机制。同时,模型采用优化的多任务调度算法,... 研究探讨混合现实(MR)应用中,通过GPU虚拟化优化AI计算,聚焦于多任务调度与资源共享。研究提出了一个模型,其包含一种根据任务优先级、资源需求和等待时间,动态为正在执行的任务分配GPU资源的机制。同时,模型采用优化的多任务调度算法,以提高调度效率。实验结果表明,尽管在单任务性能测试中模型的执行时间、GPU利用率和内存使用方面略逊于物理GPU,但在多任务并发和资源共享方面,研究提出的模型展现了显著优势。未来研究将探索设计更公平高效的资源共享策略,以及进一步优化多任务调度算法。 展开更多
关键词 混合现实 AI计算 多任务调度 资源共享 gpu虚拟化
下载PDF
GNNSched:面向GPU的图神经网络推理任务调度框架 被引量:1
6
作者 孙庆骁 刘轶 +4 位作者 杨海龙 王一晴 贾婕 栾钟治 钱德沛 《计算机工程与科学》 CSCD 北大核心 2024年第1期1-11,共11页
由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并... 由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并发任务的显存占用情况,以确保并发任务在GPU上的成功共置。此外,多租户场景提交的推理任务亟需灵活的调度策略,以满足并发推理任务的服务质量要求。为了解决上述问题,提出了GNNSched,其在GPU上高效管理GNN推理任务的共置运行。具体来说,GNNSched将并发推理任务组织为队列,并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组,这些任务组被迭代地提交到GPU并发执行。实验结果表明,GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。 展开更多
关键词 图神经网络 图形处理器 推理框架 任务调度 估计模型
下载PDF
面向GPU架构的CCFD-KSSolver组件设计和实现
7
作者 张浩源 马文鹏 +2 位作者 袁武 张鉴 陆忠华 《数据与计算发展前沿》 CSCD 2024年第1期68-78,共11页
【应用背景】在如计算流体力学和材料科学等高性能应用领域中,大型稀疏线性方程的求解直接影响高性能应用的效率与精度。异构众核已成为现代超算系统体系结构的重要特征和发展趋势。【方法】本文面向CPU+GPU异构超算系统设计并实现了线... 【应用背景】在如计算流体力学和材料科学等高性能应用领域中,大型稀疏线性方程的求解直接影响高性能应用的效率与精度。异构众核已成为现代超算系统体系结构的重要特征和发展趋势。【方法】本文面向CPU+GPU异构超算系统设计并实现了线性解法器组件CCFD-KSSolver。该组件针对异构体系结构特征,实现了针对多物理场块结构矩阵的Krylov子空间解法器和多种典型预处理方法,采用了如计算通信重叠、GPU访存优化、CPUGPU协同计算等优化技术提升CCFD-KSSolver的计算效率。【结果】顶盖驱动流的实验表明,当子区域数目为8时,Block-ISAI相比于CPU和cuSPARSE的子区域求解器分别取得20.09倍和3.34倍的加速比,且具有更好的扩展性;对于百万阶规模的矩阵,应用3种子区域求解器的KSSolver在8个GPU上的并行效率分别为83.8%、55.7%、87.4%。【结论】本文选择具有块结构的经典多物理中的应用对解法器及预处理软构件进行测试,证明其稳定高效性,有力支撑了以流体力学数值模拟为代表的高性能计算与应用在异构系统上的开展。 展开更多
关键词 gpu KSSolver 并行优化 预条件 高性能计算
下载PDF
基于GPU加速的分布式水文模型并行计算性能
8
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
下载PDF
An incompressible flow solver on a GPU/CPU heterogeneous architecture parallel computing platform
9
作者 Qianqian Li Rong Li Zixuan Yang 《Theoretical & Applied Mechanics Letters》 CSCD 2023年第5期387-393,共7页
A computational fluid dynamics(CFD)solver for a GPU/CPU heterogeneous architecture parallel computing platform is developed to simulate incompressible flows on billion-level grid points.To solve the Poisson equation,t... A computational fluid dynamics(CFD)solver for a GPU/CPU heterogeneous architecture parallel computing platform is developed to simulate incompressible flows on billion-level grid points.To solve the Poisson equation,the conjugate gradient method is used as a basic solver,and a Chebyshev method in combination with a Jacobi sub-preconditioner is used as a preconditioner.The developed CFD solver shows good performance on parallel efficiency,which exceeds 90%in the weak-scalability test when the number of grid points allocated to each GPU card is greater than 2083.In the acceleration test,it is found that running a simulation with 10403 grid points on 125 GPU cards accelerates by 203.6x over the same number of CPU cores.The developed solver is then tested in the context of a two-dimensional lid-driven cavity flow and three-dimensional Taylor-Green vortex flow.The results are consistent with previous results in the literature. 展开更多
关键词 gpu Acceleration Parallel computing Poisson equation PRECONDITIONER
下载PDF
A Rayleigh Wave Globally Optimal Full Waveform Inversion Framework Based on GPU Parallel Computing
10
作者 Zhao Le Wei Zhang +3 位作者 Xin Rong Yiming Wang Wentao Jin Zhengxuan Cao 《Journal of Geoscience and Environment Protection》 2023年第3期327-338,共12页
Conventional gradient-based full waveform inversion (FWI) is a local optimization, which is highly dependent on the initial model and prone to trapping in local minima. Globally optimal FWI that can overcome this limi... Conventional gradient-based full waveform inversion (FWI) is a local optimization, which is highly dependent on the initial model and prone to trapping in local minima. Globally optimal FWI that can overcome this limitation is particularly attractive, but is currently limited by the huge amount of calculation. In this paper, we propose a globally optimal FWI framework based on GPU parallel computing, which greatly improves the efficiency, and is expected to make globally optimal FWI more widely used. In this framework, we simplify and recombine the model parameters, and optimize the model iteratively. Each iteration contains hundreds of individuals, each individual is independent of the other, and each individual contains forward modeling and cost function calculation. The framework is suitable for a variety of globally optimal algorithms, and we test the framework with particle swarm optimization algorithm for example. Both the synthetic and field examples achieve good results, indicating the effectiveness of the framework. . 展开更多
关键词 Full Waveform Inversion Finite-Difference Method Globally Optimal Framework gpu Parallel computing Particle Swarm Optimization
下载PDF
面向GPU并行编程的线程同步综述
11
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(GPgpu) 并行编程 线程同步 性能优化
下载PDF
基于GPU的LBM迁移模块算法优化
12
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
下载PDF
基于GPU的视频SAR加速处理架构
13
作者 朱爽 刘彦斌 刘亚波 《电子技术应用》 2024年第6期18-22,共5页
视频合成孔径雷达(Video Synthetic Aperture Radar,ViSAR)可对目标区域实现动态监测,具备低时延、高分辨率的特点。高性能计算是ViSAR系统的关键技术。为满足ViSAR系统的实时性要求,提出了一种基于图形处理器(Graphics Processing Unit... 视频合成孔径雷达(Video Synthetic Aperture Radar,ViSAR)可对目标区域实现动态监测,具备低时延、高分辨率的特点。高性能计算是ViSAR系统的关键技术。为满足ViSAR系统的实时性要求,提出了一种基于图形处理器(Graphics Processing Unit,GPU)的ViSAR成像方案。该方案将极坐标格式算法(Polar Format Algorithm,PFA)部署到GPU上,使用并发流技术、异步并行技术等方法进行优化,并结合SAR成像的帧率与数据重叠率之间的关系,充分发挥GPU的计算性能。结果表明:本架构处理单张尺寸大小为2048×2048的数据耗时0.17 s,较中央处理器(Central Processing Unit,CPU)平均加速32.8倍,有效解决了ViSAR系统的实时成像问题。 展开更多
关键词 视频SAR 高性能计算 图形处理器 实时成像
下载PDF
基于GPU加速的等几何拓扑优化高效多重网格求解方法
14
作者 杨峰 罗世杰 +1 位作者 杨江鸿 王英俊 《中国机械工程》 EI CAS CSCD 北大核心 2024年第4期602-613,共12页
针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映... 针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映射信息,从而提高求解速度。此外,对多重网格求解过程进行分析,构建其高效GPU并行算法。数值算例表明,所提出的求解方法与线性插值的多重网格共轭梯度法、代数多重网格共轭梯度法和预处理共轭梯度法相比分别取得了最高1.47、11.12和17.02的加速比。GPU并行求解相对于CPU串行求解的加速比高达33.86,显著提高了大规模线性方程组的求解效率。 展开更多
关键词 等几何拓扑优化 方程组求解 h细化 多重网格法 gpu并行计算
下载PDF
Time Predictable Modeling Method for GPU Architecture with SIMT and Cache Miss Awareness
15
作者 Shaojie Zhang 《Journal of Electronic Research and Application》 2024年第2期109-115,共7页
Graphics Processing Units(GPUs)are used to accelerate computing-intensive tasks,such as neural networks,data analysis,high-performance computing,etc.In the past decade or so,researchers have done a lot of work on GPU ... Graphics Processing Units(GPUs)are used to accelerate computing-intensive tasks,such as neural networks,data analysis,high-performance computing,etc.In the past decade or so,researchers have done a lot of work on GPU architecture and proposed a variety of theories and methods to study the microarchitectural characteristics of various GPUs.In this study,the GPU serves as a co-processor and works together with the CPU in an embedded real-time system to handle computationally intensive tasks.It models the architecture of the GPU and further considers it based on some excellent work.The SIMT mechanism and Cache-miss situation provide a more detailed analysis of the GPU architecture.In order to verify the GPU architecture model proposed in this article,10 GPU kernel_task and an Nvidia GPU device were used to perform experiments.The experimental results showed that the minimum error between the kernel task execution time predicted by the GPU architecture model proposed in this article and the actual measured kernel task execution time was 3.80%,and the maximum error was 8.30%. 展开更多
关键词 Heterogeneous computing gpu Architecture modeling Time predictability
下载PDF
基于Seed-PCG法的列车-轨道-地基土三维随机振动GPU并行计算方法
16
作者 朱志辉 冯杨 +2 位作者 杨啸 李昊 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第1期302-316,共15页
为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随... 为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随机振动分析产生的多右端项线性方程组求解问题,采用Seed-PCG方法进行求解。通过PCG方法求解种子系统得到的Krylov子空间进行投影,以改进其余线性方程组的初始解和对应的初始残量,有效提高了PCG法的收敛速度,最后,在MATLABCUDA混合平台上开发了并行计算程序。数值算例表明:相同计算平台下的该方法相比多点同步算法获得了104.2倍的加速;相比PCG法逐个求解方案减少了18%的迭代次数,获得了1.21倍的加速。 展开更多
关键词 Seed-PCG法 多右端项线性方程组 随机振动 gpu并行计算 列车-轨道-地基土耦合模型
下载PDF
基于GPU的实景三维模型裁剪算法研究
17
作者 马东岭 李铭通 朱悦凯 《山东建筑大学学报》 2024年第1期108-116,共9页
图形处理器(Graphic Processing Unit,GPU)作为主流高性能计算的加速设备,已越来越多地应用于诸多领域的并行计算中,利用GPU的并行计算能力,可以极大地提高传统算法的计算效率。文章主要研究GPU多线程计算方法与统一计算架构(Compute Un... 图形处理器(Graphic Processing Unit,GPU)作为主流高性能计算的加速设备,已越来越多地应用于诸多领域的并行计算中,利用GPU的并行计算能力,可以极大地提高传统算法的计算效率。文章主要研究GPU多线程计算方法与统一计算架构(Compute Unified Device Architecture,CUDA)技术在实景三维模型裁剪中的应用,提出了一种基于GPU的实景三维模型裁剪算法,包括设计了基于面拓扑的多级索引结构,以实现线程内重复交点快速查找;提出了一种轻量多边形三角化方法,优化算法流程;使用多种优化策略,在不影响裁剪网格质量的情况下进一步提高算法的性能。结果表明:根据模型大小与裁剪次数的不同,相较于传统算法,所提方法在单次裁剪的情况下加速比可达13.93,在多次裁剪的情况下加速比可达35.85,显著地提高了模型的裁剪效率。 展开更多
关键词 图形处理器 实景三维模型 三角网裁剪 并行计算
下载PDF
增材制造中GPU并行扫描线填充算法
18
作者 李慧贤 马创新 马良 《热加工工艺》 北大核心 2023年第13期100-104,113,共6页
增材制造模型朝着大型化和精细化的趋势发展,对模型数据处理效率的要求越来越高。路径填充作为模型数据处理的一项重要环节,其效率直接影响模型的整体处理效率。本文重点研究基于GPU的并行化扫描线填充算法,采用轮廓预处理算法实现GPU... 增材制造模型朝着大型化和精细化的趋势发展,对模型数据处理效率的要求越来越高。路径填充作为模型数据处理的一项重要环节,其效率直接影响模型的整体处理效率。本文重点研究基于GPU的并行化扫描线填充算法,采用轮廓预处理算法实现GPU并行求交运算的负载平衡,提出基于哈希值的三维坐标快速排序算法,构造轮廓组序号+坐标哈希值压缩结构,实现扫描线GPU并行化填充求交计算。经实验验证,本算法可大大减少扫描线填充算法耗时,对大型或精细模型的处理效果更为明显。 展开更多
关键词 增材制造 切片 并行计算 gpu
下载PDF
基于CPU-GPU混合编程的显微镜图像实时拼接
19
作者 吴为民 刘新 +2 位作者 李伙钦 江先伟 杨华 《重庆科技学院学报(自然科学版)》 CAS 2023年第3期67-74,共8页
随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CP... 随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CPU则负责逻辑控制部分的计算,提高了整体的运算效率。实验结果表明,CPU-GPU混合编程模式有效地缩短了显微镜图像拼接时间,提高了拼接的流畅度和实时性。 展开更多
关键词 电子显微镜 实时拼接 并行计算 CPU-gpu混合编程
下载PDF
基于GPU和数据同化的深水湖库水温与溶解氧中短期预报
20
作者 孙博闻 宗庆志 +2 位作者 杨晰淯 张袁宁 高学平 《中国水利水电科学研究院学报(中英文)》 北大核心 2023年第1期95-103,共9页
深水水库通常存在季节性温度分层,由温度分层引起溶解氧等水质指标的分层还会诱发库区水环境水生态问题。当前在中短期时间尺度上对水库水温和溶解氧进行预报的研究相对较少,提高数学模型的模拟效率与精度对提升中短期预报效果至关重要... 深水水库通常存在季节性温度分层,由温度分层引起溶解氧等水质指标的分层还会诱发库区水环境水生态问题。当前在中短期时间尺度上对水库水温和溶解氧进行预报的研究相对较少,提高数学模型的模拟效率与精度对提升中短期预报效果至关重要。本文采用集合卡尔曼滤波算法作为同化方法,基于CE-QUAL-W2模型建立水库水动力水质数学模型,基于OpenACC的GPU并行方法提升模型计算效率,构建大黑汀水库水温与溶解氧的数据同化系统,在中短期时间尺度上开展水库水温与溶解氧高精度、高效率预报。预报结果符合水库水温与溶解氧的中短期变化规律,能够为大黑汀水库的供水与生态安全提供技术支撑。 展开更多
关键词 深水湖库 gpu并行计算 数据同化 中短期预报 溶解氧
下载PDF
上一页 1 2 113 下一页 到第
使用帮助 返回顶部