期刊文献+
共找到853篇文章
< 1 2 43 >
每页显示 20 50 100
A Rayleigh Wave Globally Optimal Full Waveform Inversion Framework Based on GPU Parallel Computing
1
作者 Zhao Le Wei Zhang +3 位作者 Xin Rong Yiming Wang Wentao Jin Zhengxuan Cao 《Journal of Geoscience and Environment Protection》 2023年第3期327-338,共12页
Conventional gradient-based full waveform inversion (FWI) is a local optimization, which is highly dependent on the initial model and prone to trapping in local minima. Globally optimal FWI that can overcome this limi... Conventional gradient-based full waveform inversion (FWI) is a local optimization, which is highly dependent on the initial model and prone to trapping in local minima. Globally optimal FWI that can overcome this limitation is particularly attractive, but is currently limited by the huge amount of calculation. In this paper, we propose a globally optimal FWI framework based on GPU parallel computing, which greatly improves the efficiency, and is expected to make globally optimal FWI more widely used. In this framework, we simplify and recombine the model parameters, and optimize the model iteratively. Each iteration contains hundreds of individuals, each individual is independent of the other, and each individual contains forward modeling and cost function calculation. The framework is suitable for a variety of globally optimal algorithms, and we test the framework with particle swarm optimization algorithm for example. Both the synthetic and field examples achieve good results, indicating the effectiveness of the framework. . 展开更多
关键词 Full Waveform Inversion Finite-Difference Method Globally Optimal Framework gpu parallel Computing Particle Swarm Optimization
下载PDF
Regularized focusing inversion for large-scale gravity data based on GPU parallel computing
2
作者 WANG Haoran DING Yidan +1 位作者 LI Feida LI Jing 《Global Geology》 2019年第3期179-187,共9页
Processing large-scale 3-D gravity data is an important topic in geophysics field. Many existing inversion methods lack the competence of processing massive data and practical application capacity. This study proposes... Processing large-scale 3-D gravity data is an important topic in geophysics field. Many existing inversion methods lack the competence of processing massive data and practical application capacity. This study proposes the application of GPU parallel processing technology to the focusing inversion method, aiming at improving the inversion accuracy while speeding up calculation and reducing the memory consumption, thus obtaining the fast and reliable inversion results for large complex model. In this paper, equivalent storage of geometric trellis is used to calculate the sensitivity matrix, and the inversion is based on GPU parallel computing technology. The parallel computing program that is optimized by reducing data transfer, access restrictions and instruction restrictions as well as latency hiding greatly reduces the memory usage, speeds up the calculation, and makes the fast inversion of large models possible. By comparing and analyzing the computing speed of traditional single thread CPU method and CUDA-based GPU parallel technology, the excellent acceleration performance of GPU parallel computing is verified, which provides ideas for practical application of some theoretical inversion methods restricted by computing speed and computer memory. The model test verifies that the focusing inversion method can overcome the problem of severe skin effect and ambiguity of geological body boundary. Moreover, the increase of the model cells and inversion data can more clearly depict the boundary position of the abnormal body and delineate its specific shape. 展开更多
关键词 LARGE-SCALE gravity data gpu parallel computing CUDA equivalent geometric TRELLIS FOCUSING INVERSION
下载PDF
A Hybrid Parallel Strategy for Isogeometric Topology Optimization via CPU/GPU Heterogeneous Computing
3
作者 Zhaohui Xia Baichuan Gao +3 位作者 Chen Yu Haotian Han Haobo Zhang Shuting Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第2期1103-1137,共35页
This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstr... This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstrategy of CPU/GPU is proposed, while the hybrid parallel strategies for stiffness matrix assembly, equationsolving, sensitivity analysis, and design variable update are discussed in detail. To ensure the high efficiency ofCPU/GPU computing, a workload balancing strategy is presented for optimally distributing the workload betweenCPU and GPU. To illustrate the advantages of the proposedmethod, three benchmark examples are tested to verifythe hybrid parallel strategy in this paper. The results show that the efficiency of the hybrid method is faster thanserial CPU and parallel GPU, while the speedups can be up to two orders of magnitude. 展开更多
关键词 Topology optimization high-efficiency isogeometric analysis CPU/gpu parallel computing hybrid OpenMPCUDA
下载PDF
间断Galerkin有限元隐式算法GPU并行化研究
4
作者 高缓钦 陈红全 +1 位作者 贾雪松 徐圣冠 《空气动力学学报》 CSCD 北大核心 2024年第2期21-33,I0001,共14页
为了提高间断伽辽金(discontinuous Galerkin,DG)有限元方法的计算效率,围绕求解Euler方程,构建了基于图形处理器(graphics processing unit,GPU)并行加速的隐式DG算法。算法结合Roe格式进行空间离散,采用人工黏性法处理激波等间断问题... 为了提高间断伽辽金(discontinuous Galerkin,DG)有限元方法的计算效率,围绕求解Euler方程,构建了基于图形处理器(graphics processing unit,GPU)并行加速的隐式DG算法。算法结合Roe格式进行空间离散,采用人工黏性法处理激波等间断问题,时间推进选用下上对称高斯-赛德尔(lower-upper symmetric Gauss-Seidel,LU-SGS)隐式格式。为了克服传统隐式格式固有的数据关联依赖问题,借助于本文提出的面向任意网格的单元着色分组技术,先给出了LUSGS隐式格式的并行化改造,使得隐式时间推进能按颜色组别依次并行,由于同一颜色组内算法已不存在数据关联,可以据此实现并行化。在此基础上,再结合DG算法局部紧致等特点,基于统一计算设备架构(compute unified device architecture,CUDA)编程模型,设计了依据单元的核函数,并构建了对应的线程与数据结构,给出了DG有限元隐式GPU并行算法。最后,发展的算法通过了多个二维和三维典型流动算例考核与性能测试,展示出隐式算法GPU加速的效果,且获得的计算结果能与现有的文献或实验数据接近。 展开更多
关键词 间断伽辽金方法 LU-SGS隐式格式 gpu并行化 单元着色分组 EULER方程
下载PDF
基于GPU加速的分布式水文模型并行计算性能
5
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
下载PDF
面向GPU架构的CCFD-KSSolver组件设计和实现
6
作者 张浩源 马文鹏 +2 位作者 袁武 张鉴 陆忠华 《数据与计算发展前沿》 CSCD 2024年第1期68-78,共11页
【应用背景】在如计算流体力学和材料科学等高性能应用领域中,大型稀疏线性方程的求解直接影响高性能应用的效率与精度。异构众核已成为现代超算系统体系结构的重要特征和发展趋势。【方法】本文面向CPU+GPU异构超算系统设计并实现了线... 【应用背景】在如计算流体力学和材料科学等高性能应用领域中,大型稀疏线性方程的求解直接影响高性能应用的效率与精度。异构众核已成为现代超算系统体系结构的重要特征和发展趋势。【方法】本文面向CPU+GPU异构超算系统设计并实现了线性解法器组件CCFD-KSSolver。该组件针对异构体系结构特征,实现了针对多物理场块结构矩阵的Krylov子空间解法器和多种典型预处理方法,采用了如计算通信重叠、GPU访存优化、CPUGPU协同计算等优化技术提升CCFD-KSSolver的计算效率。【结果】顶盖驱动流的实验表明,当子区域数目为8时,Block-ISAI相比于CPU和cuSPARSE的子区域求解器分别取得20.09倍和3.34倍的加速比,且具有更好的扩展性;对于百万阶规模的矩阵,应用3种子区域求解器的KSSolver在8个GPU上的并行效率分别为83.8%、55.7%、87.4%。【结论】本文选择具有块结构的经典多物理中的应用对解法器及预处理软构件进行测试,证明其稳定高效性,有力支撑了以流体力学数值模拟为代表的高性能计算与应用在异构系统上的开展。 展开更多
关键词 gpu KSSolver 并行优化 预条件 高性能计算
下载PDF
基于容器化的快速射电暴搜寻GPU并行优化
7
作者 王玉明 吴开超 +1 位作者 牛晨辉 张晓丽 《数据与计算发展前沿》 CSCD 2024年第1期102-112,共11页
【应用背景】快速射电暴(Fast Radio Burst,FRB)搜寻是500米口径球面射电望远镜(FAST)的重要科学目标之一,其计算复杂度高,数据量大,当前算法GPU利用率偏低,数据处理需较多的人工介入操作。【目的】在不修改算法实现的前提下,实现进程级... 【应用背景】快速射电暴(Fast Radio Burst,FRB)搜寻是500米口径球面射电望远镜(FAST)的重要科学目标之一,其计算复杂度高,数据量大,当前算法GPU利用率偏低,数据处理需较多的人工介入操作。【目的】在不修改算法实现的前提下,实现进程级GPU并行优化,提高GPU整体资源利用率,简化算法运行调度,支持利用自动化脚本驱动计算过程。【方法】利用容器化封装FRB搜寻算法,结合GPU聚合技术实现多个FRB搜寻计算容器的多进程并行,支持GPU闲时复用。通过容器化封装屏蔽了GPU调用、依赖库管理等技术细节,减少人工介入操作。【结果】算法实验结果表明,在不修改原始算法、不增加GPU资源的前提下,将单GPU绑定6个计算进程,并行优化可实现FRB搜寻算法的加速比达到5.3,并行效率达到0.88,取得良好的并行效果。【结论】基于容器化封装及进程级GPU聚合的并行优化,可实现GPU利用率及计算效率的提升,有效支持自动化处理。该方法还具有良好的通用性,可适用于类似应用的并行优化。 展开更多
关键词 快速射电暴 容器化 进程级并行优化 gpu聚合
下载PDF
基于GPU的多天线组阵卫星信号合成
8
作者 王怡文 刘凯 《工业控制计算机》 2024年第1期76-78,共3页
为满足高速率卫星通信系统下接收端的高接收信噪比需求,设计了一种基于GPU的多天线组阵合成卫星信号的实现方法。基于全频谱合成的传统方案,加入数字下变频级联多相滤波的非均匀信道化模块,提升处理信号带宽内非均匀分布子信道的灵活性... 为满足高速率卫星通信系统下接收端的高接收信噪比需求,设计了一种基于GPU的多天线组阵合成卫星信号的实现方法。基于全频谱合成的传统方案,加入数字下变频级联多相滤波的非均匀信道化模块,提升处理信号带宽内非均匀分布子信道的灵活性,并采用CPU+GPU异构平台进行高效实现。经仿真及实际信号测试,结果表明该设计相较传统CPU平台实现取得约10~20倍的加速比,为接收端的信号实时处理提供可能性。 展开更多
关键词 多天线组阵 卫星信号 信号合成 gpu 并行设计
下载PDF
基于GPU加速的等几何拓扑优化高效多重网格求解方法
9
作者 杨峰 罗世杰 +1 位作者 杨江鸿 王英俊 《中国机械工程》 EI CAS CSCD 北大核心 2024年第4期602-613,共12页
针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映... 针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映射信息,从而提高求解速度。此外,对多重网格求解过程进行分析,构建其高效GPU并行算法。数值算例表明,所提出的求解方法与线性插值的多重网格共轭梯度法、代数多重网格共轭梯度法和预处理共轭梯度法相比分别取得了最高1.47、11.12和17.02的加速比。GPU并行求解相对于CPU串行求解的加速比高达33.86,显著提高了大规模线性方程组的求解效率。 展开更多
关键词 等几何拓扑优化 方程组求解 h细化 多重网格法 gpu并行计算
下载PDF
基于GPU的LBM迁移模块算法优化
10
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
下载PDF
基于Seed-PCG法的列车-轨道-地基土三维随机振动GPU并行计算方法
11
作者 朱志辉 冯杨 +2 位作者 杨啸 李昊 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第1期302-316,共15页
为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随... 为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随机振动分析产生的多右端项线性方程组求解问题,采用Seed-PCG方法进行求解。通过PCG方法求解种子系统得到的Krylov子空间进行投影,以改进其余线性方程组的初始解和对应的初始残量,有效提高了PCG法的收敛速度,最后,在MATLABCUDA混合平台上开发了并行计算程序。数值算例表明:相同计算平台下的该方法相比多点同步算法获得了104.2倍的加速;相比PCG法逐个求解方案减少了18%的迭代次数,获得了1.21倍的加速。 展开更多
关键词 Seed-PCG法 多右端项线性方程组 随机振动 gpu并行计算 列车-轨道-地基土耦合模型
下载PDF
Parallel Image Processing: Taking Grayscale Conversion Using OpenMP as an Example
12
作者 Bayan AlHumaidan Shahad Alghofaily +2 位作者 Maitha Al Qhahtani Sara Oudah Naya Nagy 《Journal of Computer and Communications》 2024年第2期1-10,共10页
In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularl... In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularly noteworthy in the field of image processing, which witnessed significant advancements. This parallel computing project explored the field of parallel image processing, with a focus on the grayscale conversion of colorful images. Our approach involved integrating OpenMP into our framework for parallelization to execute a critical image processing task: grayscale conversion. By using OpenMP, we strategically enhanced the overall performance of the conversion process by distributing the workload across multiple threads. The primary objectives of our project revolved around optimizing computation time and improving overall efficiency, particularly in the task of grayscale conversion of colorful images. Utilizing OpenMP for concurrent processing across multiple cores significantly reduced execution times through the effective distribution of tasks among these cores. The speedup values for various image sizes highlighted the efficacy of parallel processing, especially for large images. However, a detailed examination revealed a potential decline in parallelization efficiency with an increasing number of cores. This underscored the importance of a carefully optimized parallelization strategy, considering factors like load balancing and minimizing communication overhead. Despite challenges, the overall scalability and efficiency achieved with parallel image processing underscored OpenMP’s effectiveness in accelerating image manipulation tasks. 展开更多
关键词 parallel Computing Image Processing OPENMP parallel Programming High Performance Computing gpu (Graphic Processing Unit)
下载PDF
面向深度学习图像分类的GPU并行方法研究
13
作者 韩彦岭 沈思扬 +3 位作者 徐利军 王静 张云 周汝雁 《计算机工程》 CAS CSCD 北大核心 2023年第1期191-200,共10页
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加... 针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。 展开更多
关键词 gpu并行 Ring All Reduce算法 数据并行 模型并行 深度学习 图像分类
下载PDF
基于GPU和数据同化的深水湖库水温与溶解氧中短期预报
14
作者 孙博闻 宗庆志 +2 位作者 杨晰淯 张袁宁 高学平 《中国水利水电科学研究院学报(中英文)》 北大核心 2023年第1期95-103,共9页
深水水库通常存在季节性温度分层,由温度分层引起溶解氧等水质指标的分层还会诱发库区水环境水生态问题。当前在中短期时间尺度上对水库水温和溶解氧进行预报的研究相对较少,提高数学模型的模拟效率与精度对提升中短期预报效果至关重要... 深水水库通常存在季节性温度分层,由温度分层引起溶解氧等水质指标的分层还会诱发库区水环境水生态问题。当前在中短期时间尺度上对水库水温和溶解氧进行预报的研究相对较少,提高数学模型的模拟效率与精度对提升中短期预报效果至关重要。本文采用集合卡尔曼滤波算法作为同化方法,基于CE-QUAL-W2模型建立水库水动力水质数学模型,基于OpenACC的GPU并行方法提升模型计算效率,构建大黑汀水库水温与溶解氧的数据同化系统,在中短期时间尺度上开展水库水温与溶解氧高精度、高效率预报。预报结果符合水库水温与溶解氧的中短期变化规律,能够为大黑汀水库的供水与生态安全提供技术支撑。 展开更多
关键词 深水湖库 gpu并行计算 数据同化 中短期预报 溶解氧
下载PDF
增材制造中GPU并行扫描线填充算法
15
作者 李慧贤 马创新 马良 《热加工工艺》 北大核心 2023年第13期100-104,113,共6页
增材制造模型朝着大型化和精细化的趋势发展,对模型数据处理效率的要求越来越高。路径填充作为模型数据处理的一项重要环节,其效率直接影响模型的整体处理效率。本文重点研究基于GPU的并行化扫描线填充算法,采用轮廓预处理算法实现GPU... 增材制造模型朝着大型化和精细化的趋势发展,对模型数据处理效率的要求越来越高。路径填充作为模型数据处理的一项重要环节,其效率直接影响模型的整体处理效率。本文重点研究基于GPU的并行化扫描线填充算法,采用轮廓预处理算法实现GPU并行求交运算的负载平衡,提出基于哈希值的三维坐标快速排序算法,构造轮廓组序号+坐标哈希值压缩结构,实现扫描线GPU并行化填充求交计算。经实验验证,本算法可大大减少扫描线填充算法耗时,对大型或精细模型的处理效果更为明显。 展开更多
关键词 增材制造 切片 并行计算 gpu
下载PDF
基于GPU并行算法的景观斑块周长模拟测量仿真
16
作者 吴国荣 渠琛 《计算机仿真》 北大核心 2023年第3期280-284,共5页
针对景观斑块周长模拟测量过程中收敛速度较慢的问题,提出基于GPU并行算法的景观斑块周长模拟测量方法。通过航拍技术采集景观斑块航拍图像,利用纠偏处理过程与高斯滤波处理过程对景观斑块航拍图像进行预处理。将景观斑块航拍图像输入GP... 针对景观斑块周长模拟测量过程中收敛速度较慢的问题,提出基于GPU并行算法的景观斑块周长模拟测量方法。通过航拍技术采集景观斑块航拍图像,利用纠偏处理过程与高斯滤波处理过程对景观斑块航拍图像进行预处理。将景观斑块航拍图像输入GPU内,通过计算机GPU片段程序构建景观斑块航拍图像的高斯差分金字塔模型,并行运算过程提取景观斑块航拍图像特征点,确定景观斑块航拍图像中景观斑块的边界线。以边界线为基础,计算景观斑块周长。仿真测试结果显示,上述方法特征点提取过程中横轴与纵轴误差完全收敛时间分别为2.12s和1.80s,周长测量绝对误差与相对误差分别控制在0.60m和1.00%以下。 展开更多
关键词 并行算法 景观斑块周长 模拟测量 航拍图像 特征提取
下载PDF
基于CPU-GPU混合编程的显微镜图像实时拼接
17
作者 吴为民 刘新 +2 位作者 李伙钦 江先伟 杨华 《重庆科技学院学报(自然科学版)》 CAS 2023年第3期67-74,共8页
随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CP... 随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CPU则负责逻辑控制部分的计算,提高了整体的运算效率。实验结果表明,CPU-GPU混合编程模式有效地缩短了显微镜图像拼接时间,提高了拼接的流畅度和实时性。 展开更多
关键词 电子显微镜 实时拼接 并行计算 CPU-gpu混合编程
下载PDF
基于改进FPM法高维复杂多相分离过程的GPU并行计算研究 被引量:1
18
作者 甄玉洁 胥康 +1 位作者 蒋涛 任金莲 《应用数学和力学》 CSCD 北大核心 2023年第1期93-104,共12页
为了高效、准确地模拟高维多元Cahn-Hilliard(C-H)方程描述的复杂相分离过程,该文发展了一种基于纯无网格改进有限点集法(corrected finite pointset method,CFPM)和CPU-GPU异构的快速并行算法(简称为CFPMGPU).CFPM-GPU的构造过程为:①... 为了高效、准确地模拟高维多元Cahn-Hilliard(C-H)方程描述的复杂相分离过程,该文发展了一种基于纯无网格改进有限点集法(corrected finite pointset method,CFPM)和CPU-GPU异构的快速并行算法(简称为CFPMGPU).CFPM-GPU的构造过程为:①基于Taylor展开和加权最小二乘思想,采用Wendland权函数推导出空间一/二阶导数的有限点集法(finite pointset method,FPM)格式;②将多元C-H方程中四阶导数分为两个二阶导数,依次运用FPM对其离散得到C-H的改进FPM法(CFPM);③基于CUDA的单个GPU架构,首次给出了CFPM的一种并行算法以提高计算效率.数值研究中,首先对二维径向或三维球对称C-H方程描述的相分离基准算例进行了求解,并与可靠结果作对比验证了提出的并行算法的准确性和高效性,单个CPU-GPU异构并行计算效率约是串行情况的160倍;其次,运用CFPM-GPU对复杂区域上二维/三维的两相或三相分离现象进行数值预测,并与其他方法结果做比较.数值结果表明,给出的CFPM-GPU能准确、高效地模拟二维/三维复杂区域上的多相分离过程. 展开更多
关键词 FPM格式 三维多相分离 多元Cahn-Hilliard gpu并行
下载PDF
基于GPU并行加速变压器二维瞬态流场问题的研究及应用 被引量:1
19
作者 任增强 刘刚 +1 位作者 靳立鹏 武卫革 《华北电力大学学报(自然科学版)》 CAS 北大核心 2023年第6期66-75,共10页
针对采用无量纲最小二乘有限元法计算变压器二维瞬态流体场问题时计算时间长,效率低的问题,拟采用GPU对瞬态流体场程序进行并行加速。将瞬态流体场计算程序中计算量最大的两部分,即单元刚度阵的形成和稀疏线性方程组的求解,移植到GPU上... 针对采用无量纲最小二乘有限元法计算变压器二维瞬态流体场问题时计算时间长,效率低的问题,拟采用GPU对瞬态流体场程序进行并行加速。将瞬态流体场计算程序中计算量最大的两部分,即单元刚度阵的形成和稀疏线性方程组的求解,移植到GPU上运算,从而大幅减少计算时间。同时采用十字链表法和CSR稀疏存储结构存储方程组稀疏矩阵中的非零元素,以降低内存消耗。使用方腔驱动流模型验证了GPU并行程序的有效性,并且并行程序加速比随方腔模型规模的增大而增大。将GPU并行程序应用于变压器绕组模型的瞬态流体场仿真分析,分析结果表明,相较于串行程序,GPU并行程序加速比达到16倍左右。论文所实现的基于GPU并行计算方法为产品级变压器瞬态流体场仿真奠定了基础。 展开更多
关键词 无量纲最小二乘有限元 瞬态流体场 gpu 并行计算
下载PDF
Study of a GPU-based parallel computing method for the Monte Carlo program 被引量:2
20
作者 罗志飞 邱睿 +3 位作者 李明 武祯 曾志 李君利 《Nuclear Science and Techniques》 SCIE CAS CSCD 2014年第A01期27-30,共4页
关键词 并行计算方法 蒙特卡罗程序 gpu GEANT4 模拟程序 蒙特卡洛方法 并行处理能力 图形处理单元
下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部