期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究
1
作者 林拥真 徐传福 +4 位作者 邱昊中 汪青松 王正华 杨富翔 李洁 《计算机科学》 CSCD 北大核心 2024年第9期31-39,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦... DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化。在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 异构并行 mpi+cuda
下载PDF
MPI+CUDA联合加速重力场反演的并行算法
2
作者 赵锴坤 朱炬波 +1 位作者 谷德峰 韦春博 《大地测量与地球动力学》 CSCD 北大核心 2024年第4期423-428,共6页
针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速... 针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速;基于CUDA编写大规模矩阵相乘的并行加速程序,并针对不同类型的矩阵进行适配,同时联合MPI将法矩阵的计算过程进一步细分,实现对分进程内存峰值的压缩。在单机上完成30阶与120阶重力场仿真解算任务,结果表明,反演30阶重力场时加速比可达180;反演120阶重力场时,并行计算单次迭代仅耗时2 h,而串行模式下无法计算。 展开更多
关键词 重力场 并行计算 cuda mpi
下载PDF
基于大地电磁二维反演的MPI和CUDA并行算法研究 被引量:4
3
作者 汪茂 谭捍东 +1 位作者 林昌洪 胡志明 《科学技术与工程》 北大核心 2017年第10期225-230,共6页
大地电磁测深法属于天然场源的电磁勘探方法,是以岩石的电性差异为基础和前提的勘探方法。所采用的大地电磁二维反演方法为共轭梯度法,该方法避免了求解雅可比矩阵,效率较高,但是在将模型剖分较细时,多频率进行计算时效率有待提高。基... 大地电磁测深法属于天然场源的电磁勘探方法,是以岩石的电性差异为基础和前提的勘探方法。所采用的大地电磁二维反演方法为共轭梯度法,该方法避免了求解雅可比矩阵,效率较高,但是在将模型剖分较细时,多频率进行计算时效率有待提高。基于大地电磁频率依次独立处理数据的特点,采用了MPI的并行算法来提高效率,为了使得计算效率更高,在MPI的基础上增加了CUDA并行运算方法,用多个进程同时来计算各频率数据,在求解方程的过程中采用CUDA进行加速,得到计算结果。通过对正演和反演图的比较,验证了程序的正确性。对并行算法的效率进行了统计,进程数为2~4时,加速比能达到2.15~3.09,比单一的MPI并行算法的加速比要高,验证了程序的有效性。 展开更多
关键词 大地电磁 二维正反演 共轭梯度 mpi cuda
下载PDF
基于SMP集群的MPI+CUDA模型的研究与实现 被引量:10
4
作者 许彦芹 陈庆奎 《计算机工程与设计》 CSCD 北大核心 2010年第15期3408-3412,共5页
为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩... 为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力。实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略。 展开更多
关键词 消息传递接口 统一计算设备架构 集群 混合编程 支持cuda的GPU
下载PDF
基于MPI+CUDA的异构并行可压缩流求解器 被引量:7
5
作者 刘枫 李桦 +1 位作者 田正雨 潘沙 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第1期6-10,共5页
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数... 在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求解器鲁棒性好,计算效率较CPU同构并行计算提高10倍以上。 展开更多
关键词 消息传递接口 统一计算设备架构 异构计算 可压缩流
下载PDF
CUDA、MPI和OpenMP三级混合并行模型的研究 被引量:9
6
作者 滕人达 刘青昆 《微计算机应用》 2010年第9期63-69,共7页
采用CUDA+MPI+OpenMP的三级并行编程模式,实现节点间的粗粒度并行,节点内的细粒度并行以及将GPU作为并行计算设备的CUDA编程模型。这种新的三级并行混合编程模式为SMP机群提供了一种更为高效的并行策略。本文讨论了三级并行编程环境的... 采用CUDA+MPI+OpenMP的三级并行编程模式,实现节点间的粗粒度并行,节点内的细粒度并行以及将GPU作为并行计算设备的CUDA编程模型。这种新的三级并行混合编程模式为SMP机群提供了一种更为高效的并行策略。本文讨论了三级并行编程环境的快速搭建以及多粒度混合并行编程方法,并在多个节点的机群环境中完成测试工作。 展开更多
关键词 cuda mpi OPENMP 图形处理器 机群系统
下载PDF
基于MPI+CUDA环境的静电相互作用能并行求解 被引量:1
7
作者 刘青昆 马名威 +1 位作者 杨荣杰 宫利东 《计算机应用与软件》 CSCD 北大核心 2012年第11期35-38,共4页
ABEEMσπ(Atom-Bond Electronegativity EqualizationσπModel)模型中,原串行程序求静电相互作用能的方法非常耗时,致使研究问题的效率降低。针对原程序中多个循环相互嵌套的求解部分,采用带状卷帘存储迭代分配的MPI(Message Passing ... ABEEMσπ(Atom-Bond Electronegativity EqualizationσπModel)模型中,原串行程序求静电相互作用能的方法非常耗时,致使研究问题的效率降低。针对原程序中多个循环相互嵌套的求解部分,采用带状卷帘存储迭代分配的MPI(Message Passing Inter-face)并行化处理;对体系中所有原子、σ键、孤对电子、π键位点之间的静电相互作用能采用多线程CUDA(Computer Unified DeviceArchitecture)并行化处理。传统MPI+CUDA环境中,GPU和CPU之间的数据传输开销大,导致整体性能下降以及各种粒子间计算串行调用CUDA,致使时间浪费。针对上述情况,使用GPU核心的缓存机制解决传输开销大的问题,并利用多CUDA流技术实现多个循环异步进行计算,从而缩短了运行时间。然后选取多个不同类型的大分子体系进行测试,结果表明,利用改进的MPI+CUDA并行模型进行动力学模拟,并行加速比显著提高,大幅度缩减了求解静电相互作用能的时间,并得到与串行一致的结果。 展开更多
关键词 原子-键电负性均衡σπ模型 静电子相互作用能 并行计算 消息传递接口 统一计算设备架构
下载PDF
基于MPI+CUDA异步模型的并行矩阵乘法 被引量:2
8
作者 刘青昆 马名威 阎慰椿 《计算机应用》 CSCD 北大核心 2011年第12期3327-3330,共4页
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型... 矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。 展开更多
关键词 矩阵乘法 并行计算 混合编程 消息传递接口 统一计算设备架构
下载PDF
基于MPI和CUDA的蛋白质定量软件的设计和分析
9
作者 詹科 王靖 +1 位作者 袁良 张云泉 《计算机科学》 CSCD 北大核心 2013年第3期36-37,54,共3页
介绍了蛋白质定量软件的设计及测试结果,分析结果表明:P-QuantWiz软件在曙光6000的Intel集群部分,测试规模达到2048核,在256核加速比仍在增加。相对P-QuantWiz软件在单CPU运行的结果,PG-QuantWiz软件在单GPU运行的加速比为8.1,在16个GP... 介绍了蛋白质定量软件的设计及测试结果,分析结果表明:P-QuantWiz软件在曙光6000的Intel集群部分,测试规模达到2048核,在256核加速比仍在增加。相对P-QuantWiz软件在单CPU运行的结果,PG-QuantWiz软件在单GPU运行的加速比为8.1,在16个GPU上运行的加速比为14.18,并行效率为89%。 展开更多
关键词 mpi cuda 蛋白质定量
下载PDF
基于MPI-CUDA的K-T算法太阳高分辨图像重建
10
作者 杨秋萍 宋振旗 +1 位作者 邓辉 王锋 《天文研究与技术》 CSCD 2018年第3期354-360,共7页
大气湍流导致地基望远镜成像模糊,高分辨图像重建是解决这一问题的有效方法,K-T高分辨图像重建方法是其中常用的一种,但存在数据大、计算复杂等因素的制约,导致重建非常耗时。针对当前中央处理器与图形处理器混合架构下的高分辨图像重... 大气湍流导致地基望远镜成像模糊,高分辨图像重建是解决这一问题的有效方法,K-T高分辨图像重建方法是其中常用的一种,但存在数据大、计算复杂等因素的制约,导致重建非常耗时。针对当前中央处理器与图形处理器混合架构下的高分辨图像重建开展研究,采用MPI-CUDA混合并行技术,最终实现了一套在单机图形处理器环境下基于斑点图像重建技术的高分辨太阳图像重建系统。通过实验验证,与单一的信息传递接口并行相比,图像子块的处理速度有了显著提升,在8个子进程下整个流程的加速比达到了2。实验结果表明,MPI-CUDA混合并行的有效性,能够为天文研究中的大规模计算任务提供借鉴和参考。 展开更多
关键词 高分辨重建 mpi-cuda 并行计算
下载PDF
基于GPU的分布式并行CFD计算方法
11
作者 丁一丹 吴之南 +2 位作者 范志君 潘雅欣 汪龙飞 《民用飞机设计与研究》 2024年第2期33-43,共11页
计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉... 计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉及复杂的湍流、反应流和多相流,涉及到大网格量级计算和大批量状态计算,因此需要大量的计算资源。为了提高计算效率,提出了一种基于图形处理单元(graphic processing unit,简称GPU)的分布式并行计算方法。该方法利用统一计算设备架构(compute unified device architecture,简称CUDA)和消息传递接口技术(message passing interface,简称MPI),在GPU上进行并行计算,并使用MPI在多GPU之间进行通信。该方法实现了计算任务和数据传输的并行化,并进行了多流并行优化和非阻塞通信优化,实现了GPU之间的负载均衡。同时将该方法应用于超音速平板流这个典型的CFD案例中,与CPU串行计算相比,单GPU获取了204倍的加速比,4GPU实现了近640倍的加速比,两节点8GPU获得了900倍以上的加速比。这表明该方法具有较好的并行效率和计算性能,在一定程度上解决了CFD应用的计算资源需求问题。 展开更多
关键词 CFD GPU并行计算 cuda mpi 分布式
下载PDF
软硬结合解码方式的4K视频播放系统 被引量:3
12
作者 徐圣凯 潘飞 《计算机系统应用》 2017年第4期91-94,共4页
针对4K视频数据量很大,传统的CPU软件解码技术无法满足性能要求.设计了一种软硬结合解码方式的4K视频播放系统,采用DirectShow和NVIDIA CUDA技术进行GPU硬件解码.系统功能包括硬件系统信息获取,视频源读取,视频硬解码和视频显示.实验结... 针对4K视频数据量很大,传统的CPU软件解码技术无法满足性能要求.设计了一种软硬结合解码方式的4K视频播放系统,采用DirectShow和NVIDIA CUDA技术进行GPU硬件解码.系统功能包括硬件系统信息获取,视频源读取,视频硬解码和视频显示.实验结果表明,此播放系统在进行4K视频解码播放时,既保障了视频效果,又极大降低了CPU使用率. 展开更多
关键词 4K 软硬结合解码 DIRECTSHOW cuda CPU使用率
下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
13
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
基于CPU/GPU集群的编程的研究 被引量:2
14
作者 刘钢锋 《微电子学与计算机》 CSCD 北大核心 2013年第2期128-131,共4页
随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结... 随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结合的方式进行GPU集群程序的测试,并分析了CPU/GPU集群并行环境下的运行特点.从分析的特点中总结出GPU集群较优策略,从而为提高CPU/GPU并行程序性能提供科学依据. 展开更多
关键词 GPU CPU的混合计算 结合mpi与cuda
下载PDF
面向集群环境的虚拟化GPU计算平台 被引量:8
15
作者 杨经纬 马凯 龙翔 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2016年第11期2340-2348,共9页
针对集群系统的多节点多GPU环境,提出一种新型虚拟化GPU计算平台.该平台实现对集群系统所有节点上GPU资源的统一抽象与管理,构建公共GPU资源池.原有GPU应用程序可以不经任何修改而迁移到虚拟化GPU计算平台,并具备访问资源池内任何GPU的... 针对集群系统的多节点多GPU环境,提出一种新型虚拟化GPU计算平台.该平台实现对集群系统所有节点上GPU资源的统一抽象与管理,构建公共GPU资源池.原有GPU应用程序可以不经任何修改而迁移到虚拟化GPU计算平台,并具备访问资源池内任何GPU的能力,编程人员无需显式针对多节点多GPU应用展开MPI编程.应用程序摆脱了单个节点上GPU资源的限制,并具备无差别地访问集群系统中任何可用GPU资源的能力,能有效提高系统总体资源利用率以及吞吐量.采用流水化通信技术,实现对虚拟化GPU计算平台的运行时开销以及节点间数据传输延迟的隐藏.实验表明:与非流水化通信相比,系统总体数据传输延迟降低了50%~70%,具备与节点机本地数据传输等同的通信性能. 展开更多
关键词 GPU mpi cuda 集群系统 硬件加速 并行计算 高性能计算
下载PDF
一种基于GPU集群的深度优先并行算法设计与实现 被引量:6
16
作者 余莹 李肯立 郑光勇 《计算机科学》 CSCD 北大核心 2015年第1期82-85,共4页
深度优先搜索算法在GPU集群中大型图上的简单执行,会导致线程间的负载不平衡和无法合并内存访问的情况,这使得算法的性能较低。为了明显提高算法在单个GPU和多个GPU环境下的性能,在处理数据之前通过采取一系列有效的操作来进行重新编排... 深度优先搜索算法在GPU集群中大型图上的简单执行,会导致线程间的负载不平衡和无法合并内存访问的情况,这使得算法的性能较低。为了明显提高算法在单个GPU和多个GPU环境下的性能,在处理数据之前通过采取一系列有效的操作来进行重新编排。提出了构造线程和数据之间映射的新技术,通过利用前缀求和及二分查找操作来达到完美的负载平衡。为了降低通信开销,对DFS各分支中需要进行交换的边集执行修剪操作。实验结果表明,算法在单个GPU上可以尽可能地实现最佳的并行性,在多GPU环境下可以最小化通信开销。在一个GPU集群中,它可以对含有数十亿节点的图有效地执行分布式DFS。 展开更多
关键词 GPU 深度优先搜索(DFS) 分布式算法 cuda mpi
下载PDF
一种跨平台的并行编程框架设计与实现 被引量:1
17
作者 李婷 徐云 +1 位作者 聂鹏宇 潘玮华 《计算机工程》 CAS CSCD 2014年第8期43-47,共5页
并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数... 并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数设计了统一的函数接口,使底层平台的变化对上层应用程序透明。根据底层函数库的开发,给出一种填充式的编程方法和任务调度系统。将OpenCH应用于遥感影像分类,实验结果证明,基于该框架开发的并行程序可运行于多种并行计算平台,并具有较高的并行加速比,编程框架本身造成的时间开销低于15%。 展开更多
关键词 并行计算 并行编程框架 跨平台 OpenMP编程 mpi编程 cuda编程
下载PDF
Multi-GPU加速的二元合金定向凝固三维相场模型 被引量:1
18
作者 朱昶胜 徐升 +1 位作者 冯力 李浩 《兰州理工大学学报》 CAS 北大核心 2018年第6期24-29,共6页
基于三维相场模型,使用MPI+CUDA异构协同并行技术,在GPU集群上建立三维合金定向凝固的MultiGPU计算模型,实现了Al-Cu二元合金三维定向凝固的模拟.再现了Al-Cu二元合金三维定向凝固的过程,以及不同取向晶粒间的竞争生长现象.通过与传统CP... 基于三维相场模型,使用MPI+CUDA异构协同并行技术,在GPU集群上建立三维合金定向凝固的MultiGPU计算模型,实现了Al-Cu二元合金三维定向凝固的模拟.再现了Al-Cu二元合金三维定向凝固的过程,以及不同取向晶粒间的竞争生长现象.通过与传统CPU串行计算模型相比较,验证了Multi-GPU计算模型的计算效率和加速效果.实现了二元合金定向凝固的加速模拟计算,其加速比最大可达57.7. 展开更多
关键词 Multi-GPU mpi+cuda 定向凝固 相场法
下载PDF
基于混合编程模型的支持向量机训练并行化 被引量:2
19
作者 李涛 刘学臣 +2 位作者 张帅 王恺 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1098-1108,共11页
支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储... 支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力. 展开更多
关键词 支持向量机训练 计算统一设备架构 消息传递接口 页锁定内存 CPU-GPU异构系统
下载PDF
克希霍夫时间偏移在GPU集群上的MPI/CUDA混合编程实现 被引量:2
20
作者 刘芳 邓笋根 +2 位作者 聂宁明 王彦棡 王珏 《科研信息化技术与应用》 2012年第5期34-41,共8页
本文介绍了二维/三维克希霍夫时间偏移计算在GPU集群上的MPI/CUDA混合编程实现。系统的主体结构基于经典的主从模式,采用MPI进程-pthread线程-CUDA线程三个层次的并行架构,以及CPU/GPU协同计算并行架构和策略来设计实现。每个计算... 本文介绍了二维/三维克希霍夫时间偏移计算在GPU集群上的MPI/CUDA混合编程实现。系统的主体结构基于经典的主从模式,采用MPI进程-pthread线程-CUDA线程三个层次的并行架构,以及CPU/GPU协同计算并行架构和策略来设计实现。每个计算节点由一个多核CPU和多个GPU设备组成。输入数据在主节点上载入,平均分配到从节点上,存储到相应的磁盘空间内,并根据各节点的可用资源将数据划分为多块。每个从节点分别接收主节点发送的数据并存储到本地磁盘上的临时文件内。根据检测到的可用GPU设备数,每个从节点上创建同样数目的线程来一对一控制各个GPU。各从节点上每个数据块再进一步划分为大小相等的块一一分配给各个线程,由每个线程逐道在CPU上预处理后传送到GPU上处理,道内的各成像点分别由各CUDA线程并行处理。每个数据块偏移由每个线程内的相关道累加计算而得,结果返回到主节点上累加后输出到磁盘文件内。在实现过程中,采用CPU/GPU协同计算以及线}生插值走时的方式来进一步提高性能。系统性能在一典型异构GPU集群上测试,每个节点由一个配置8GB内存的四核CPU,以及配置6GB显存的C1060型号的GPU组成。对于不同的规模和积分计算模式,在该平台上的测试结果表明,本文实现的系统的性能对于包含相同计算节点数、每个节点上4个线程并行计算的MPI版本,可以达到平均约5~10倍的加速。 展开更多
关键词 地震勘探资料数据处理 克希霍夫时间偏移 协同计算 mpi cuda
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部