期刊文献+
共找到99篇文章
< 1 2 5 >
每页显示 20 50 100
High-Performance Flow Classification of Big Data Using Hybrid CPU-GPU Clusters of Cloud Environments
1
作者 Azam Fazel-Najafabadi Mahdi Abbasi +5 位作者 Hani H.Attar Ayman Amer Amir Taherkordi Azad Shokrollahi Mohammad R.Khosravi Ahmed A.Solyman 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2024年第4期1118-1137,共20页
The network switches in the data plane of Software Defined Networking (SDN) are empowered by an elementary process, in which enormous number of packets which resemble big volumes of data are classified into specific f... The network switches in the data plane of Software Defined Networking (SDN) are empowered by an elementary process, in which enormous number of packets which resemble big volumes of data are classified into specific flows by matching them against a set of dynamic rules. This basic process accelerates the processing of data, so that instead of processing singular packets repeatedly, corresponding actions are performed on corresponding flows of packets. In this paper, first, we address limitations on a typical packet classification algorithm like Tuple Space Search (TSS). Then, we present a set of different scenarios to parallelize it on different parallel processing platforms, including Graphics Processing Units (GPUs), clusters of Central Processing Units (CPUs), and hybrid clusters. Experimental results show that the hybrid cluster provides the best platform for parallelizing packet classification algorithms, which promises the average throughput rate of 4.2 Million packets per second (Mpps). That is, the hybrid cluster produced by the integration of Compute Unified Device Architecture (CUDA), Message Passing Interface (MPI), and OpenMP programming model could classify 0.24 million packets per second more than the GPU cluster scheme. Such a packet classifier satisfies the required processing speed in the programmable network systems that would be used to communicate big medical data. 展开更多
关键词 OPENMP Compute Unified Device Architecture(CUDA) Message Passing Interface(MPI) packet classification medical data tuple space algorithm Graphics Processing Unit(gpu)cluster
原文传递
Implementation of the parallel mean shift-based imagesegmentation algorithm on a GPU cluster 被引量:3
2
作者 Fang Huang Yinjie Chen +4 位作者 Li Li Ji Zhou Jian Tao Xicheng Tan Guangsong Fana 《International Journal of Digital Earth》 SCIE EI 2019年第3期328-353,共26页
The mean shift image segmentation algorithm is very computationintensive. To address the need to deal with a large number of remotesensing (RS) image segmentations in real-world applications, this studyhas investigat... The mean shift image segmentation algorithm is very computationintensive. To address the need to deal with a large number of remotesensing (RS) image segmentations in real-world applications, this studyhas investigated the parallelization of the mean shift algorithm on asingle graphics processing unit (GPU) and a task-scheduling methodwith message passing interface (MPI)+OpenCL programming model on aGPU cluster platform. This paper presents the test results of the parallelmean shift image segmentation algorithm on Shelob, a GPU clusterplatform at Louisiana State University, with different datasets andparameters. The experimental results show that the proposed parallelalgorithm can achieve good speedups with different configurations andRS data and can provide an effective solution for RS image processingon a GPU cluster. 展开更多
关键词 Mean shift algorithm gpu cluster task scheduling MPI OPENCL
原文传递
基于GPU集群的空间VLBI射电源条纹搜索研究
3
作者 段学铭 童力 +1 位作者 郑为民 张娟 《天文学进展》 CSCD 北大核心 2024年第3期494-505,共12页
探月工程四期将发射嫦娥七号“鹊桥二号”中继星,搭载4.2 m口径的抛物面望远镜,与地面射电望远镜构成首个月轨空间VLBI。空间VLBI受中继星轨道扰动和星载设备时延等因素影响,射电源的预报时延模型无法引导相关处理机正常工作,需通过基... 探月工程四期将发射嫦娥七号“鹊桥二号”中继星,搭载4.2 m口径的抛物面望远镜,与地面射电望远镜构成首个月轨空间VLBI。空间VLBI受中继星轨道扰动和星载设备时延等因素影响,射电源的预报时延模型无法引导相关处理机正常工作,需通过基于实测信号条纹搜索的方法找到符合要求的高精度时延模型。为此,提出一种基于GPU集群的空间VLBI射电源条纹搜索算法,研究在GPU集群上负载均衡的任务分配方法,并行实现相关处理模块和残余值搜索模块。通过RadioAstron 1 min观测数据验证,相较于目前CPU集群平台,GPU集群处理速度提升了27.0倍。 展开更多
关键词 空间VLBI 条纹搜索 gpu集群 相关处理
下载PDF
容器集群GPU资源共享调度优化
4
作者 罗恋 顾进广 +1 位作者 李奇缘 高峰 《计算机应用与软件》 北大核心 2024年第7期207-214,共8页
在容器集群环境中,整块的物理GPU资源通常只能被单个容器独享调度,存在大量的资源浪费。现有的GPU共享调度方案中仍存在调度失败、资源开销大或没有实现资源隔离的问题,改进的GPU Sharing利用LD_PRELOAD机制有效地实现了GPU显存资源的隔... 在容器集群环境中,整块的物理GPU资源通常只能被单个容器独享调度,存在大量的资源浪费。现有的GPU共享调度方案中仍存在调度失败、资源开销大或没有实现资源隔离的问题,改进的GPU Sharing利用LD_PRELOAD机制有效地实现了GPU显存资源的隔离,并优化了原有的调度算法,极大提高了集群显存资源的利用率。实验结果验证了改进后GPU Sharing在资源隔离实现上的有效性,同时,改进后的GPU Sharing同在物理机上执行应用程序只多了1.008%的额外开销,而且优化后的调度算法提高了53.01%的GPU显存利用率。 展开更多
关键词 gpu集群 gpu共享调度 容器 资源共享 gpu利用率
下载PDF
应用GPU集群加速计算蛋白质分子场 被引量:12
5
作者 张繁 王章野 +2 位作者 姚建 吴韬 彭群生 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期412-419,共8页
针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为... 针对生物化学计算中采用量子化学理论计算蛋白质分子场所带来的巨大计算量的问题,搭建起一个GPU集群系统,用来加速计算基于量子化学的蛋白质分子场.该系统采用消息传递并行编程环境(MPI)连接集群各结点,以开放多线程OpenMP编程标准作为多核CPU编程环境,以CUDA语言作为GPU编程环境,提出并实现了集群系统结点中GPU和多核CPU协同计算的并行加速架构优化设计.在保持较高计算精度的前提下,结合MPI,OpenMP和CUDA混合编程模式,大大提高了系统的计算性能,并对不同体系和规模的蛋白质分子场模拟进行了计算分析.与相应的CPU集群、GPU单机和CPU单机计算方法对比,该GPU集群大幅度地提高了高分辨率复杂蛋白质分子场模拟的计算效率,比CPU集群的平均计算加速比提高了7.5倍. 展开更多
关键词 gpu集群 蛋白质分子场模拟 并行加速架构设计
下载PDF
GPU集群上的三维UPML-FDTD算法的实现及优化 被引量:6
6
作者 徐磊 徐莹 +1 位作者 蒋荣琳 张丹丹 《计算机工程与科学》 CSCD 北大核心 2013年第11期160-167,共8页
在高性能计算领域,拥有强大浮点计算能力的协处理器正在快速发展。近年来,利用协处理器(如GPU)来加速时域有限差分FDTD算法的计算过程成为电磁研究领域的热点问题。在GPU集群上实现了三维UPML-FDTD算法并进行了优化。采用电偶极子激励... 在高性能计算领域,拥有强大浮点计算能力的协处理器正在快速发展。近年来,利用协处理器(如GPU)来加速时域有限差分FDTD算法的计算过程成为电磁研究领域的热点问题。在GPU集群上实现了三维UPML-FDTD算法并进行了优化。采用电偶极子激励源对算法的模拟结果同解析解进行了验证,结果表明该算法具有较高的精度;同时,在NVIDIA Tesla M2070和K20mGPU集群上对FDTD算法的性能进行测试,对优化前后的计算结果以及GPU与CPU的计算性能进行了比较,并使用80块NVIDIA Tesla K20mGPU进行了可扩展性测试。从本文的研究结果可以看出,经过优化的FDTD算法性能有了较大的提升,而且FDTD算法在GPU集群上获得了比较理想的并行效率。 展开更多
关键词 FDTD UPML gpu集群 MPI
下载PDF
多指标自趋优的GPU集群能耗控制模型 被引量:6
7
作者 王海峰 陈庆奎 《计算机研究与发展》 EI CSCD 北大核心 2015年第1期105-115,共11页
在大规模流数据实时处理领域中图形处理器(graphics processing unit,GPU)集群是一种重要的并行计算系统,对计算速度、能耗和可靠性3项指标都有较高要求.然而各指标互相约束,在实时计算中需要动态寻找最优均衡点,因此GPU集群中多项性能... 在大规模流数据实时处理领域中图形处理器(graphics processing unit,GPU)集群是一种重要的并行计算系统,对计算速度、能耗和可靠性3项指标都有较高要求.然而各指标互相约束,在实时计算中需要动态寻找最优均衡点,因此GPU集群中多项性能指标实时优化成为一个具有挑战性的问题.为综合考虑计算速度、能耗和可靠性3项指标,利用极大熵函数法把多项指标转化为一个综合性能评价指标,再以模型预测控制理论为基础构造一个自适应强的控制模型,该模型能够依据计算负载的变化动态调整集群内节点的能耗状态,在保证计算速度和可靠性的前提下消减冗余计算能耗.与未考虑可靠性的基准控制模型进行对比实验,结果表明所提出的模型具有较好的控制稳定性和鲁棒性,适合应用到GPU集群节能管理中. 展开更多
关键词 能耗优化 可靠性 gpu集群 模型预测 极大熵函数
下载PDF
面向通用计算GPU集群的任务自动分配系统 被引量:2
8
作者 胡新明 盛冲冲 +1 位作者 李佳佳 吴百锋 《计算机工程》 CAS CSCD 2014年第3期103-107,119,共6页
当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的... 当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的方式提供集群任务的计算资源需求,通过运行时系统动态地发现、建立并维护系统资源拓扑,设计一种较为契合GPU集群应用特征的任务分配策略。实验结果表明,StreamMAP系统能降低集群应用程序的编程复杂度,使之较为高效地利用GPU集群的计算资源,且程序的可移植性和可扩展性也得到了保证。 展开更多
关键词 gpu集群 异构 编程模型 任务分配 可移植性 可扩展性
下载PDF
基于蓝牙4.0的GPU集群功耗测量系统设计 被引量:8
9
作者 李杰 陈庆奎 《电子测量与仪器学报》 CSCD 2014年第3期314-319,共6页
为了给GPU集群低功耗优化研究提供依据,在蓝牙4.0技术的基础上,设计了一种无线GPU集群功耗测量系统。给出系统的总体架构和硬件设计方案,详细介绍了电流传感器ACS711的测量原理,并针对蓝牙无线传感器网络中节点对耗电量的高要求,提出了... 为了给GPU集群低功耗优化研究提供依据,在蓝牙4.0技术的基础上,设计了一种无线GPU集群功耗测量系统。给出系统的总体架构和硬件设计方案,详细介绍了电流传感器ACS711的测量原理,并针对蓝牙无线传感器网络中节点对耗电量的高要求,提出了一种基于RSSI的动态节能机制;然后对系统的性能参数进行了实验分析,其丢包率和测量误差分别为0.01%和0.65%;最终将系统部署到"大规模3G视频分析GPU集群"上进行实际测试研究。实验结果表明,系统性能稳定,丢包率低,测量误差小,能准确测量GPU集群的实时功耗。 展开更多
关键词 gpu集群 功耗 测量系统 蓝牙4 0 节能机制
下载PDF
基于集群和GPU的高光谱遥感影像并行处理 被引量:7
10
作者 王茂芝 郭科 徐文皙 《红外与激光工程》 EI CSCD 北大核心 2013年第11期3070-3075,共6页
以高光谱遥感影像数据处理中的主成分分析(PCA)和最小噪声分离(MNF)以及光谱相关系数填图(SCM)算法的并行化为目标,分别在集群环境下基于MPI设计并实现了协方差矩阵并行算法,以及基于GPU设计并实现了SCM并行算法,并在高光谱遥感影像数... 以高光谱遥感影像数据处理中的主成分分析(PCA)和最小噪声分离(MNF)以及光谱相关系数填图(SCM)算法的并行化为目标,分别在集群环境下基于MPI设计并实现了协方差矩阵并行算法,以及基于GPU设计并实现了SCM并行算法,并在高光谱遥感影像数据处理中得到应用和验证。实验结果表明,高光谱遥感影像数据处理高性能计算对于提高和改善其时间性能具有显著效果,是高光谱遥感工程化应用快速处理重要的技术手段。 展开更多
关键词 高光谱遥感 高性能计算 集群 gpu
下载PDF
基于多GPU集群的编程框架 被引量:3
11
作者 王刚 唐杰 武港山 《计算机技术与发展》 2014年第1期9-13,共5页
现如今,GPU作为一种低功耗高性能图形处理器单元,被广泛应用于高度并行化的应用程序中。其线程和内存的层次结构在诸多成功的多线程应用和科学研究中表现出巨大的优势。为了简化多GPU集群的编程模式以及更好地利用GPU的计算性能,设计并... 现如今,GPU作为一种低功耗高性能图形处理器单元,被广泛应用于高度并行化的应用程序中。其线程和内存的层次结构在诸多成功的多线程应用和科学研究中表现出巨大的优势。为了简化多GPU集群的编程模式以及更好地利用GPU的计算性能,设计并实现了一个新的基于多GPU的MapReduce并行编程框架。使用了并行虚拟文件系统(PVFS)来存储数据,考虑了动态的负载平衡和GPU相关的权重要素以达到优化系统的效率、透明性以及系统的可伸缩性的目的。在文中,将演示使用该编程模式解决地质应用的一个典型的偏移应用-叠前时间偏移(PKTM),并给出实验结果。 展开更多
关键词 gpu集群 MAPREDUCE 地震偏移 负载平衡
下载PDF
面向集群环境的虚拟化GPU计算平台 被引量:8
12
作者 杨经纬 马凯 龙翔 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2016年第11期2340-2348,共9页
针对集群系统的多节点多GPU环境,提出一种新型虚拟化GPU计算平台.该平台实现对集群系统所有节点上GPU资源的统一抽象与管理,构建公共GPU资源池.原有GPU应用程序可以不经任何修改而迁移到虚拟化GPU计算平台,并具备访问资源池内任何GPU的... 针对集群系统的多节点多GPU环境,提出一种新型虚拟化GPU计算平台.该平台实现对集群系统所有节点上GPU资源的统一抽象与管理,构建公共GPU资源池.原有GPU应用程序可以不经任何修改而迁移到虚拟化GPU计算平台,并具备访问资源池内任何GPU的能力,编程人员无需显式针对多节点多GPU应用展开MPI编程.应用程序摆脱了单个节点上GPU资源的限制,并具备无差别地访问集群系统中任何可用GPU资源的能力,能有效提高系统总体资源利用率以及吞吐量.采用流水化通信技术,实现对虚拟化GPU计算平台的运行时开销以及节点间数据传输延迟的隐藏.实验表明:与非流水化通信相比,系统总体数据传输延迟降低了50%~70%,具备与节点机本地数据传输等同的通信性能. 展开更多
关键词 gpu MPI CUDA 集群系统 硬件加速 并行计算 高性能计算
下载PDF
GPU集群能耗优化控制模型研究 被引量:3
13
作者 王海峰 曹云鹏 《电子学报》 EI CAS CSCD 北大核心 2015年第10期1904-1910,共7页
随着大数据技术的发展,GPU集群作为一种高效的并行系统被应用到大规模数据实时计算中.能量是实时计算时重要的资源,GPU集群的能耗优化及实时消减成为一个具有挑战性的问题.从集群全局角度引入模型预测控制策略,并建立闭环反馈机制的多... 随着大数据技术的发展,GPU集群作为一种高效的并行系统被应用到大规模数据实时计算中.能量是实时计算时重要的资源,GPU集群的能耗优化及实时消减成为一个具有挑战性的问题.从集群全局角度引入模型预测控制策略,并建立闭环反馈机制的多输入多输出控制器.通过调整计算频率和改变活跃流多处理器来改变能耗状态,利用反馈和滚动优化机制完成对未来的控制预判,实现消减冗余能耗的目标.实验表明:控制模型的精度和节能效果优于基准模型,而且具有较好的稳定性,适合应用到大规模数据实时计算中. 展开更多
关键词 能耗控制 gpu集群 能量消减 模型预测
下载PDF
平行散点图:基于GPU的可视化分析方法 被引量:7
14
作者 杨珂 罗琼 石教英 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2008年第9期1219-1228,共10页
提出一种分析多维数据集之间关系的信息可视化方法——平行散点图.结合平行坐标、散点图方法,综合了焦点+背景、多视角、多视图、刷子等交互与可视化策略,使人有效地观察与分析多维数据集之间的连接关系;利用统一渲染GPU对粒子、线段、... 提出一种分析多维数据集之间关系的信息可视化方法——平行散点图.结合平行坐标、散点图方法,综合了焦点+背景、多视角、多视图、刷子等交互与可视化策略,使人有效地观察与分析多维数据集之间的连接关系;利用统一渲染GPU对粒子、线段、公告牌等的绘制与输出功能,在千万级数据集上达到较强的深度感与交互级的绘制性能;提出GPU上基于空间填充曲线的聚类算法,可交互式地降低连接线的视觉杂乱度;将连接、聚类与可视化整合为一个基于GPU的系统,在千万级数据集上达到交互级的可视化分析. 展开更多
关键词 信息可视化 gpu 多维数据 连接 聚类
下载PDF
GPU集群加速近似逆预条件CG并行求解器 被引量:1
15
作者 赵莲 赵永华 +1 位作者 陈尧 赵慰 《计算机科学与探索》 CSCD 北大核心 2015年第9期1084-1092,共9页
针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边... 针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法。基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题。基于CPU与GPU协同计算、主机端页锁定内存和设备端计算与通信重叠的优化技术,实现了并行近似逆预条件与共轭梯度(conjugate gradient,CG)算法相结合的线性方程组混合并行求解器。数值实验表明,所提方法对AINV和SSOR-AI两类近似逆预条件,在多GPU上获得了很好的可扩展性和加速效果。 展开更多
关键词 近似逆 预条件 迭代法 异构并行计算 gpu集群
下载PDF
基于GPU的二部图联合聚类并行算法研究 被引量:4
16
作者 张宇 刘坡 +2 位作者 杨敏华 龚建华 黄明详 《地理与地理信息科学》 CSCD 北大核心 2013年第4期99-103,108,共6页
提出一种基于GPU的二部图联合聚类并行算法,它能够在单指令多线程模型下完成高性能并行计算。针对空间联合聚类算法中存在大量的空间聚类计算和约束判断计算(文中为求和计算),并行算法分别采用共享存储器和全局存储器加速技术,来提高算... 提出一种基于GPU的二部图联合聚类并行算法,它能够在单指令多线程模型下完成高性能并行计算。针对空间联合聚类算法中存在大量的空间聚类计算和约束判断计算(文中为求和计算),并行算法分别采用共享存储器和全局存储器加速技术,来提高算法执行的效率。该文以表示同一地区多时相、多比例尺的两个空间要素集的聚类为例,表明二部图并行算法比CPU串行算法最高可以获得858倍的加速比。GPU的实时处理能力和计算能力可以为海量的空间数据聚类提供新的思路和参考。 展开更多
关键词 gpu 并行计算 空间聚类 二部图 邻接矩阵
下载PDF
基于CPU-GPU异构机群的FDTD并行算法加速研究 被引量:1
17
作者 邵宗有 王昭顺 刘新春 《系统仿真学报》 CAS CSCD 北大核心 2013年第2期235-240,共6页
时域有限差分法(FDTD)求解电磁学中麦克斯韦方程组是科学与工程计算中一个非常重要的算法。通过对FDTD求解麦克斯韦旋度方程的直接时间域的分析,给出其基于多个GPU组成异构机群系统上的并行加速算法,用OpenCL、CUDA和MPI编程模型实现了... 时域有限差分法(FDTD)求解电磁学中麦克斯韦方程组是科学与工程计算中一个非常重要的算法。通过对FDTD求解麦克斯韦旋度方程的直接时间域的分析,给出其基于多个GPU组成异构机群系统上的并行加速算法,用OpenCL、CUDA和MPI编程模型实现了并行程序。在目前的主流NVIDIA和ATI的GPU平台上,加速的并行FDTD程序相对CPU串行程序和8个CPU核的MPI并行程序,分别获得了超过8倍和1.5倍的加速,并在多个GPU卡上获得了接近线性加速的扩展性能。 展开更多
关键词 电磁场仿真 时域有限差分法 gpu 机群
下载PDF
GPU加速的基于增量式聚类的视频拷贝检测方法 被引量:5
18
作者 任化敏 张勇东 林守勋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期449-456,共8页
为有效地保护版权,提高大规模视频集的拷贝检测速度,提出一种完全实现在GPU上的基于增量式聚类的拷贝检测方法.对数据库中新增加的视频,首先调用GPU上的硬件解码单元对视频流解码,以实时的速度提取高维SIFT特征点;然后对特征点进行增量K... 为有效地保护版权,提高大规模视频集的拷贝检测速度,提出一种完全实现在GPU上的基于增量式聚类的拷贝检测方法.对数据库中新增加的视频,首先调用GPU上的硬件解码单元对视频流解码,以实时的速度提取高维SIFT特征点;然后对特征点进行增量K-means聚类,以动态地反映数据库的变化,并根据聚类结果更新视觉关键词词典;再将每帧表示成归一化的词频向量;最后使用基于帧级别词频向量的时空顺序匹配法来判定查询视频是否为数据库中视频的拷贝.实验结果表明,该方法比原有的CPU实现方法整体提速最高达63倍. 展开更多
关键词 拷贝检测 增量聚类 视觉关键词 图形处理器 计算统一设备架构
下载PDF
用户QoS感知的GPU集群深度学习任务动态调度 被引量:3
19
作者 罗磊 陈照云 王俪璇 《计算机工程与科学》 CSCD 北大核心 2021年第8期1331-1340,共10页
提出一种GPU集群下用户服务质量QoS感知的深度学习研发平台上的动态任务调度方法。采用离线评估模块对深度学习任务进行离线评测并构建计算性能预测模型。在线调度模块基于性能预测模型,结合任务的预期QoS,共同开展任务放置和任务执行... 提出一种GPU集群下用户服务质量QoS感知的深度学习研发平台上的动态任务调度方法。采用离线评估模块对深度学习任务进行离线评测并构建计算性能预测模型。在线调度模块基于性能预测模型,结合任务的预期QoS,共同开展任务放置和任务执行顺序的调度。在一个分布式GPU集群实例上的实验表明,该方法相比其他基准策略能够实现更高的QoS保证率和集群资源利用率。 展开更多
关键词 深度学习 gpu集群 任务调度 QOS
下载PDF
基于GPU集群的大规模三维有限差分正演模拟并行策略 被引量:4
20
作者 廉西猛 张睿璇 《物探与化探》 CAS CSCD 2015年第3期615-620,共6页
三维弹性波动方程有限差分正演模拟的低效率问题是导致该算法无法在大规模实际生产中应用的最重要的原因,使用GPU平台进行加速又面临GPU显存的限制。针对这一问题,提出了一种基于CPU/GPU的异构集群环境的并行加速解决方案。通过使用CPU/... 三维弹性波动方程有限差分正演模拟的低效率问题是导致该算法无法在大规模实际生产中应用的最重要的原因,使用GPU平台进行加速又面临GPU显存的限制。针对这一问题,提出了一种基于CPU/GPU的异构集群环境的并行加速解决方案。通过使用CPU/GPU协同并行模式和区域分解方法,实现了该算法的多级并行策略,并提出了非阻塞通讯、存储优化和基于MPI-IO的并行读写等方法,对程序的执行效率和存储使用进行了优化,为大规模实际生产应用提供了有效支撑。 展开更多
关键词 大规模三维正演 CPU/gpu集群 区域分解 存储优化 并行读写
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部