期刊文献+
共找到20,241篇文章
< 1 2 250 >
每页显示 20 50 100
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:1
1
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpugpu平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
协同CPU和GPU的核密度估计及其可视化算法
2
作者 胡森 高苏 蔡忠亮 《地理空间信息》 2024年第6期29-33,47,共6页
大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控... 大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控制能力、GPU的并行计算能力以及OpenGL中的核心模式,并借助显存映射,同时优化了核密度估计的计算和可视化2方面。实验结果表明,相较于CPU并行和串行算法,该算法的执行效率分别提高了约5倍和20倍,且随着图像分辨率的提高,加速比呈现逐步上升的趋势。 展开更多
关键词 核密度估计 可视化 gpu OPENGL 统一计算架构
下载PDF
基于CPU+GPU混合架构的雷达信号处理方法
3
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+gpu 混合架构 信号处理 多核DSP
下载PDF
A Hybrid Parallel Strategy for Isogeometric Topology Optimization via CPU/GPU Heterogeneous Computing
4
作者 Zhaohui Xia Baichuan Gao +3 位作者 Chen Yu Haotian Han Haobo Zhang Shuting Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第2期1103-1137,共35页
This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstr... This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstrategy of CPU/GPU is proposed, while the hybrid parallel strategies for stiffness matrix assembly, equationsolving, sensitivity analysis, and design variable update are discussed in detail. To ensure the high efficiency ofCPU/GPU computing, a workload balancing strategy is presented for optimally distributing the workload betweenCPU and GPU. To illustrate the advantages of the proposedmethod, three benchmark examples are tested to verifythe hybrid parallel strategy in this paper. The results show that the efficiency of the hybrid method is faster thanserial CPU and parallel GPU, while the speedups can be up to two orders of magnitude. 展开更多
关键词 Topology optimization high-efficiency isogeometric analysis cpu/gpu parallel computing hybrid OpenMPCUDA
下载PDF
基于嵌入式CPU+GPU异构平台的遥感图像滤波加速
5
作者 谭鹏源 薛长斌 周莉 《空间科学学报》 CAS CSCD 北大核心 2024年第1期95-102,共8页
针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采... 针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采取向量化和向量重组以及工作组调优方法进一步提高了算法的运行速度.在嵌入式开发板上验证了加速设计的可行性和高效性.实验结果表明,相比于单CPU的串行实现,在增加GPU并行处理后的拉普拉斯滤波获得了4.08~16.92倍的加速比.进一步利用GPU硬件资源优化性能后,加速比可达15.38~56.41倍. 展开更多
关键词 嵌入式gpu 遥感图像滤波 OPENCL 向量化 向量重组
下载PDF
基于GPU\CPU协同并行计算的逆时偏移系统的实现策略
6
作者 韩超(文/图) 《能源新观察》 2024年第10期57-59,共3页
在石油天然气地震勘探数据处理方法中,逆时深度偏移以其近似条件要求低、成像精度高而一直是地震成像技术的发展方向。随着PC—Cluster集群的普及,逆时深度偏移的计算瓶颈开始得到解决,跨进了真正工业应用的门槛;而近年来通用用途GPU并... 在石油天然气地震勘探数据处理方法中,逆时深度偏移以其近似条件要求低、成像精度高而一直是地震成像技术的发展方向。随着PC—Cluster集群的普及,逆时深度偏移的计算瓶颈开始得到解决,跨进了真正工业应用的门槛;而近年来通用用途GPU并行计算技术的发展,又为逆时深度偏移生产处理开辟了一个大幅改善性价比的前景。本文通过对逆时深度偏移成像条件,波场重构的逆时递推关系,以及GPU\CPU协同并行计算方案的讨论,介绍了基于GPU\CPU协同并行计算的逆时偏移系统的实现策略。 展开更多
关键词 逆时深度偏析 gpu\cpu协同 系统实现
下载PDF
基于CPU-GPU混合编程的显微镜图像实时拼接
7
作者 吴为民 刘新 +2 位作者 李伙钦 江先伟 杨华 《重庆科技学院学报(自然科学版)》 CAS 2023年第3期67-74,共8页
随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CP... 随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CPU则负责逻辑控制部分的计算,提高了整体的运算效率。实验结果表明,CPU-GPU混合编程模式有效地缩短了显微镜图像拼接时间,提高了拼接的流畅度和实时性。 展开更多
关键词 电子显微镜 实时拼接 并行计算 cpu-gpu混合编程
下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:1
8
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(gpu)
下载PDF
GPU数据库实现技术发展演进
9
作者 刘鹏 陈红 +1 位作者 张延松 李翠平 《计算机学报》 EI CAS CSCD 北大核心 2024年第11期2691-2724,共34页
爆炸式增长的数据对存储和处理数据提出了更高的需求,GPU数据库作为新硬件数据库的一个重要分支,在大容量和高性能处理方面有其独特的优势.GPU数据库作为高性能数据库的代表,在最近几年受到学术界和产业界的关注,一批具有代表性的研究... 爆炸式增长的数据对存储和处理数据提出了更高的需求,GPU数据库作为新硬件数据库的一个重要分支,在大容量和高性能处理方面有其独特的优势.GPU数据库作为高性能数据库的代表,在最近几年受到学术界和产业界的关注,一批具有代表性的研究成果和标志性的实际产品已经出现.GPU数据库的技术发展按照GPU加速型和GPU内存型两种技术路线展开.两种技术路线都有相应的原型系统或产品出现.虽然两种GPU数据库的发展路线在实现上有所不同,但GPU数据库最基本的功能部分和核心技术是相似的,都有查询编译、查询优化、查询执行以及存储管理等功能.当前主流的数据传输方案除了PCIe之外,NVLink、RDMA和CXL等传输方案也为不同处理器之间的数据传输提供了更多的可能性.大多数GPU数据库使用列存储模型来存储数据,少数GPU数据库(如PG-Strom)对两种存储模型都支持.在列存储模型上利用压缩技术能减少数据的存储空间和传输时延.在GPU数据库上进行的压缩和解压的时间应该在整个数据处理的过程中占比很少.在GPU数据库上建立和维护索引不应该有很大的系统开销.JIT编译时间短、编译效率高,是GPU数据库编译的主流.操作符对数据库查询性能的影响非常明显,连接操作、分组聚集和OLAP运算符是目前研究最多的三个类型.目前大多数的研究中,连接和分组聚集算子通常结合在一起研究.在连接算子执行的过程中还和表的连接顺序结合在一起进行考虑.OLAP算子是GPU数据库中的又一个被大量研究的算子,GPU数据库在OLAP算子和模型方面持续受到研究者的关注.GPU数据库有三种查询处理模型,即行处理、列处理和向量化处理.向量化处理和列处理在实际系统中应用较多.由于GPU加速型数据库技术的发展,CPU-GPU协同处理模型上的查询方案与查询引擎也有一定数量的研究成果出现.当前GPU数据库的查询优化研究主要有三部分:多表连接顺序、查询重写和代价模型.然而,GPU数据库的代价评估模型在目前还没有很好的解决方案,GPU数据库的查询优化在未来仍有很大的研究空间.事务在GPU数据库中没有得到很好的研究,尽管有单独的原型系统,但目前的研究还没有取得重大进展.本文总结了GPU数据库各种关键技术已有的研究成果,指出GPU数据库当前存在的问题和面临的挑战,对未来的研究方向进行了展望. 展开更多
关键词 gpu数据库 数据压缩 算子优化 OLAP查询 查询处理
下载PDF
多GPU系统非一致存储访问优化:研究进展与展望
10
作者 李晨 刘畅 +1 位作者 葛一漩 郭阳 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1783-1800,共18页
随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问... 随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问(Non-Uniform Memory Access,NUMA)问题,严重影响多GPU系统的性能.为了减少非一致存储访问所导致的性能损失,本文首先分析了非一致存储访问出现的原因,并对现有的非一致存储访问解决方案进行了对比.针对不同维度的非一致存储访问,本文从减少远程访问流量和提升远程访问性能两个方向出发,对非一致存储访问的优化方案进行了总结.最后,结合这些方案的优缺点,提出了未来多GPU系统非一致存储访问优化的发展方向. 展开更多
关键词 gpu系统 非一致存储访问 gpu访存
下载PDF
混合现实中基于GPU虚拟化的AI计算优化 被引量:2
11
作者 梁桂才 李玉荣 《通信与信息技术》 2024年第2期114-120,共7页
研究探讨混合现实(MR)应用中,通过GPU虚拟化优化AI计算,聚焦于多任务调度与资源共享。研究提出了一个模型,其包含一种根据任务优先级、资源需求和等待时间,动态为正在执行的任务分配GPU资源的机制。同时,模型采用优化的多任务调度算法,... 研究探讨混合现实(MR)应用中,通过GPU虚拟化优化AI计算,聚焦于多任务调度与资源共享。研究提出了一个模型,其包含一种根据任务优先级、资源需求和等待时间,动态为正在执行的任务分配GPU资源的机制。同时,模型采用优化的多任务调度算法,以提高调度效率。实验结果表明,尽管在单任务性能测试中模型的执行时间、GPU利用率和内存使用方面略逊于物理GPU,但在多任务并发和资源共享方面,研究提出的模型展现了显著优势。未来研究将探索设计更公平高效的资源共享策略,以及进一步优化多任务调度算法。 展开更多
关键词 混合现实 AI计算 多任务调度 资源共享 gpu虚拟化
下载PDF
基于GPU的大状态密码S盒差分性质评估方法
12
作者 张润莲 张密 +1 位作者 武小年 舒瑞 《计算机应用》 CSCD 北大核心 2024年第9期2785-2790,共6页
大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S... 大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S盒的差分均匀度和32比特S盒的差分性质,分别设计GPU并行方案,通过优化GPU并行粒度和负载均衡提高了核函数和GPU的执行效率,并缩短了计算时间。测试结果表明,相较于CPU方法和GPU并行方法,所提方法大幅降低了大状态S盒差分性质评估的计算时间,提高了对大状态S盒差分性质的评估效率:对16比特S盒差分均匀度的计算时间为0.3 min;对32比特S盒的单个输入差分的最大输出差分概率计算时间约5 min,对它的差分性质计算时间约2.6 h。 展开更多
关键词 密码S盒 差分密码分析 差分均匀度 最大输出差分概率 gpu并行计算
下载PDF
DRM:基于迭代归并策略的GPU并行SpMV存储格式
13
作者 王宇华 何俊飞 +2 位作者 张宇琪 徐悦竹 崔环宇 《计算机工程与科学》 CSCD 北大核心 2024年第3期381-394,共14页
稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在... 稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在GPU平台上提出的多种存储格式虽然使SpMV性能有所提升,但仍存在零填充和负载不平衡的问题。针对上述问题,提出了一种DRM存储格式,利用基于固定阈值的矩阵划分策略和基于迭代归并的矩阵重构策略,实现了少量零填充和块间负载平衡。实验结果表明,在NVIDIA■ Tesla■ V100平台上,相比于DIA、HDC、HDIA和DIA-Adaptive格式,在时间性能方面,该存储格式分别取得了20.76,1.94,1.13和2.26倍加速;在浮点计算性能方面,分别提高了1.54,5.28,1.13和1.94倍。 展开更多
关键词 gpu SpMV 稀疏对角矩阵 零填充 负载平衡
下载PDF
融合GPU的拟单层覆盖近似集计算方法
14
作者 吴正江 吕成功 王梦松 《计算机工程》 CAS CSCD 北大核心 2024年第5期71-82,共12页
拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算... 拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算过程。为了实现这一目标,使用布尔矩阵表示拟单层覆盖近似空间中的元素,引入与集合运算对应的布尔矩阵算子,提出拟单层覆盖粗糙近似集(DE、DA、DE0与DA0)的矩阵表示,并设计矩阵化拟单层覆盖近似集算法(M_SMC)。同时,相应的定理证明了拟单层覆盖近似集的矩阵表示形式与原始定义的等价性。然而,M_SMC运行过程中出现了矩阵存储和计算步骤的内存消耗过多问题。为了将算法部署到显存有限的GPU上,优化矩阵存储和计算步骤,提出分批处理的矩阵化拟单层覆盖近似集算法(BM_SMC)。在10个数据集上的实验结果表明,融合GPU的BM_SMC算法与单纯使用中央处理器(CPU)的BM_SMC算法相比计算效率提高2.16~11.3倍,BM_SMC算法可以在有限的存储空间条件下充分利用GPU,能够有效地提高拟单层覆盖近似集的计算效率。 展开更多
关键词 拟单层覆盖近似集 集值信息系统 矩阵化 gpu加速 分批处理
下载PDF
基于PCIe总线的主从CPU数据传输系统设计与实现
15
作者 龚行梁 李德文 +1 位作者 陈龙 王亮 《工业控制计算机》 2024年第5期1-3,6,共4页
电力系统保护自动化设备存在多CPU板卡间高速数据传输和存储需求,介绍了一种基于PCIe总线接口实现的主从CPU数据传输系统。采用飞腾FT2000/4处理器为核心构建硬件系统,通过嵌入式Linux操作系统、PCIe设备驱动和应用程序部署软件系统,主... 电力系统保护自动化设备存在多CPU板卡间高速数据传输和存储需求,介绍了一种基于PCIe总线接口实现的主从CPU数据传输系统。采用飞腾FT2000/4处理器为核心构建硬件系统,通过嵌入式Linux操作系统、PCIe设备驱动和应用程序部署软件系统,主CPU侧负责数据采集和处理,从CPU侧通过PCIe总线读取数据完成传输和存储功能。测试情况表明,该方案实现的系统稳定可靠,能够有效地满足高速传输、实时存储的应用业务需求,具有较高的工程应用价值。 展开更多
关键词 PCIe总线 主从cpu 数据传输
下载PDF
面向GPU的5G新型无线电的高吞吐率LDPC译码器
16
作者 李荣春 周鑫 +1 位作者 乔鹏 王庆林 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期141-148,共8页
提出了一种基于图形处理单元(graphic processing unit,GPU)的5G软件无线电准循环低密度奇偶校验(low density parity check,LDPC)码译码器,为了节省片上和片下带宽,采用码字缩短和打孔技术、两级量化和数据打包方案,以提升数据带宽的... 提出了一种基于图形处理单元(graphic processing unit,GPU)的5G软件无线电准循环低密度奇偶校验(low density parity check,LDPC)码译码器,为了节省片上和片下带宽,采用码字缩短和打孔技术、两级量化和数据打包方案,以提升数据带宽的利用率。实验基于Nvidia RTX 2080Ti GPU平台实现了高码率情况下的最小和近似译码算法的并行译码,通过分析GPU上的最优线程设置,将码率为5/6的(2080,1760)LDPC算法的译码吞吐率提升至1.38 Gbit/s,译码吞吐率性能优于现有其他基于GPU的LDPC译码器。 展开更多
关键词 低密度奇偶校验 5G 图形处理单元 软件无线电
下载PDF
基于GPU并行计算和WebGIS的潖江蓄滞洪区洪水预报系统研究
17
作者 陈丕翔 叶志恒 +1 位作者 叶利娜 王扬 《广东水利水电》 2024年第6期69-72,79,共5页
洪水预报所采用的数值模拟涉及大量计算,模拟的结果需经多种专用软件处理后才能展示给用户,操作繁琐,无法满足蓄滞洪区防洪调度及应急抢险处置中迅速做出响应的需求。该文提出了基于GPU并行计算和WebGIS的洪水预报系统,旨在提高洪水计... 洪水预报所采用的数值模拟涉及大量计算,模拟的结果需经多种专用软件处理后才能展示给用户,操作繁琐,无法满足蓄滞洪区防洪调度及应急抢险处置中迅速做出响应的需求。该文提出了基于GPU并行计算和WebGIS的洪水预报系统,旨在提高洪水计算的效率,延长预见期,并实现洪水演进的可视化。该系统基于最新的GPU加速的计算方法,利用GPU强大的浮点数运算能大幅提高洪水计算的效率,结合WebGIS技术,将水文-洪水演进模型的计算结果与水利底图无缝连接,以图表、图像和动画等形式直观展示洪水演变过程,使决策人员能直观地掌握蓄滞洪区洪水的演变过程,可为潖江蓄滞洪区的调度运用和防洪抢险提供帮助。 展开更多
关键词 gpu WEBGIS 潖江蓄滞洪区 洪水预报系统
下载PDF
GPU异构计算环境中长短时记忆网络模型的应用及优化
18
作者 梁桂才 梁思成 陆莹 《计算机应用文摘》 2024年第10期37-41,共5页
随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包... 随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包括门控循环单元、丢弃法、Adam与双向长短时记忆网络等);其次,提出了在GPU上执行的一系列优化方法,如CuDNN库的应用及并行计算的设计等。最终,通过实验分析了以上优化方法在训练时间、验证集性能、测试集性能、超参数和硬件资源使用等方面的差异。 展开更多
关键词 gpu异构 长短时记忆网络 门控循环单元 ADAM DROPOUT CuDNN
下载PDF
多GPU系统的高速互联技术与拓扑发展现状研究 被引量:2
19
作者 崔晨 吴迪 +1 位作者 陶业荣 赵艳丽 《航空兵器》 CSCD 北大核心 2024年第1期23-31,共9页
多GPU系统通过横向扩展实现性能提升,以满足人工智能日趋复杂的算法和持续激增的数据所带来的不断增长的计算需求。对于多GPU系统而言,处理器间的互联带宽以及系统的拓扑是决定系统性能的关键因素。在传统的基于PCIe的多GPU系统中,PCIe... 多GPU系统通过横向扩展实现性能提升,以满足人工智能日趋复杂的算法和持续激增的数据所带来的不断增长的计算需求。对于多GPU系统而言,处理器间的互联带宽以及系统的拓扑是决定系统性能的关键因素。在传统的基于PCIe的多GPU系统中,PCIe带宽是限制系统性能的瓶颈。当前,面向GPU的高速互联技术成为解决多GPU系统带宽限制问题的有效方法。本文首先介绍了传统多GPU系统所采用的PCIe互联技术及其典型拓扑,然后以Nvidia NVLink、AMD Infinity Fabric Link、Intel X^(e) Link、壁仞科技BLink为例,对国内外代表性GPU厂商的面向GPU的高速互联技术及其拓扑进行了梳理分析,最后讨论了关于互联技术的研究启示。 展开更多
关键词 gpu系统 高速互联技术 拓扑 互联带宽 数据中心
下载PDF
基于最小剩余时间算法与SR-IOV技术的GPU资源优化调度方案
20
作者 梁桂才 何现海 +1 位作者 马梓钧 陆富业 《计算机应用文摘》 2024年第9期140-145,共6页
为了优化GPU资源利用率,文章提出了一种新型的GPU资源调度方案。该方案结合了最小剩余时间算法与SR-IOV(SingleRootI/OVirtualization)技术,可优化多用户、多任务环境下的GPU资源利用率和系统性能。传统的GPU调度方法往往面临资源利用... 为了优化GPU资源利用率,文章提出了一种新型的GPU资源调度方案。该方案结合了最小剩余时间算法与SR-IOV(SingleRootI/OVirtualization)技术,可优化多用户、多任务环境下的GPU资源利用率和系统性能。传统的GPU调度方法往往面临资源利用不足、任务等待时间长和系统吞吐量受限等问题。为了应对这些挑战,该方案通过动态分析任务的剩余执行时间,利用SR-IOV技术实现了GPU资源的细粒度隔离与共享,可为更高效的资源分配和任务调度提供支持。实验结果表明,相较于传统的无调度、容器调度和常见机器学习调度方案,该方案在均值准确率、GPU利用率、系统吞吐量和任务执行时间等方面均具有一定的优势,可为多用户多任务场景下的GPU资源管理提供有益的参考。 展开更多
关键词 最小剩余时间算法 SR-IOV技术 gpu资源调度 资源利用率
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部