期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
GPU异构计算环境中长短时记忆网络模型的应用及优化
1
作者 梁桂才 梁思成 陆莹 《计算机应用文摘》 2024年第10期37-41,共5页
随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包... 随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包括门控循环单元、丢弃法、Adam与双向长短时记忆网络等);其次,提出了在GPU上执行的一系列优化方法,如CuDNN库的应用及并行计算的设计等。最终,通过实验分析了以上优化方法在训练时间、验证集性能、测试集性能、超参数和硬件资源使用等方面的差异。 展开更多
关键词 gpu异构 长短时记忆网络 门控循环单元 ADAM DROPOUT CuDNN
下载PDF
基于CPU/GPU异构平台的全波形反演及其实用化分析 被引量:12
2
作者 张猛 王华忠 +3 位作者 任浩然 冯波 隋志强 王延光 《石油物探》 EI CSCD 北大核心 2014年第4期461-467,共7页
全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实... 全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实现流程。理论模型测试结果表明,该算法不仅对速度模型具有高精度刻画能力,而且计算效率比基于CPU集群的FWI算法大幅提升。对胜利探区某陆上区块实际地震资料进行全波形速度反演试处理,取得了初步的应用效果。在此基础上,讨论了FWI对实际地震资料质量的要求,就FWI在陆上地震资料的生产性应用提出了相应的策略。 展开更多
关键词 地震反问题 全波形反演 速度估计 CPU gpu异构平台 陆上地震资料
下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
3
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 CPU/gpu异构混合并行
下载PDF
CPU+GPU异构环境下数据密集型矢量多边形地理大数据并行框架 被引量:1
4
作者 徐云耘 周琛 李满春 《测绘通报》 CSCD 北大核心 2022年第5期110-119,共10页
本文提出了面向CPU+GPU异构环境的数据密集型矢量多边形地理大数据并行计算框架(PFGAP)。PFGAP将数据密集型矢量多边形地理大数据的并行计算分解为算子、数据、粒度、并行环境及任务调度5个模块,分别设计相应的负载均衡并行计算策略;通... 本文提出了面向CPU+GPU异构环境的数据密集型矢量多边形地理大数据并行计算框架(PFGAP)。PFGAP将数据密集型矢量多边形地理大数据的并行计算分解为算子、数据、粒度、并行环境及任务调度5个模块,分别设计相应的负载均衡并行计算策略;通过封装并行计算实现细节及数据密集型多边形算子的快速并行化。试验采用多边形三角剖分、栅格化及投影变换作为测试算例,采用土地利用数据作为测试数据,在不同类型的并行环境中计算并行效率。结果表明,PFGAP能很好地适用于不同类型的数据集、算子及并行计算环境。利用PFGAP实现的并行算法显著地降低了串行执行时间,取得了40.03的最优并行加速比。试验还分别测试了各个模块涉及的并行策略,结果表明取得的并行效率优于现有并行策略。 展开更多
关键词 地理信息系统 矢量多边形 空间计算 CPU+gpu异构并行环境 并行框架
下载PDF
基于CPU+GPU异构计算编程研究
5
作者 邱浩淼 《科学技术创新》 2020年第1期74-75,共2页
本文分析了CPU+GPU异构编程方式及其在计算系统编程上的困境,需要考虑CPU模式中的X86编程习惯,双精度性能有限,提出了目前采用的程序开发方式,包括底层图形API的开发方式,低层次抽象的轻量级编程工具,高层次抽象函数库与模板库等,分析... 本文分析了CPU+GPU异构编程方式及其在计算系统编程上的困境,需要考虑CPU模式中的X86编程习惯,双精度性能有限,提出了目前采用的程序开发方式,包括底层图形API的开发方式,低层次抽象的轻量级编程工具,高层次抽象函数库与模板库等,分析目前编程方法运用的适用场合及其中的局限性,为CPU+GPU异构计算的编程方法研究提供了一定的参考意见。 展开更多
关键词 CPU+gpu异构 计算编程 底层图形API 函数库
下载PDF
基于CPU+GPU异构并行的QPSK开环解调方法研究
6
作者 顾祥龙 王元钦 +1 位作者 韩丙寅 张东 《遥测遥控》 2013年第4期53-57,共5页
以平方率前向定时算法和M&M频偏估计算法为基础,研究适用于CPU+GPU异构并行平台的QPSK开环解调方法,并对数据分块长度和异构并行效率进行分析和验证,通过理论推导和Matlab仿真,得出在频偏范围内最佳的数据分块长度,最终分别在只用CP... 以平方率前向定时算法和M&M频偏估计算法为基础,研究适用于CPU+GPU异构并行平台的QPSK开环解调方法,并对数据分块长度和异构并行效率进行分析和验证,通过理论推导和Matlab仿真,得出在频偏范围内最佳的数据分块长度,最终分别在只用CPU和采用CPU+GPU异构的两种架构下,对QPSK信号开环并行解调。实验结果证明,数据点数较多时,CPU+GPU异构并行解调效率明显提升。 展开更多
关键词 CPU+gpu异构并行 QPSK开环解调
下载PDF
一种面向CPU/GPU异构环境的协同并行空间插值算法 被引量:4
7
作者 王鸿琰 关雪峰 吴华意 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2017年第12期1688-1695,共8页
CPU/GPU异构混合系统是一种新型高性能计算平台,但现有并行空间插值算法仅依赖CPU或GPU进行加速,迫切需要研究协同并行空间插值算法以充分利用异构计算资源,进一步提升插值效率。以薄板样条函数插值为例,提出一种CPU/GPU协同并行插值算... CPU/GPU异构混合系统是一种新型高性能计算平台,但现有并行空间插值算法仅依赖CPU或GPU进行加速,迫切需要研究协同并行空间插值算法以充分利用异构计算资源,进一步提升插值效率。以薄板样条函数插值为例,提出一种CPU/GPU协同并行插值算法以加速海量激光雷达(light detector&ranger,LiDAR)点云生成数字高程模型(DEM)。通过插值任务的分解与抽象封装以屏蔽底层硬件执行模式的差异性,同时在多级协同并行框架基础上设计了Greedy-SET动态调度策略,策略顾及底层硬件能力的差异性,以实现异构并行资源的充分利用和良好负载均衡。实验表明,协同并行插值算法在高性能工作站上取得19.6倍的加速比,相比单一CPU或GPU并行算法,其效率提升分别达到54%和44%,实现了高效的协同并行处理。 展开更多
关键词 CPU/gpu异构环境 协同并行算法 空间插值 薄板样条插值函数 LIDAR点云
原文传递
基于异构多GPU的锥束CT图像重建研究
8
作者 丛鹏 王秉欣 《原子能科学技术》 EI CAS CSCD 北大核心 2013年第11期2161-2165,共5页
针对锥束CT图像重建系统中GPU型号不一致问题,提出了基于异构多GPU的重建模型。该模型基于FDK算法进行重建,采用了按计算能力进行任务分配的方法,确保各GPU计算平衡。采用数据流分解的方法,实现了海量数据的图像重建。给出了该重建模型... 针对锥束CT图像重建系统中GPU型号不一致问题,提出了基于异构多GPU的重建模型。该模型基于FDK算法进行重建,采用了按计算能力进行任务分配的方法,确保各GPU计算平衡。采用数据流分解的方法,实现了海量数据的图像重建。给出了该重建模型基于CUDA的实现方法,包括采用流管理和异步函数来实现多GPU并行计算以及滤波和反投影核函数的流程设计。利用高精度工业CT系统进行模型的实验验证。结果表明:所建立的重建模型正确有效,能充分发挥系统中异构多GPU的计算能力,执行效率高。 展开更多
关键词 异构gpu 锥束CT 图像重建
下载PDF
异构GPU集群的任务调度方法研究及实现 被引量:7
9
作者 黄锦增 陈虎 赖路双 《计算机技术与发展》 2012年第5期32-36,共5页
GPU集群已经成为高性能计算的重要方式,特别对于计算密集型应用,具有成本低、性能高、功耗小的优势。为了解决GPU集群系统运行中的任务负载均衡问题,文中提出了一种面向计算密集型应用的异构GPU集群调度方法,该方法可以自动发现计算节点... GPU集群已经成为高性能计算的重要方式,特别对于计算密集型应用,具有成本低、性能高、功耗小的优势。为了解决GPU集群系统运行中的任务负载均衡问题,文中提出了一种面向计算密集型应用的异构GPU集群调度方法,该方法可以自动发现计算节点,并动态估计计算节点的计算能力,并根据计算能力、任务的计算强度和优先级在异构GPU集群上合理分配计算资源。同时,该系统还具有容错能力,能够处理计算节点的意外退出,可恢复意外退出计算节点的计算任务,并动态适应系统的计算规模。通过实验表明,文中采用的策略达到了预期目的。 展开更多
关键词 负载均衡 异构gpu集群 任务调度 动态适应
下载PDF
碳酸盐岩储层叠前逆时偏移及GPU/CPU异构计算方案研究 被引量:1
10
作者 王阔 陈红灵 +2 位作者 郭聪 张文武 叶飞 《当代化工》 CAS 2014年第10期2042-2045,共4页
针对碳酸盐岩储层地质构造的特点,提出采用基于声波方程的叠前逆时偏移算法对其进行成像,并在偏移过程中引入优化差分系数和完全匹配层(PML)边界条件来提高波场的数值模拟精度,同时利用GPU/CPU异构并行加速技术对算法进行优化,从而显著... 针对碳酸盐岩储层地质构造的特点,提出采用基于声波方程的叠前逆时偏移算法对其进行成像,并在偏移过程中引入优化差分系数和完全匹配层(PML)边界条件来提高波场的数值模拟精度,同时利用GPU/CPU异构并行加速技术对算法进行优化,从而显著提升偏移的计算效率。模型测试表明,与传统差分系数相比,同阶的优化差分系数具有更高精度,压制频散效果明显;PML边界条件能够有效的吸收边界反射,减少边界反射对有效波场的干扰;叠前逆时偏移方法可有效识别碳酸盐岩模型中的小尺寸孔洞和裂缝,归为准确,刻画清晰,对碳酸盐岩储层成像具有显著优势;GPU/CPU异构并行加速技术可明显提高偏移的计算效率,与传统CPU算法相比,加速比可达60倍,对于实际推广应用具有重要意义。 展开更多
关键词 碳酸盐岩 叠前逆时偏移 PML gpu/CPU异构加速
下载PDF
面向大数据复杂应用的GPU协同计算模型 被引量:3
11
作者 张龙翔 曹云鹏 王海峰 《计算机应用研究》 CSCD 北大核心 2020年第7期2049-2053,共5页
大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计... 大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计算时不仅增加了计算资源的密度,而且提高节点间和节点内的通信复杂度。为了从理论上研究GPU与多核CPU协同计算问题,面向多种计算模式建立一个多阶段的协同计算模型(p-DCOT)。p-DCOT以BSP大同步并行模型为核心,将协同计算过程分成数据层、计算层和通信层三个层次,并且延用DOT模型的矩阵来形式化描述计算和通信行为。通过扩展p-DOT模型描述节点内和节点间的协同计算行为,细化了负载均衡的参数并证明时间成本函数,最后用典型计算作业验证模型及参数分析的有效性。该协同计算模型可成为揭示大数据分析处理中协同计算行为的工具。 展开更多
关键词 协同计算模型 计算模式 大数据处理 gpu异构集群
下载PDF
CPU/GPU系统负载均衡的可分负载调度 被引量:2
12
作者 彭江泉 钟诚 《计算机工程与设计》 CSCD 北大核心 2013年第11期3916-3923,共8页
针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个... 针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个异步流同时传输的方法,通过切换线程块执行以隐藏访存开销,提出一种均衡CPU和GPU负载、高效的可分负载多轮调度算法。采用计算密集型任务Mandelbrot进行实验测试,测试结果表明,与已有算法相比,该算法的调度性能有明显提升。 展开更多
关键词 CPU gpu异构系统 可分负载 调度算法 协同计算 负载均衡 多级缓存
下载PDF
基于异构模式的云计算关键技术研究
13
作者 宋国平 《计算机光盘软件与应用》 2013年第21期25-26,共2页
随着信息技术的快速发展,云计算成为了下一代互联网的发展方向。云计算技术具有强大的功能,所以在很多商业领域得到了应用。而CPU+GPU这种异构模式要比传统的模式更加经济环保,所以也得到了广泛的注意。本文对基于异构模式的云计算关键... 随着信息技术的快速发展,云计算成为了下一代互联网的发展方向。云计算技术具有强大的功能,所以在很多商业领域得到了应用。而CPU+GPU这种异构模式要比传统的模式更加经济环保,所以也得到了广泛的注意。本文对基于异构模式的云计算关键技术进行研究,探讨云计算的发展状况及未来发展方向。 展开更多
关键词 云计算 CPU+gpu异构模式 关键技术 研究
下载PDF
宽带信号DDC的GPU高效实现
14
作者 刘宝勇 刘凯 +1 位作者 孙霄杰 郜婉军 《工业控制计算机》 2020年第7期58-60,共3页
在当今软件无线电背景下,信号带宽变大且接收的采集信号中存在多个子带信号,这对接收机的多信号处理能力和效率提出极高要求。介绍一种宽带信号DDC系统设计方法,利用GPU的轻量级线程和内核来并行执行复杂的数字信号处理功能。设计具备... 在当今软件无线电背景下,信号带宽变大且接收的采集信号中存在多个子带信号,这对接收机的多信号处理能力和效率提出极高要求。介绍一种宽带信号DDC系统设计方法,利用GPU的轻量级线程和内核来并行执行复杂的数字信号处理功能。设计具备对多路宽带采集信号的信道化处理功能,DDC采样数据分多路并行输出。结合高效重采样方法,使系统匹配任意输出采样率规范。设计的创新点在于借助GPU强大的通用计算能力,挖掘算法的并行度,通过CUDA编程将算法移植到GPU异构平台上,并采用内存优化、线程组织优化、流处理架构等并行优化手段,有效降低算法复杂度,使方案具备高吞吐量和高灵活性,适应实时处理的环境。 展开更多
关键词 DDC 数字信道化 重采样 gpu异构 CUDA
下载PDF
面向异构体系结构的任务流模型
15
作者 张丹 赵荣彩 +1 位作者 韩林 瞿进 《信息工程大学学报》 2012年第3期358-364,375,共8页
异构体系结构是当前高性能计算研究中的一个重要发展方向,体系结构的异构不仅为高性能计算系统性能的提升带来了发展契机,也为研究人员们提出了一系列诸如编程屏障、易用性差、使用门槛较高等难题。提出了一种面向异构体系结构的任务流... 异构体系结构是当前高性能计算研究中的一个重要发展方向,体系结构的异构不仅为高性能计算系统性能的提升带来了发展契机,也为研究人员们提出了一系列诸如编程屏障、易用性差、使用门槛较高等难题。提出了一种面向异构体系结构的任务流模型和基于任务流模型的任务流化工具,能够将异构系统中计算部件计算特性和应用程序执行特征实现较为合理的映射关系,充分发挥异构计算部件的计算能力,从而达到提升应用程序整体执行性能的目标。 展开更多
关键词 异构:FPGA:gpu:任务 任务流
下载PDF
面向大规模RTM处理的CPU/GPU集群架构
16
作者 孔祥宁 《江苏科技信息》 2013年第9期58-60,共3页
文章利用GPU\CPU协同并行计算技术,提出面向大规模RTM处理的CPU/GPU集群计算策略和架构设计,并展望了该技术的发展前景。
关键词 叠前逆时偏移 gpu\CPU异构平台 集群架构
下载PDF
通过部分页迁移实现CPU-GPU高效透明的数据通信
17
作者 张诗情 杨耀华 +1 位作者 沈立 王志英 《计算机工程与科学》 CSCD 北大核心 2019年第7期1168-1175,共8页
尽管对集成GPU和下一代互连的研究投入日益增加,但由PCI Express连接的独立GPU仍占据市场的主导地位,CPU和GPU之间的数据通信管理仍在不断发展。最初,程序员显式控制CPU和GPU之间的数据传输。为了简化编程,GPU供应商开发了一种编程模型... 尽管对集成GPU和下一代互连的研究投入日益增加,但由PCI Express连接的独立GPU仍占据市场的主导地位,CPU和GPU之间的数据通信管理仍在不断发展。最初,程序员显式控制CPU和GPU之间的数据传输。为了简化编程,GPU供应商开发了一种编程模型,为“CPU+GPU”异构系统提供单个虚拟地址空间。此模型中的页迁移机制会自动根据需要在CPU和GPU之间迁移页面。为了满足高性能工作负载的需求,页面大小有增大趋势。受低带宽和高延迟互连的限制,较大的页面迁移延迟时间较长,这可能会影响计算和传输的重叠并导致严重的性能下降。提出了部分页迁移机制,它只迁移页面的所需部分,以缩短迁移延迟并避免页面变大时整页迁移的性能下降。实验表明,当页面大小为2MB且PCI Express带宽为16GB/s时,部分页迁移可以显著隐藏整页迁移的性能开销,相比于程序员控制数据传输,整页迁移有平均98.62%倍的减速,而部分页迁移可以实现平均1.29倍的加速。此外,我们测试了页面大小对快表缺失率的影响以及迁移单元大小对性能的影响,使设计人员能够基于这些信息做出决策。 展开更多
关键词 “CPU+gpu异构系统 数据通信 页迁移
下载PDF
离线信号的并行分析处理技术
18
作者 梁先明 《电讯技术》 北大核心 2018年第8期939-945,共7页
传统离线信号分析软件处理的数据量庞大且采用单一串行结构,其处理速度通常比较慢。为此,提出了基于图形处理单元(GPU)+中央处理器(CPU)异构方式实现离线信号分析软件的并行化优化思路。首先将离线信号分析中的单一信号串行流程改进为... 传统离线信号分析软件处理的数据量庞大且采用单一串行结构,其处理速度通常比较慢。为此,提出了基于图形处理单元(GPU)+中央处理器(CPU)异构方式实现离线信号分析软件的并行化优化思路。首先将离线信号分析中的单一信号串行流程改进为多信号同时处理方式以实现并行效果,然后重点分析了流程中几个比较费时的典型侦察信号处理算法的特点并进行了算法的优化实现和验证,最后提出了离线信号处理优化准则和资源分配策略。试验结果表明,离线信号分析处理软件算法优化改进后,大多数算法处理加速比达到20以上,具有较好的工程实用性,同时该优化准则和策略对于软件化实时信号处理也具有一定的参考价值。 展开更多
关键词 侦察信号处理 软件并行化 离线信号分析 PN码估计 CPU+gpu异构
下载PDF
多Stream并行DAG任务映射策略
19
作者 王学成 马金全 李建军 《太赫兹科学与电子信息学报》 北大核心 2019年第2期299-304,314,共7页
伴随大数据量的应用任务在中央处理器(CPU)与图形处理器(GPU)组成的异构处理平台上的部署日益广泛,如何高效利用GPU硬件中的并行资源,成为亟待解决的问题。通过对单GPU任务映射策略进行研究,提出多Stream有向无环图(MS-DAG)任务映射策... 伴随大数据量的应用任务在中央处理器(CPU)与图形处理器(GPU)组成的异构处理平台上的部署日益广泛,如何高效利用GPU硬件中的并行资源,成为亟待解决的问题。通过对单GPU任务映射策略进行研究,提出多Stream有向无环图(MS-DAG)任务映射策略。通过分析DAG图中的节点依赖关系,根据节点依赖关系的不同,划分合理的并行分支,利用多Stream流水线并行的方式,实现适合GPU硬件特点的任务映射策略。通过与HEFT在不同条件下的性能对比,可以看出:当HEFT算法中的各处理器性能不一致时,MS-DAG任务映射策略的任务映射效率相比HEFT算法有约10%的提升;当HEFT算法中的各处理器性能一致时,MS-DAG任务映射策略的任务映射效率相比HEFT算法有30%的提升。 展开更多
关键词 CPU+gpu异构平台 任务映射 有向无环图 并行计算
下载PDF
基于激光散斑成像的外科手术术中无标记实时血流监测方法
20
作者 许光 禹婧祎 +1 位作者 刘书朋 苗鹏 《工业控制计算机》 2020年第6期48-49,52,共3页
外科手术术中需要对术野内组织血流灌注进行实时成像,传统方法通过注射吲哚菁绿荧光造影实现。提出了基于激光散斑成像的无标记实时血流监测方法,结合GPU并行计算和血流伪彩合成,实现手术术中血流的高分辨率监测。与传统荧光方法相比,... 外科手术术中需要对术野内组织血流灌注进行实时成像,传统方法通过注射吲哚菁绿荧光造影实现。提出了基于激光散斑成像的无标记实时血流监测方法,结合GPU并行计算和血流伪彩合成,实现手术术中血流的高分辨率监测。与传统荧光方法相比,该系统具有毫秒级的响应速度且不会增加手术难度,并且可以为术中评估提供重要支撑。通过对系统进行测试,整体成像速度达到65帧/s;在操作方面具有良好的人机界面。在临床外科手术术中监测应用中,具有很高的实用价值。 展开更多
关键词 激光散斑衬比成像 gpu异构 数据可视化 实时处理
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部