期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
基于CPU/GPU异构平台的全波形反演及其实用化分析 被引量:12
1
作者 张猛 王华忠 +3 位作者 任浩然 冯波 隋志强 王延光 《石油物探》 EI CSCD 北大核心 2014年第4期461-467,共7页
全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实... 全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实现流程。理论模型测试结果表明,该算法不仅对速度模型具有高精度刻画能力,而且计算效率比基于CPU集群的FWI算法大幅提升。对胜利探区某陆上区块实际地震资料进行全波形速度反演试处理,取得了初步的应用效果。在此基础上,讨论了FWI对实际地震资料质量的要求,就FWI在陆上地震资料的生产性应用提出了相应的策略。 展开更多
关键词 地震反问题 全波形反演 速度估计 cpu gpu异构平台 陆上地震资料
下载PDF
CPU-GPU系统中基于剖分的全局性能优化方法 被引量:10
2
作者 张保 董小社 +3 位作者 白秀秀 曹海军 刘超 梅一多 《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第2期17-23,共7页
针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优... 针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化;针对3级优化剖分工具库提供了3级剖分机制,通过运行时的剖分技术获取剖分信息;策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略.实验证明,基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU-GPU异构并行系统上的全局优化过程,利用该优化方法后,以矩阵相乘和傅里叶变换为例的应用性能提升明显,最终性能相对于访存级优化最高可提高30%左右. 展开更多
关键词 cpu-gpu异构并行系统 全局优化 3级优化 3级剖分
下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
3
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 cpu/gpu异构混合并行
下载PDF
CPU-GPU异构计算环境下的并行T近邻谱聚类算法 被引量:3
4
作者 张帅 李涛 +2 位作者 焦晓帆 王艺峰 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2555-2567,共13页
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrid... 谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能. 展开更多
关键词 谱聚类 T近邻 cpu-gpu异构计算 计算统一设备架构 OpenMP
下载PDF
基于多核CPU-GPU异构平台的并行Agent仿真 被引量:4
5
作者 余文广 王维平 +1 位作者 侯洪涛 李群 《系统工程与电子技术》 EI CSCD 北大核心 2012年第8期1716-1722,共7页
多核中央处理器(central processing units,CPU)-图形处理器(graphics processing units,GPU)异构平台为提高并行Agent仿真(parallel Agent-based simulation,PABS)在单机上的运行性能提供了一个更高效的硬件基础,但在当前相关研究中,... 多核中央处理器(central processing units,CPU)-图形处理器(graphics processing units,GPU)异构平台为提高并行Agent仿真(parallel Agent-based simulation,PABS)在单机上的运行性能提供了一个更高效的硬件基础,但在当前相关研究中,还缺乏一般性的理论方法来指导并行Agent仿真将多核CPU和GPU的计算资源充分利用起来。通过分析多核CPU-GPU异构并行架构的特点,在方法论层面上建立了并行Agent仿真在多核CPU-GPU异构平台下的多层负载分配模型,并根据基于Agent的仿真的执行结构,提出了对基于Agent的仿真的计算结构、数据结构进行重构的方法,以适应异构的硬件架构。最后对基于多核CPU-GPU的并行Agent仿真性能进行了实验分析。 展开更多
关键词 并行Agent仿真 多核中央处理器 图形处理器 异构平台
下载PDF
基于CPU-GPU异构的电力系统静态电压稳定域边界并行计算方法 被引量:4
6
作者 李雪 张琳玮 +2 位作者 姜涛 陈厚合 李国庆 《电工技术学报》 EI CSCD 北大核心 2021年第19期4070-4084,共15页
为提升区域互联电力系统静态电压稳定域边界(SVSRB)的构建效率,该文以直接法为基础,提出一种基于CPU-GPU异构的静态电压稳定域边界并行计算方法。该方法首先依据SVSRB拓扑特性,基于边界追踪算法实现直接法求解鞍结分岔(SNB)点时初值的... 为提升区域互联电力系统静态电压稳定域边界(SVSRB)的构建效率,该文以直接法为基础,提出一种基于CPU-GPU异构的静态电压稳定域边界并行计算方法。该方法首先依据SVSRB拓扑特性,基于边界追踪算法实现直接法求解鞍结分岔(SNB)点时初值的高效选取,克服直接法对初值敏感这一瓶颈;然后结合CPU-GPU异构平台,将直接法求解SNB点计算量较大、计算耗时占比高的修正量求解部分由GPU完成,其他逻辑性强但计算量较低的部分由CPU完成,以实现SNB点的并行求解,降低直接法计算量大、计算复杂度高的不足,从而提升SVSRB的搜索效率;最后以WECC3机9节点测试系统,波兰电网2737节点和3120节点测试系统,欧洲电网7092节点、9241节点、11624节点和13659节点测试系统算例对该文所提方法进行了分析与验证,结果表明所提并行计算方法可实现电力系统静态电压稳定域边界的快速、准确搜索。 展开更多
关键词 静态电压稳定域边界 边界追踪法 直接法 鞍结分岔点 cpu-gpu 异构平台
下载PDF
多核CPU-GPU协同的并行深度优先算法 被引量:2
7
作者 余莹 李肯立 《计算机应用研究》 CSCD 北大核心 2014年第10期2982-2985,共4页
针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的... 针对多核CPU和GPU环境下图的深度优先搜索问题,提出多核CPU中实现并行DFS的新算法,通过有效利用内存带宽来提高性能,且当图增大时优势越明显。在此基础上提出一种混合方法,为DFS每一分支动态地选择最佳的实现:顺序执行;两种不同算法的多核执行;GPU执行。混合算法为每种大小的图提供相对更好的性能,且能避免高直径图上的最坏情况。通过比较多CPU和GPU系统,分析底层架构对DFS性能的影响。实验结果表明,一个高端single-socket GPU系统的DFS执行性能相当于一个高端4-socket CPU系统。 展开更多
关键词 多核cpu gpu 深度优先搜索 并行 异构
下载PDF
异构集群中CPU与GPU协同调度算法的设计与实现 被引量:3
8
作者 高原 顾文杰 +3 位作者 丁雨恒 彭晖 陈泊宇 顾雯轩 《计算机工程与设计》 北大核心 2020年第2期592-600,F0003,共10页
为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异... 为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异构集群的传输和处理效率。该算法实现了集群各节点“能者多劳”,避免了单节点性能瓶颈造成的任务长尾现象。实验结果表明,该算法较传统MPI/GPU并行计算性能提高了11倍。 展开更多
关键词 异构 集群 中央处理器 图形处理器 协同调度 算法
下载PDF
基于CPU-GPU异构并行的复杂场地近断层地震动谱元法模拟 被引量:4
9
作者 巴振宁 赵靖轩 +1 位作者 吴孟桃 梁建文 《地震学报》 CSCD 北大核心 2022年第1期182-193,共12页
利用基于CUDA编程平台实现的工作站级CPU-GPU异构并行方法开展了实际场地近断层地震动谱元法模拟.通过模拟SECE/USGS提供的自发破裂模型TPV15,测试了工作站级CPU-GPU异构并行方法的计算精度与计算效率,并将该方法应用于1679年三河—平谷... 利用基于CUDA编程平台实现的工作站级CPU-GPU异构并行方法开展了实际场地近断层地震动谱元法模拟.通过模拟SECE/USGS提供的自发破裂模型TPV15,测试了工作站级CPU-GPU异构并行方法的计算精度与计算效率,并将该方法应用于1679年三河—平谷M8.0地震的强地面运动模拟,以证实该方法对真实设定地震动模拟的适用性.模拟结果显示:CPU-GPU异构并行计算时间较CPU并行计算时间明显减少,加速比最高值分别为CPU 36核和72核的3.04和2.16倍;1679年三河—平谷M8.0地震的强地面模拟结果清晰地体现出近断层地震动的集中性、破裂的方向性、速度脉冲和永久位移等近断层地震动特征以及真实地形对近断层地震动所产生的影响.结果表明,CPU-GPU异构并行方法有效地提高了谱元法模拟的计算效率,可应用于大尺度复杂场地地震波场模拟. 展开更多
关键词 cpu-gpu异构 复杂场地 近断层地震动 谱元法
下载PDF
碳酸盐岩储层叠前逆时偏移及GPU/CPU异构计算方案研究 被引量:1
10
作者 王阔 陈红灵 +2 位作者 郭聪 张文武 叶飞 《当代化工》 CAS 2014年第10期2042-2045,共4页
针对碳酸盐岩储层地质构造的特点,提出采用基于声波方程的叠前逆时偏移算法对其进行成像,并在偏移过程中引入优化差分系数和完全匹配层(PML)边界条件来提高波场的数值模拟精度,同时利用GPU/CPU异构并行加速技术对算法进行优化,从而显著... 针对碳酸盐岩储层地质构造的特点,提出采用基于声波方程的叠前逆时偏移算法对其进行成像,并在偏移过程中引入优化差分系数和完全匹配层(PML)边界条件来提高波场的数值模拟精度,同时利用GPU/CPU异构并行加速技术对算法进行优化,从而显著提升偏移的计算效率。模型测试表明,与传统差分系数相比,同阶的优化差分系数具有更高精度,压制频散效果明显;PML边界条件能够有效的吸收边界反射,减少边界反射对有效波场的干扰;叠前逆时偏移方法可有效识别碳酸盐岩模型中的小尺寸孔洞和裂缝,归为准确,刻画清晰,对碳酸盐岩储层成像具有显著优势;GPU/CPU异构并行加速技术可明显提高偏移的计算效率,与传统CPU算法相比,加速比可达60倍,对于实际推广应用具有重要意义。 展开更多
关键词 碳酸盐岩 叠前逆时偏移 PML gpu/cpu异构加速
下载PDF
CPU/GPU系统负载均衡的可分负载调度 被引量:2
11
作者 彭江泉 钟诚 《计算机工程与设计》 CSCD 北大核心 2013年第11期3916-3923,共8页
针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个... 针对具有多个片上多核处理器CMP和多个GPU的异构系统,综合考虑多核CPU和GPU的不同计算能力、各级缓存不同容量、CPU和GPU之间通信代价以及GPU内部结构等因素,采取计算与通信重叠、对任务自动划分、GPU端线程块大小和维度自动设置、多个异步流同时传输的方法,通过切换线程块执行以隐藏访存开销,提出一种均衡CPU和GPU负载、高效的可分负载多轮调度算法。采用计算密集型任务Mandelbrot进行实验测试,测试结果表明,与已有算法相比,该算法的调度性能有明显提升。 展开更多
关键词 cpu gpu异构系统 可分负载 调度算法 协同计算 负载均衡 多级缓存
下载PDF
关于CPU+GPU异构计算的研究与分析 被引量:5
12
作者 许桢 《科技信息》 2010年第17期I0097-I0097,I0014,共2页
在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,"结合"也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU+GPU的异构化计算算法的优势和未来应用的可能性,特别是... 在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,"结合"也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU+GPU的异构化计算算法的优势和未来应用的可能性,特别是随着通用计算程序接口(OpenCL)的发布,CPU+GPU的异构化计算这种看起来像是CPU和GPU混合体的出现,相信这将使计算机处理器又将迈上一个新台阶,这种异构化成就的是更加高性能,更加高性价比的处理器,而这必将掀起GPU和CPU革命的高潮。 展开更多
关键词 中央处理器(cpu) 图形处理器(gpu) 整合 异构计算
下载PDF
通过部分页迁移实现CPU-GPU高效透明的数据通信
13
作者 张诗情 杨耀华 +1 位作者 沈立 王志英 《计算机工程与科学》 CSCD 北大核心 2019年第7期1168-1175,共8页
尽管对集成GPU和下一代互连的研究投入日益增加,但由PCI Express连接的独立GPU仍占据市场的主导地位,CPU和GPU之间的数据通信管理仍在不断发展。最初,程序员显式控制CPU和GPU之间的数据传输。为了简化编程,GPU供应商开发了一种编程模型... 尽管对集成GPU和下一代互连的研究投入日益增加,但由PCI Express连接的独立GPU仍占据市场的主导地位,CPU和GPU之间的数据通信管理仍在不断发展。最初,程序员显式控制CPU和GPU之间的数据传输。为了简化编程,GPU供应商开发了一种编程模型,为“CPU+GPU”异构系统提供单个虚拟地址空间。此模型中的页迁移机制会自动根据需要在CPU和GPU之间迁移页面。为了满足高性能工作负载的需求,页面大小有增大趋势。受低带宽和高延迟互连的限制,较大的页面迁移延迟时间较长,这可能会影响计算和传输的重叠并导致严重的性能下降。提出了部分页迁移机制,它只迁移页面的所需部分,以缩短迁移延迟并避免页面变大时整页迁移的性能下降。实验表明,当页面大小为2MB且PCI Express带宽为16GB/s时,部分页迁移可以显著隐藏整页迁移的性能开销,相比于程序员控制数据传输,整页迁移有平均98.62%倍的减速,而部分页迁移可以实现平均1.29倍的加速。此外,我们测试了页面大小对快表缺失率的影响以及迁移单元大小对性能的影响,使设计人员能够基于这些信息做出决策。 展开更多
关键词 cpu+gpu”异构系统 数据通信 页迁移
下载PDF
基于负载均衡的CPU-GPU异构计算平台任务调度策略 被引量:5
14
作者 方娟 章佳兴 《北京工业大学学报》 CAS CSCD 北大核心 2020年第7期782-787,共6页
针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计... 针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计算能力,将计算任务按照探测比例分配给CPU和GPU;将并行任务存入双向队列,以降低调度带来的额外开销.结果表明,使用该策略的基准测试程序系统性能平均提升了28.07%.总体而言,该调度策略能够缩短CPU与GPU完成各自计算任务后的等待时间,有效平衡系统CPU与GPU之间的负载,提升系统性能. 展开更多
关键词 中央处理单元-图形处理单元(central processing unit-graphics processing unit cpu-gpu) 异构计算 高性能计算 任务调度 负载均衡 负载感知
下载PDF
CPU/GPU异构计算应用于核电模拟机的可行性 被引量:1
15
作者 王旭 吴帆 +1 位作者 章旋 骆邦其 《计算机应用》 CSCD 北大核心 2014年第A02期73-77,共5页
根据ANSI/ANS-3.5-1998规定以及核电厂建模精度的提高,对核电模拟机仿真速度提出了更高的要求。但是目前已难以通过提升中央处理器(CPU)频率的方式来提升现有模拟机的运算速度。与此同时,CPU/GPU异构计算融合了串行/并行计算,利用显卡(G... 根据ANSI/ANS-3.5-1998规定以及核电厂建模精度的提高,对核电模拟机仿真速度提出了更高的要求。但是目前已难以通过提升中央处理器(CPU)频率的方式来提升现有模拟机的运算速度。与此同时,CPU/GPU异构计算融合了串行/并行计算,利用显卡(GPU)的并行计算能力可极大提升现有桌面电脑的运算能力,目前已经广泛应用于科学研究。英伟达公司的CUDA平台被用于开发CPU/GPU异构计算应用程序,来提升核电厂全范围模拟机的仿真计算。通过核电厂全范围模拟机运行测试对比,证实使用CPU/GPU异构计算程序,能有效提升模拟机运行速度。 展开更多
关键词 cpu/gpu异构计算 核电 仿真 可行性 模拟机
下载PDF
CPU+GPU异构体系混合编程模式研究 被引量:2
16
作者 翟金亭 高希然 《信息记录材料》 2016年第4期31-32,共2页
近年来,使用CPU单一模式进行并行计算已不适用,随着GPU其超高的计算性能和性能功耗比,CPU+GPU协同异构体系下的并行计算模式广泛应用。在并行计算领域、高性能计算领域、超级计算领域都有非常重要的作用。文章提出了使用CPU+GPU异构体系... 近年来,使用CPU单一模式进行并行计算已不适用,随着GPU其超高的计算性能和性能功耗比,CPU+GPU协同异构体系下的并行计算模式广泛应用。在并行计算领域、高性能计算领域、超级计算领域都有非常重要的作用。文章提出了使用CPU+GPU异构体系,在该体系结构下进行设计并行程序,使用一种并行编程模型,来提高程序的性能。 展开更多
关键词 cpu+gpu 异构体系结构 混合编程模型 并行计算
下载PDF
基于CPU+GPU异构并行的QPSK开环解调方法研究
17
作者 顾祥龙 王元钦 +1 位作者 韩丙寅 张东 《遥测遥控》 2013年第4期53-57,共5页
以平方率前向定时算法和M&M频偏估计算法为基础,研究适用于CPU+GPU异构并行平台的QPSK开环解调方法,并对数据分块长度和异构并行效率进行分析和验证,通过理论推导和Matlab仿真,得出在频偏范围内最佳的数据分块长度,最终分别在只用CP... 以平方率前向定时算法和M&M频偏估计算法为基础,研究适用于CPU+GPU异构并行平台的QPSK开环解调方法,并对数据分块长度和异构并行效率进行分析和验证,通过理论推导和Matlab仿真,得出在频偏范围内最佳的数据分块长度,最终分别在只用CPU和采用CPU+GPU异构的两种架构下,对QPSK信号开环并行解调。实验结果证明,数据点数较多时,CPU+GPU异构并行解调效率明显提升。 展开更多
关键词 cpu+gpu异构并行 QPSK开环解调
下载PDF
基于异构系统的多级并行稀疏张量向量乘算法
18
作者 陈玥丹 肖国庆 +3 位作者 阳王东 金纪勇 龙军 李肯立 《计算机学报》 EI CSCD 北大核心 2024年第2期441-455,共15页
张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,... 张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,SpTV)是张量分解中最基础、耗时最多的运算之一.为加速大数据和人工智能相关应用的运行效率,本文提出了基于CPU-GPU异构结构的多级并行SpTV加速算法.首先,为了将SpTV运算映射到混合、多级并行的分布式CPU-GPU异构多/众核构架,本文设计了一种多维并行SpTV划分方法,采用面向节点级并行的N-1维张量划分和面向GPU线程级并行的矩阵划分,充分利用计算节点间和节点内的多级并行计算能力.其次,设计了一种基于稀疏张量纤维的压缩存储格式,压缩稀疏张量的内存占用,优化SpTV运算的计算和访存模式.最后,提出了基于多流并行的异构高效SpTV算法,进一步设计了稀疏张量的细粒度划分方法、多流并行运行机制和基于张量块排序的多流并行优化技术,实现了SpTV运算中通信开销和计算开销的相互重叠与隐藏.实验结果表明,与相关工作aeSpTV相比,所提出的SpTV算法在所有测试数据集上最高能够获得3.28倍的加速比. 展开更多
关键词 cpu-gpu 异构并行计算 多级并行 稀疏张量 张量运算
下载PDF
面向深度学习应用的组件式开发框架的设计实现
19
作者 刘祥 华蓓 +1 位作者 林飞 魏宏原 《计算机应用》 CSCD 北大核心 2024年第2期526-535,共10页
针对目前深度学习应用缺少有效的开发与部署工具的问题,提出一个面向深度学习应用的组件式开发框架。所提框架根据应用的资源消耗类型进行功能拆分,使用评测引导的资源分配方案进行瓶颈消除,使用分步装箱方案兼顾高CPU利用率和低显存开... 针对目前深度学习应用缺少有效的开发与部署工具的问题,提出一个面向深度学习应用的组件式开发框架。所提框架根据应用的资源消耗类型进行功能拆分,使用评测引导的资源分配方案进行瓶颈消除,使用分步装箱方案兼顾高CPU利用率和低显存开销的功能放置。基于此框架开发的实时车牌号检测应用,在吞吐优先模式下GPU利用率达到82%,在延迟优先模式下平均应用延迟达到0.73 s,在三种模式下(吞吐优先模式、延迟优先模式以及吞吐/延迟的均衡模式)下,CPU平均利用率达到68.8%。实验结果表明,基于此框架能够进行硬件吞吐与应用延迟的平衡型配置,在吞吐优先模式下高效利用平台的计算资源,在延迟优先模式下满足应用的低延迟需求。相较于MediaPipe,使用本框架能够进行超实时的多人姿态估计应用开发,应用的检测帧率最高提升了1077%。实验结果表明,所提框架能够作为CPU-GPU异构服务器上面向深度学习应用开发部署的有效解决方案。 展开更多
关键词 深度学习应用 开发框架 基于组件的开发 流水线部署 cpu-gpu异构
下载PDF
基于硬件性能计数器的GPU功耗预测模型 被引量:3
20
作者 王桂彬 《计算机工程与科学》 CSCD 北大核心 2012年第3期46-50,共5页
图形处理器GPU以其高性能、高能效优势成为当前异构高性能计算机系统主要采用的加速部件。虽然GPU具有较高的理论峰值能效,但其绝对功耗开销明显高于通用处理器。随着GPU在高性能计算领域的应用逐渐扩展,面向GPU的低功耗优化研究将成为... 图形处理器GPU以其高性能、高能效优势成为当前异构高性能计算机系统主要采用的加速部件。虽然GPU具有较高的理论峰值能效,但其绝对功耗开销明显高于通用处理器。随着GPU在高性能计算领域的应用逐渐扩展,面向GPU的低功耗优化研究将成为该领域的重要研究方向之一。准确的功耗预测是功耗优化研究的重要前提,本文提出了基于硬件性能计数器的GPU功耗预测方法。该方法基于硬件性能计数器信息,结合GPU在部分运行频率下的功耗值,通过线性回归的方法预测处理器在其他运行频率下的功耗值。实验结果表明,该方法可以准确地预测GPU功耗。 展开更多
关键词 cpu-gpu异构系统 gpu功耗模型 动态电压/频率调节
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部