期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于CPU-GPU异构并行的复杂场地近断层地震动谱元法模拟 被引量:5
1
作者 巴振宁 赵靖轩 +1 位作者 吴孟桃 梁建文 《地震学报》 CSCD 北大核心 2022年第1期182-193,共12页
利用基于CUDA编程平台实现的工作站级CPU-GPU异构并行方法开展了实际场地近断层地震动谱元法模拟.通过模拟SECE/USGS提供的自发破裂模型TPV15,测试了工作站级CPU-GPU异构并行方法的计算精度与计算效率,并将该方法应用于1679年三河—平谷... 利用基于CUDA编程平台实现的工作站级CPU-GPU异构并行方法开展了实际场地近断层地震动谱元法模拟.通过模拟SECE/USGS提供的自发破裂模型TPV15,测试了工作站级CPU-GPU异构并行方法的计算精度与计算效率,并将该方法应用于1679年三河—平谷M8.0地震的强地面运动模拟,以证实该方法对真实设定地震动模拟的适用性.模拟结果显示:CPU-GPU异构并行计算时间较CPU并行计算时间明显减少,加速比最高值分别为CPU 36核和72核的3.04和2.16倍;1679年三河—平谷M8.0地震的强地面模拟结果清晰地体现出近断层地震动的集中性、破裂的方向性、速度脉冲和永久位移等近断层地震动特征以及真实地形对近断层地震动所产生的影响.结果表明,CPU-GPU异构并行方法有效地提高了谱元法模拟的计算效率,可应用于大尺度复杂场地地震波场模拟. 展开更多
关键词 cpu-gpu异构 复杂场地 近断层地震动 谱元法
下载PDF
CPU-GPU异构并行计算体系的设计与实现分析
2
作者 蒋瀚洋 王丹华 王樱 《学园》 2018年第36期112-113,共2页
对CPU-GPU异构并行的系统设计进行分析,认识到系统构建的优势性,总结系统平台的设计方案。结合CPU-GPU异构并行计算体系,认识到系统硬件结构、软件编程接口的设计需求,进行异构并行系统设计方案的确定。通过环境创设、算法流程及软件实... 对CPU-GPU异构并行的系统设计进行分析,认识到系统构建的优势性,总结系统平台的设计方案。结合CPU-GPU异构并行计算体系,认识到系统硬件结构、软件编程接口的设计需求,进行异构并行系统设计方案的确定。通过环境创设、算法流程及软件实现的分析,实现CPU-GPU异构并行计算系统运行的稳定性,旨在通过系统的项目整合、系统的完善及并购方案的确定进行计算系统的设计,展现CPU-GPU异构并行计算的最终价值。 展开更多
关键词 cpu-gpu异构 并行计算 系统设计
原文传递
一种基于ARM的异构CPU-GPU集群调度模型
3
作者 李瑞林 周亦敏 《软件导刊》 2017年第4期22-24,共3页
随着技术的发展,基于异构的CPU-GPU计算系统成为高性能计算趋势。但是,异构计算面临着扩展性、负载均衡等问题。提出了一个集群调度模型,并结合GPU虚拟化运行,设计了分层集群资源管理框架,该框架允许异构CPU-GPU集群有效利用。实验结果... 随着技术的发展,基于异构的CPU-GPU计算系统成为高性能计算趋势。但是,异构计算面临着扩展性、负载均衡等问题。提出了一个集群调度模型,并结合GPU虚拟化运行,设计了分层集群资源管理框架,该框架允许异构CPU-GPU集群有效利用。实验结果表明,通过利用有效资源,调度框架无论是在应用程序吞吐量还是延迟上都优于现有批处理调度程序。 展开更多
关键词 高性能计算 异构cpu-gpu集群 ARM 调度模型
下载PDF
CPU-GPU系统中基于剖分的全局性能优化方法 被引量:10
4
作者 张保 董小社 +3 位作者 白秀秀 曹海军 刘超 梅一多 《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第2期17-23,共7页
针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优... 针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化;针对3级优化剖分工具库提供了3级剖分机制,通过运行时的剖分技术获取剖分信息;策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略.实验证明,基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU-GPU异构并行系统上的全局优化过程,利用该优化方法后,以矩阵相乘和傅里叶变换为例的应用性能提升明显,最终性能相对于访存级优化最高可提高30%左右. 展开更多
关键词 cpu-gpu异构并行系统 全局优化 3级优化 3级剖分
下载PDF
面向深度学习应用的组件式开发框架的设计实现
5
作者 刘祥 华蓓 +1 位作者 林飞 魏宏原 《计算机应用》 CSCD 北大核心 2024年第2期526-535,共10页
针对目前深度学习应用缺少有效的开发与部署工具的问题,提出一个面向深度学习应用的组件式开发框架。所提框架根据应用的资源消耗类型进行功能拆分,使用评测引导的资源分配方案进行瓶颈消除,使用分步装箱方案兼顾高CPU利用率和低显存开... 针对目前深度学习应用缺少有效的开发与部署工具的问题,提出一个面向深度学习应用的组件式开发框架。所提框架根据应用的资源消耗类型进行功能拆分,使用评测引导的资源分配方案进行瓶颈消除,使用分步装箱方案兼顾高CPU利用率和低显存开销的功能放置。基于此框架开发的实时车牌号检测应用,在吞吐优先模式下GPU利用率达到82%,在延迟优先模式下平均应用延迟达到0.73 s,在三种模式下(吞吐优先模式、延迟优先模式以及吞吐/延迟的均衡模式)下,CPU平均利用率达到68.8%。实验结果表明,基于此框架能够进行硬件吞吐与应用延迟的平衡型配置,在吞吐优先模式下高效利用平台的计算资源,在延迟优先模式下满足应用的低延迟需求。相较于MediaPipe,使用本框架能够进行超实时的多人姿态估计应用开发,应用的检测帧率最高提升了1077%。实验结果表明,所提框架能够作为CPU-GPU异构服务器上面向深度学习应用开发部署的有效解决方案。 展开更多
关键词 深度学习应用 开发框架 基于组件的开发 流水线部署 cpu-gpu异构
下载PDF
基于混合编程模型的支持向量机训练并行化 被引量:2
6
作者 李涛 刘学臣 +2 位作者 张帅 王恺 杨愚鲁 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1098-1108,共11页
支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储... 支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力. 展开更多
关键词 支持向量机训练 计算统一设备架构 消息传递接口 页锁定内存 cpu-gpu异构系统
下载PDF
基于硬件性能计数器的GPU功耗预测模型 被引量:3
7
作者 王桂彬 《计算机工程与科学》 CSCD 北大核心 2012年第3期46-50,共5页
图形处理器GPU以其高性能、高能效优势成为当前异构高性能计算机系统主要采用的加速部件。虽然GPU具有较高的理论峰值能效,但其绝对功耗开销明显高于通用处理器。随着GPU在高性能计算领域的应用逐渐扩展,面向GPU的低功耗优化研究将成为... 图形处理器GPU以其高性能、高能效优势成为当前异构高性能计算机系统主要采用的加速部件。虽然GPU具有较高的理论峰值能效,但其绝对功耗开销明显高于通用处理器。随着GPU在高性能计算领域的应用逐渐扩展,面向GPU的低功耗优化研究将成为该领域的重要研究方向之一。准确的功耗预测是功耗优化研究的重要前提,本文提出了基于硬件性能计数器的GPU功耗预测方法。该方法基于硬件性能计数器信息,结合GPU在部分运行频率下的功耗值,通过线性回归的方法预测处理器在其他运行频率下的功耗值。实验结果表明,该方法可以准确地预测GPU功耗。 展开更多
关键词 cpu-gpu异构系统 GPU功耗模型 动态电压/频率调节
下载PDF
基于不完全LU分解预处理迭代法的电力系统潮流算法 被引量:16
8
作者 唐坤杰 董树锋 宋永华 《中国电机工程学报》 EI CSCD 北大核心 2017年第S1期55-62,共8页
随着电力系统规模日益增大,对潮流计算速度与实时性的要求相应提高。为了适应大规模电力系统潮流计算需求,根据Krylov子空间思想,提出了一种基于迭代法求解线性方程组的潮流算法,该算法利用不完全LU分解作为预处理,并采用CPU-GPU异构运... 随着电力系统规模日益增大,对潮流计算速度与实时性的要求相应提高。为了适应大规模电力系统潮流计算需求,根据Krylov子空间思想,提出了一种基于迭代法求解线性方程组的潮流算法,该算法利用不完全LU分解作为预处理,并采用CPU-GPU异构运算架构,根据CPU和GPU的不同特点,将潮流算法分为CPU处理部分和GPU处理部分,其中GPU用于并行处理计算量最为密集的线性方程组求解步骤,CPU用于处理潮流算法的其他步骤,实现快速求解。算例表明,所提算法收敛性能稳定、收敛速度快、算法效率高,在系统规模较大时,与传统基于LU分解的潮流算法相比具有明显优势,能够满足大规模电网在线潮流计算的需求,具有工程应用价值。 展开更多
关键词 KRYLOV子空间 不完全LU分解 大规模稀疏线性方程组 潮流计算 cpu-gpu异构运算架构
下载PDF
基于预处理BICGSTAB法的电力系统潮流并行计算方法 被引量:4
9
作者 宋晓喆 魏国 +3 位作者 李雪 王长江 孙福寿 李振元 《电力系统保护与控制》 EI CSCD 北大核心 2020年第20期18-28,共11页
为实现大规模电力系统潮流的准确、快速求解,以非精确牛顿法为基础,提出一种基于CPU-GPU异构平台的电力系统潮流并行计算方法。修正方程组的求解是牛拉法潮流计算中最为耗时的部分,提升修正方程组的求解效率可有效提升潮流计算效率。为... 为实现大规模电力系统潮流的准确、快速求解,以非精确牛顿法为基础,提出一种基于CPU-GPU异构平台的电力系统潮流并行计算方法。修正方程组的求解是牛拉法潮流计算中最为耗时的部分,提升修正方程组的求解效率可有效提升潮流计算效率。为此,根据雅可比矩阵的不对称不定性,采用稳定双正交共轭梯度(bi-conjugate gradient stabilized,BICGSTAB)法进行修正方程组的求解。进一步,为改善BICGSTAB法的收敛性,根据雅可比矩阵的稀疏性和类对角占优性,提出一种改进PPAT(Preconditioner with sparsity Pattern of AT,PPAT)预处理器和改进Jacobi预处理器相结合的两阶段预处理方法,并对雅可比矩阵进行预处理,提升BICGSTAB法的收敛性能。然后,将上述潮流算法移植到CPU-GPU异构平台,实现电力系统潮流的并行求解。最后,通过不同测试系统算例对所提方法进行验证、分析。结果表明,所提潮流并行计算方法可实现电力系统潮流的准确、快速求解。 展开更多
关键词 潮流计算 非精确牛顿法 雅可比矩阵 BICGSTAB法 预处理器 cpu-gpu异构平台
下载PDF
散体物料运输过程中紧急刹车的数值模拟研究 被引量:1
10
作者 柯春海 张浩 +3 位作者 岳孝强 冯春生 舒适 谭援强 《应用力学学报》 CAS CSCD 北大核心 2015年第5期775-781,895,共7页
面向CPU-GPU异构计算机体系,基于离散元法,完成了散体物料运输过程中紧急刹车的数值模拟,得到了13.01的平均加速比,结果表明,利用GPU进行DEM加速计算不仅可行,而且比CPU的串行求解的加速效果更明显。研究了刹车过程中不同区域颗粒的运... 面向CPU-GPU异构计算机体系,基于离散元法,完成了散体物料运输过程中紧急刹车的数值模拟,得到了13.01的平均加速比,结果表明,利用GPU进行DEM加速计算不仅可行,而且比CPU的串行求解的加速效果更明显。研究了刹车过程中不同区域颗粒的运动状态以及它们在不同时刻的平均运动速度,并据此来表征颗粒运动的剧烈程度。分析了不同刹车加速度下颗粒的运动状态以及对车厢前壁和车厢底板所受作用力。结果表明:同一刹车加速度下越靠近车厢尾部颗粒运动越剧烈,同一区域中的颗粒运动平均速度随着刹车加速度的增大而增大;随着刹车加速度的增大,同一区域中颗粒的平均速度也越快达到峰值并越先下降并趋于平稳,且作用于车厢壁上的动压力也在增大;加速度越大压力峰值越先到来,峰值也越大,这说明紧急刹车过程中,较大刹车加速度严重地影响了车厢压力和车内货物的分布情况。 展开更多
关键词 cpu-gpu异构体系 离散元法 物料运输 刹车加速度
下载PDF
基于GPU的杆系离散元并行算法在大型工程结构中的应用 被引量:2
11
作者 叶继红 王佳 《工程力学》 EI CSCD 北大核心 2021年第2期1-7,共7页
杆系DEM(离散元,discrete element method)是求解结构强非线性问题的有效方法,但随着结构数值计算规模的扩大,杆系DEM所需要的计算时间也随之急剧膨胀。为了提高杆系DEM的计算效率,该研究提出单元级并行、节点级并行的计算方法,基于CPU-... 杆系DEM(离散元,discrete element method)是求解结构强非线性问题的有效方法,但随着结构数值计算规模的扩大,杆系DEM所需要的计算时间也随之急剧膨胀。为了提高杆系DEM的计算效率,该研究提出单元级并行、节点级并行的计算方法,基于CPU-GPU异构平台,建构了杆系DEM并行计算框架,编制了相应的几何非线性计算程序,实现了杆系DEM的GPU多线程并行计算。对杆系DEM并行算法的设计主要包括数据存储方式、GPU线程计算模式、节点物理量集成方式以及数据传输优化。最后采用大型三维框架、球壳结构模型分别验证了杆系DEM并行算法的计算精度,并对杆系DEM并行算法进行了计算性能测试,测试结果表明杆系DEM并行算法加速比最高可达12.7倍。 展开更多
关键词 离散单元法 杆系结构 几何非线性 GPU并行计算 cpu-gpu异构平台
下载PDF
高性能影像处理平台构建及显微CT图像重建算法的并行实现
12
作者 丁喻 漆玉金 +1 位作者 张雪竹 赵翠兰 《核技术》 CAS CSCD 北大核心 2011年第8期626-631,共6页
介绍了一种高性能的影像处理平台,该平台基于CPU-GPU异构集群,初始系统是由一台Dell Precision T7500和一台HP XW8600工作站构建而成,系统采用消息传递接口(MPI)和CUDA(Compute Unified Device Architecture)为程序并行编程和运行环境... 介绍了一种高性能的影像处理平台,该平台基于CPU-GPU异构集群,初始系统是由一台Dell Precision T7500和一台HP XW8600工作站构建而成,系统采用消息传递接口(MPI)和CUDA(Compute Unified Device Architecture)为程序并行编程和运行环境。在此平台上成功实现了X射线显微CT成像图像重建算法(FDK)的并行加速计算与处理。结果表明,GPU单机比CPU单机的平均计算速度提高近194倍,CPU-GPU集群比单独CPU集群的计算速度提高46倍,计算效率显著提高,能满足快速三维图像重建及图像结果的实时显示要求。CPU-GPU异构集群是构建高性能影像处理平台的有效途径。 展开更多
关键词 cpu-gpu异构集群 并行计算 三维图像重建
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部