期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于CPU+GPU混合架构的雷达信号处理方法
1
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+gpu 混合架构 信号处理 多核DSP
下载PDF
基于CPU-GPU混合加速的SPH流体仿真方法 被引量:3
2
作者 胡鹏飞 袁志勇 +2 位作者 廖祥云 郑奇 陈二虎 《计算机工程与科学》 CSCD 北大核心 2014年第7期1231-1237,共7页
基于光滑粒子流体力学SPH的流体仿真是虚拟现实技术的重要研究内容,但SPH流体仿真需要大量的计算资源,采用一般计算方法难以实现流体仿真的实时性。流体仿真通常由物理计算、碰撞检测和渲染等部分组成,借助GPU并行加速粒子的物理属性计... 基于光滑粒子流体力学SPH的流体仿真是虚拟现实技术的重要研究内容,但SPH流体仿真需要大量的计算资源,采用一般计算方法难以实现流体仿真的实时性。流体仿真通常由物理计算、碰撞检测和渲染等部分组成,借助GPU并行加速粒子的物理属性计算和碰撞过程使SPH方法的实时流体仿真成为可能。为了满足流体仿真应用中的真实性和实时性需求,提出一种基于CPU-GPU混合加速的SPH流体仿真方法,流体计算部分采用GPU并行加速,流体渲染部分采用基于CPU的OpenMP加速。实验结果表明,基于CPU-GPU混合加速的SPH流体仿真方法与CPU实现相比,能显著地减少流体仿真单帧计算时间且能更快速地完成渲染任务。 展开更多
关键词 流体仿真 SPH 实时模拟 OPENMP cpu—gpu混合加速
下载PDF
基于GPU/CPU和震源随机编码技术的混合域全波形反演 被引量:5
3
作者 冯海新 刘洪 +2 位作者 孙军 胡婷 刘志伟 《石油物探》 EI CSCD 北大核心 2017年第1期107-115,共9页
传统的全波形反演利用普通炮集进行反演,反演计算量过大;且利用传统的相位编码技术进行全波形反演,会产生炮间串扰问题,因此,提出了基于GPU/CPU和震源随机编码技术的混合域全波形反演。该方法将参与反演的多个炮集随机组合并分成炮集数... 传统的全波形反演利用普通炮集进行反演,反演计算量过大;且利用传统的相位编码技术进行全波形反演,会产生炮间串扰问题,因此,提出了基于GPU/CPU和震源随机编码技术的混合域全波形反演。该方法将参与反演的多个炮集随机组合并分成炮集数相同的组,各组炮集叠加形成多个组合炮集,然后将组合炮集代替普通炮集进行反演。与传统的相位编码反演方法相比,震源随机编码技术在反演效率和收敛速度方面均有优势,且减少了炮间串扰噪声;并且在GPU的加速下,计算效率会再次提升。Marmousi模型数据测试结果表明:组合炮集方法得到了与普通炮集方法相同的反演效果,但计算效率却比普通炮集方法明显提高,且相较于传统的相位编码技术,组合炮集方法有效抑制了串扰噪声。 展开更多
关键词 混合 全波形反演 gpu/cpu 组合炮集 震源随机编码
下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
4
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 cpu/gpu异构混合并行
下载PDF
以子图融合为最小单位的混合精度推理
5
作者 崔丽群 胡磊 《软件导刊》 2024年第6期44-52,共9页
近几年卷积神经网络作为深度学习最重要的技术,在图像分类、物体检测、语音识别等领域均有所建树。在此期间,由多层卷积神经网络组成的深度神经网络横空出世,在各种任务准确性方面具有显著提升。然而,神经网络的权重往往被限定在单精度... 近几年卷积神经网络作为深度学习最重要的技术,在图像分类、物体检测、语音识别等领域均有所建树。在此期间,由多层卷积神经网络组成的深度神经网络横空出世,在各种任务准确性方面具有显著提升。然而,神经网络的权重往往被限定在单精度类型,使网络体积相较于特定硬件平台上的内存空间更大,且floating point 16、INT 8等单精度类型已无法满足现在一些模型推理的现实需求。为此,提出一种以子图为最小单位,通过判断相邻结点之间的融合关系,添加了丰富比特位的混合精度推理算法。首先,在原有单精度量化设计的搜索空间中增加floating point 16半精度的比特配置,使最终搜索空间变大,为寻找最优解提供更多机会。其次,使用子图融合的思想,通过整数线性规划将融合后的不同子图精度配置,根据模型大小、推理延迟和位宽操作数3个约束对计算图进行划分,使最后累积的扰动误差减少。最终,在ResNet系列网络上验证发现,所提模型精度相较于HAWQ V3的损失没超过1%的同时,相较于其他混合精度量化方法在推理速度方面得到了提升,在ResNet18网络中推理速度分别提升18.15%、19.21%,在ResNet50网络中推理速度分别提升13.15%、13.70%。 展开更多
关键词 子图融合 混合精度推理 约束问题最优化求解 gpu加速
下载PDF
面向CPU、GPU多目标机的混合求解器设计与实现 被引量:2
6
作者 马琳 张雪松 +1 位作者 雷新丽 包铁 《系统仿真学报》 CAS CSCD 北大核心 2022年第4期670-678,共9页
传统常微分方程的并行求解方法主要包括面向任务的并行和面向方法的并行,但是这两种求解算法,只能利用CPU,或者只能面向同质形式的ODE(ordinary differential equations)簇,存在严重不足。以RIDC(revisionist integral deferred correct... 传统常微分方程的并行求解方法主要包括面向任务的并行和面向方法的并行,但是这两种求解算法,只能利用CPU,或者只能面向同质形式的ODE(ordinary differential equations)簇,存在严重不足。以RIDC(revisionist integral deferred correction)算法为基础,设计了一种面向CPU、GPU多目标机的混合求解器,基于流水线形式求解微分方程组,实现了单个方程组的内部和不同方程组之间的并行计算,进而能够充分发挥GPU的多核优势,有利于计算节点内部的负载均衡。仿真实验验证了框架的效率、准确率和精准度。 展开更多
关键词 常微分方程 混合求解 多目标机 cpu gpu
下载PDF
基于CPU/GPU异构体系结构的混合编程模型 被引量:2
7
作者 高玉励 周秀娟 张国凯 《信息通信》 2015年第4期35-36,共2页
随着计算机GPU硬件的快速发展,GPU编程环境变得友好,CPU/GPU异构体系结构也被广泛的应用。文章为了有效利用CPU/GPU异构体系结构的优点,并提出了基于该体系结构的两种并行编程模型,使得并行程序设计研究人员使用CPU/GPU异构体系结构的... 随着计算机GPU硬件的快速发展,GPU编程环境变得友好,CPU/GPU异构体系结构也被广泛的应用。文章为了有效利用CPU/GPU异构体系结构的优点,并提出了基于该体系结构的两种并行编程模型,使得并行程序设计研究人员使用CPU/GPU异构体系结构的并行编程模型来对大量的程序进行设计,从而最大程度地提高程序的性能。 展开更多
关键词 异构体系结构 gpu cpu/gpu 混合编程模型
下载PDF
GPU加速模拟混合自旋的Ising模型
8
作者 崔沛东 蔡静 +1 位作者 魏亮 张伟 《科学技术与工程》 北大核心 2013年第26期7720-7724,7735,共6页
基于传统的Monte Carlo方法,利用CUDA(compute unified device architecture)技术,在GPU上分别模拟了正方晶格,三角晶格上较为复杂的不同浓度比的混合(自旋S=1和S=1/2)Ising模型,获得了不同浓度比的临界温度K c以及临界指数y t、y h。... 基于传统的Monte Carlo方法,利用CUDA(compute unified device architecture)技术,在GPU上分别模拟了正方晶格,三角晶格上较为复杂的不同浓度比的混合(自旋S=1和S=1/2)Ising模型,获得了不同浓度比的临界温度K c以及临界指数y t、y h。与同时期的CPU算法相比,基于GPU的并行模拟算法大大提高了算法效率,对于尺寸为1 024×1 024的混合自旋的Ising模型,在正方晶格上实现了40倍的加速比,在三角晶格上实现了41倍的加速比。 展开更多
关键词 gpu 加速 混合自旋Ising模型
下载PDF
Intel CPU/GPU混合架构探秘
9
作者 刘泽申 《微型计算机》 北大核心 2007年第06S期158-162,共5页
当CPU的功能强大到足以让它成为“万金油”一样的硬件时,我们的PC系统将迎来一场颠覆性的变革。届时,也许高端显卡会被CPU抢走饭碗,沦为和当前的物理加速卡一样的配角……
关键词 INTEL 混合架构 PC系统 高端显卡 cpu 颠覆性 加速 硬件
下载PDF
CPU+GPU异构体系混合编程模式研究 被引量:2
10
作者 翟金亭 高希然 《信息记录材料》 2016年第4期31-32,共2页
近年来,使用CPU单一模式进行并行计算已不适用,随着GPU其超高的计算性能和性能功耗比,CPU+GPU协同异构体系下的并行计算模式广泛应用。在并行计算领域、高性能计算领域、超级计算领域都有非常重要的作用。文章提出了使用CPU+GPU异构体系... 近年来,使用CPU单一模式进行并行计算已不适用,随着GPU其超高的计算性能和性能功耗比,CPU+GPU协同异构体系下的并行计算模式广泛应用。在并行计算领域、高性能计算领域、超级计算领域都有非常重要的作用。文章提出了使用CPU+GPU异构体系,在该体系结构下进行设计并行程序,使用一种并行编程模型,来提高程序的性能。 展开更多
关键词 cpu+gpu 异构体系结构 混合编程模型 并行计算
下载PDF
巴塞隆纳超级运算中心建置全球首款ARM架构CPU/GPU混合型超级计算机
11
《电子与电脑》 2011年第12期104-104,共1页
NVIDIA宣布,巴塞隆纳超级运算中心(BSC)现正开发一款全新的混合型超级计算机,将是有史以来第一次运用节能、低功耗的NVIDIATegraARMCPU,加上高效能NVIDIACUDA绘图处理器所建置的超级计算机。
关键词 超级计算机 混合 运算 gpu cpu ARM 架构 NVIDIA
下载PDF
CPU-GPU并行矩阵乘法的实现与性能分析 被引量:11
12
作者 程豪 张云泉 +1 位作者 张先轶 李玉成 《计算机工程》 CAS CSCD 北大核心 2010年第13期24-26,29,共4页
实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过... 实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素。 展开更多
关键词 混合并行 gpu技术 DGEMM程序 加速
下载PDF
基于GPU加速求解MINLP问题的SQP并行算法 被引量:5
13
作者 康丽霞 张燕蓉 +1 位作者 唐亚哲 刘永忠 《化工学报》 EI CAS CSCD 北大核心 2012年第11期3597-3601,共5页
针对确定性算法求解大型复杂混合整数非线性规划的时间不可接受问题,通过对序贯二次规划算法(SQP)和图形处理器(GPU)的架构特点分析,提出了基于GPU加速策略的并行化SQP算法。算法的主要思想是通过枚举法确定二元变量的取值,在保证取值... 针对确定性算法求解大型复杂混合整数非线性规划的时间不可接受问题,通过对序贯二次规划算法(SQP)和图形处理器(GPU)的架构特点分析,提出了基于GPU加速策略的并行化SQP算法。算法的主要思想是通过枚举法确定二元变量的取值,在保证取值完整的基础上,使用CPU+GPU的并行策略,同时运用大量线程进行非线性规划子问题的求解。算例的数值实验结果表明:本文所提出的算法较之传统串行计算具有较好的加速效果,特别适合求解二元变量较多,约束条件相对少的MINLP问题。 展开更多
关键词 混合整数非线性规划 gpu 序贯二次规划法 加速
下载PDF
ANSYS和Abaqus软件GPU加速性能典型算例测试与分析 被引量:3
14
作者 王惠 郭培卿 陈小龙 《计算机工程与科学》 CSCD 北大核心 2013年第11期105-110,共6页
在高性能计算领域,CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一。典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术,以进一步提高问题的求解效率。利用NVIDIA公司Tesla系列M2090GPU和上海超... 在高性能计算领域,CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一。典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术,以进一步提高问题的求解效率。利用NVIDIA公司Tesla系列M2090GPU和上海超级计算中心"蜂鸟"超级计算平台,通过求解典型结构问题,对ANSYS和Abaqus软件在开启GPU加速功能前后对求解效率的影响进行了对比和分析。结果表明,当并行规模低于16核时,GPU加速能够不同程度地减少各类结构问题的求解时间,但加速效果随着并行规模的增加逐渐减弱,多GPU协同求解对加速性能的提高并不明显,在实际应用中,需要结合问题类型以及当前硬件架构选择合适的并行方式和协同处理模式。 展开更多
关键词 cpu gpu 协同处理 加速性能 高性能计算
下载PDF
基于CPU/GPU异构平台的叠前逆时偏移成像系统
15
作者 高新成 石颖 《长江大学学报(自科版)(上旬)》 2016年第12期15-20,共6页
针对目前地震资料偏移成像过程中代码复杂分散、可移植性差和可视化操作弱等问题,结合叠前逆时偏移业务需求,研究了CPU/GPU协同并行计算技术优化叠前逆时偏移成像算法,设计了逆时偏移系统流程与功能,开发了一套基于CPU/GPU异构平台的叠... 针对目前地震资料偏移成像过程中代码复杂分散、可移植性差和可视化操作弱等问题,结合叠前逆时偏移业务需求,研究了CPU/GPU协同并行计算技术优化叠前逆时偏移成像算法,设计了逆时偏移系统流程与功能,开发了一套基于CPU/GPU异构平台的叠前逆时偏移成像系统。利用自设模型和传统模型数据对系统进行测试,测试结果表明系统操作方便可行,运行效果良好,能够有效的对复杂构造地质体精确成像。 展开更多
关键词 逆时偏移 cpu/gpu并行加速 PML边界条件 QT
下载PDF
GPU数据库OLAP优化技术研究
16
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合cpu-gpu平台 gpu加速OLAP OLAP gpu内存 gpu量化处理模型
下载PDF
碳酸盐岩储层叠前逆时偏移及GPU/CPU异构计算方案研究 被引量:1
17
作者 王阔 陈红灵 +2 位作者 郭聪 张文武 叶飞 《当代化工》 CAS 2014年第10期2042-2045,共4页
针对碳酸盐岩储层地质构造的特点,提出采用基于声波方程的叠前逆时偏移算法对其进行成像,并在偏移过程中引入优化差分系数和完全匹配层(PML)边界条件来提高波场的数值模拟精度,同时利用GPU/CPU异构并行加速技术对算法进行优化,从而显著... 针对碳酸盐岩储层地质构造的特点,提出采用基于声波方程的叠前逆时偏移算法对其进行成像,并在偏移过程中引入优化差分系数和完全匹配层(PML)边界条件来提高波场的数值模拟精度,同时利用GPU/CPU异构并行加速技术对算法进行优化,从而显著提升偏移的计算效率。模型测试表明,与传统差分系数相比,同阶的优化差分系数具有更高精度,压制频散效果明显;PML边界条件能够有效的吸收边界反射,减少边界反射对有效波场的干扰;叠前逆时偏移方法可有效识别碳酸盐岩模型中的小尺寸孔洞和裂缝,归为准确,刻画清晰,对碳酸盐岩储层成像具有显著优势;GPU/CPU异构并行加速技术可明显提高偏移的计算效率,与传统CPU算法相比,加速比可达60倍,对于实际推广应用具有重要意义。 展开更多
关键词 碳酸盐岩 叠前逆时偏移 PML gpu/cpu异构加速
下载PDF
基于CPU/GPU集群的编程的研究 被引量:2
18
作者 刘钢锋 《微电子学与计算机》 CSCD 北大核心 2013年第2期128-131,共4页
随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结... 随着微处理器技术的发展,GPU/CPU的混合计算已经成为是科学计算的主流趋势.本文从编程的层面,介绍了如何利用已有的并行编程语言来,调度GPU的计算功能,主要以MPI(一种消息传递编程模型)与基于GPU的CUDA(统一计算设备架构)编程模型相结合的方式进行GPU集群程序的测试,并分析了CPU/GPU集群并行环境下的运行特点.从分析的特点中总结出GPU集群较优策略,从而为提高CPU/GPU并行程序性能提供科学依据. 展开更多
关键词 gpu cpu混合计算 结合MPI与CUDA
下载PDF
基于CPU-GPU的多尺度视网膜增强算法 被引量:1
19
作者 张卫东 杜师帅 +2 位作者 路皓翔 卓永 杨辉华 《计算机工程与设计》 北大核心 2018年第12期3779-3784,共6页
针对多尺度视网膜增强算法在图像增强过程中存在运算时间较长的问题,给出一种基于CPU-GPU并行加速的多尺度视网膜算法。在并行化设计时,对CUDA如何管理GPU的硬件资源能够在GPU硬件资源量固定的情况下启动更多的线程参与计算进行深入讨... 针对多尺度视网膜增强算法在图像增强过程中存在运算时间较长的问题,给出一种基于CPU-GPU并行加速的多尺度视网膜算法。在并行化设计时,对CUDA如何管理GPU的硬件资源能够在GPU硬件资源量固定的情况下启动更多的线程参与计算进行深入讨论和公式化求解;对GPU并行模型进行改进,充分利用CPU和GPU资源;通过3个CPU线程实现R、G、B通道的并行,每个通道的增强过程通过GPU并行。在对多种场景图片的CPU-GPU并行加速处理的实验中得到了高达267倍的加速比。 展开更多
关键词 图像增强 并行加速 cpu线程 gpu并行 多尺度视网膜
下载PDF
为差异化AIoT应用提供GPU和神经网络加速器IP
20
作者 Andrew Grant 《电子产品世界》 2020年第4期19-19,共1页
1为AIoT提供神经网络加速器Imagination Technologies专注于边缘和终端上的人工智能物联网(AIoT)。我们创建半导体知识产权(IP),SoC设计人员使用它们来开发用于边缘设备的芯片。我们可以为神经网络增加加速功能,以使它们能够在终端上快... 1为AIoT提供神经网络加速器Imagination Technologies专注于边缘和终端上的人工智能物联网(AIoT)。我们创建半导体知识产权(IP),SoC设计人员使用它们来开发用于边缘设备的芯片。我们可以为神经网络增加加速功能,以使它们能够在终端上快速运行,进而增强边缘的能力。在某些AI任务中,神经网络加速器(NNA)的性能是典型嵌入式CPU的100倍,从而将以前只有在数据中心才能实现的性能直接带给终端用户。 展开更多
关键词 网络加速 加速功能 嵌入式cpu 数据中心 gpu 终端用户 边缘设备 差异化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部