期刊文献+
共找到585篇文章
< 1 2 30 >
每页显示 20 50 100
A Hybrid Parallel Strategy for Isogeometric Topology Optimization via CPU/GPU Heterogeneous Computing
1
作者 Zhaohui Xia Baichuan Gao +3 位作者 Chen Yu Haotian Han Haobo Zhang Shuting Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第2期1103-1137,共35页
This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstr... This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstrategy of CPU/GPU is proposed, while the hybrid parallel strategies for stiffness matrix assembly, equationsolving, sensitivity analysis, and design variable update are discussed in detail. To ensure the high efficiency ofCPU/GPU computing, a workload balancing strategy is presented for optimally distributing the workload betweenCPU and GPU. To illustrate the advantages of the proposedmethod, three benchmark examples are tested to verifythe hybrid parallel strategy in this paper. The results show that the efficiency of the hybrid method is faster thanserial CPU and parallel GPU, while the speedups can be up to two orders of magnitude. 展开更多
关键词 Topology optimization high-efficiency isogeometric analysis cpu/gpu parallel computing hybrid OpenMPCUDA
下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:1
2
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核cpugpu平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
基于CPU+GPU混合架构的雷达信号处理方法
3
作者 常艳 何涛 朱占宇 《火力与指挥控制》 CSCD 北大核心 2024年第7期80-85,90,共7页
针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积... 针对雷达系统复杂化趋势,提出了基于CPU+GPU混合架构的信号处理方法。依据运算复杂度进行任务的细粒度划分,将复杂处理任务解耦为逻辑处理和运算处理两部分,并映射到CPU+GPU核心进行处理。根据雷达信号处理的拆解包、脉冲压缩、相参积累、目标检测、目标检测后处理及解模糊过程,将对应处理映射到CPU+GPU核心以提高加速比。实验结果表明,相比多核DSP信号处理方法,该方法具有更好的性能。 展开更多
关键词 cpu+gpu 混合架构 信号处理 多核DSP
下载PDF
基于GPU\CPU协同并行计算的逆时偏移系统的实现策略
4
作者 韩超(文/图) 《能源新观察》 2024年第10期57-59,共3页
在石油天然气地震勘探数据处理方法中,逆时深度偏移以其近似条件要求低、成像精度高而一直是地震成像技术的发展方向。随着PC—Cluster集群的普及,逆时深度偏移的计算瓶颈开始得到解决,跨进了真正工业应用的门槛;而近年来通用用途GPU并... 在石油天然气地震勘探数据处理方法中,逆时深度偏移以其近似条件要求低、成像精度高而一直是地震成像技术的发展方向。随着PC—Cluster集群的普及,逆时深度偏移的计算瓶颈开始得到解决,跨进了真正工业应用的门槛;而近年来通用用途GPU并行计算技术的发展,又为逆时深度偏移生产处理开辟了一个大幅改善性价比的前景。本文通过对逆时深度偏移成像条件,波场重构的逆时递推关系,以及GPU\CPU协同并行计算方案的讨论,介绍了基于GPU\CPU协同并行计算的逆时偏移系统的实现策略。 展开更多
关键词 逆时深度偏析 gpu\cpu协同 系统实现
下载PDF
基于CPU-GPU混合编程的显微镜图像实时拼接
5
作者 吴为民 刘新 +2 位作者 李伙钦 江先伟 杨华 《重庆科技学院学报(自然科学版)》 CAS 2023年第3期67-74,共8页
随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CP... 随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CPU则负责逻辑控制部分的计算,提高了整体的运算效率。实验结果表明,CPU-GPU混合编程模式有效地缩短了显微镜图像拼接时间,提高了拼接的流畅度和实时性。 展开更多
关键词 电子显微镜 实时拼接 并行计算 cpu-gpu混合编程
下载PDF
GPU异构计算环境中长短时记忆网络模型的应用及优化
6
作者 梁桂才 梁思成 陆莹 《计算机应用文摘》 2024年第10期37-41,共5页
随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包... 随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包括门控循环单元、丢弃法、Adam与双向长短时记忆网络等);其次,提出了在GPU上执行的一系列优化方法,如CuDNN库的应用及并行计算的设计等。最终,通过实验分析了以上优化方法在训练时间、验证集性能、测试集性能、超参数和硬件资源使用等方面的差异。 展开更多
关键词 gpu异构 长短时记忆网络 门控循环单元 ADAM DROPOUT CuDNN
下载PDF
Fast weighting method for plasma PIC simulation on GPU-accelerated heterogeneous systems 被引量:2
7
作者 杨灿群 吴强 +3 位作者 胡慧俐 石志才 陈娟 唐滔 《Journal of Central South University》 SCIE EI CAS 2013年第6期1527-1535,共9页
Particle-in-cell (PIC) method has got much benefits from GPU-accelerated heterogeneous systems.However,the performance of PIC is constrained by the interpolation operations in the weighting process on GPU (graphic pro... Particle-in-cell (PIC) method has got much benefits from GPU-accelerated heterogeneous systems.However,the performance of PIC is constrained by the interpolation operations in the weighting process on GPU (graphic processing unit).Aiming at this problem,a fast weighting method for PIC simulation on GPU-accelerated systems was proposed to avoid the atomic memory operations during the weighting process.The method was implemented by taking advantage of GPU's thread synchronization mechanism and dividing the problem space properly.Moreover,software managed shared memory on the GPU was employed to buffer the intermediate data.The experimental results show that the method achieves speedups up to 3.5 times compared to previous works,and runs 20.08 times faster on one NVIDIA Tesla M2090 GPU compared to a single core of Intel Xeon X5670 CPU. 展开更多
关键词 gpu computing heterogeneous computing plasma physics simulations particle-in-cell (PIC)
下载PDF
CPU-GPU MPSoC中使用寿命驱动的OpenCL应用调度方法
8
作者 曹坤 龙赛琴 李哲涛 《计算机研究与发展》 EI CSCD 北大核心 2023年第5期976-991,共16页
近年来,集成CPU和GPU的多处理器片上系统(multiprocessor system-on-chips,MPSoC),凭借兼顾GPU核心的并行计算能力和CPU核心的通用计算能力,已经广泛应用于工业控制、汽车电子、智慧医疗等领域.为了充分发挥CPU-GPU MPSoC的性能,开放计... 近年来,集成CPU和GPU的多处理器片上系统(multiprocessor system-on-chips,MPSoC),凭借兼顾GPU核心的并行计算能力和CPU核心的通用计算能力,已经广泛应用于工业控制、汽车电子、智慧医疗等领域.为了充分发挥CPU-GPU MPSoC的性能,开放计算语言(open computing language,OpenCL)逐渐成为一种主流的应用程序编写标准.然而,在将OpenCL应用部署到CPU-GPU MPSoC的过程中,现有研究工作大多忽略了对芯片温度和使用寿命的管理,导致处理器核心在执行应用时超过了峰值温度,甚至永久性故障的提前发生,无法保证OpenCL应用的长久稳定运行.为了弥补上述缺点,提出了一种包含静态和动态应用调度技术的方法.静态应用调度技术是基于改进交叉熵策略,将OpenCL应用的特性充分考虑在内,有效提高了OpenCL应用设计点的寻优效率.动态应用调度技术是基于反馈控制策略,克服了传统方案中无法有效应对系统运行时新到应用的缺陷,能够最小化新到应用的平均延迟.实验表明,所提方法可以将应用的平均延迟降低34.58%,同时满足温度、能耗、使用寿命的约束. 展开更多
关键词 cpu-gpu多处理器片上系统 延迟 寿命 OpenCL应用 调度 温度
下载PDF
基于虚拟化的GPU异构资源池平台架构设计、关键技术及应用研究
9
作者 张万才 张楠 +2 位作者 杨文清 王涛 张文强 《电信科学》 北大核心 2024年第9期162-175,共14页
人工智能算力资源面临价格高昂、市场断供等现状问题,传统的单卡单用模式导致资源利用率和使用效率低下,现有的技术研究手段难以支撑多元异构图形处理单元(graphics processing unit,GPU)资源的高效管理和调度。基于此,提出一种基于虚... 人工智能算力资源面临价格高昂、市场断供等现状问题,传统的单卡单用模式导致资源利用率和使用效率低下,现有的技术研究手段难以支撑多元异构图形处理单元(graphics processing unit,GPU)资源的高效管理和调度。基于此,提出一种基于虚拟化的GPU异构资源池平台,首先对平台总体架构、逻辑架构和功能架构进行了规划设计;其次,对关键技术进行研究,提出了虚拟化异构GPU资源池框架和基于时间切片+负载均衡的调度模型;最后,基于所提方法,提出了多业务单卡叠加、交叉拉远、跨机整合、混合部署和时分复用等多种创新应用模式。所提方法为企业级AI应用提供了可兼容多个GPU不同厂商、支持远程访问、可灵活切分和聚合、可弹性调度的GPU算力资源。经测算分析,同等开发和训练量下,GPU卡数量可节省60%、运行效率可提升4倍。 展开更多
关键词 gpu异构资源池 算力平台 虚拟化 时间切片 负载均衡
下载PDF
Time Predictable Modeling Method for GPU Architecture with SIMT and Cache Miss Awareness
10
作者 Shaojie Zhang 《Journal of Electronic Research and Application》 2024年第2期109-115,共7页
Graphics Processing Units(GPUs)are used to accelerate computing-intensive tasks,such as neural networks,data analysis,high-performance computing,etc.In the past decade or so,researchers have done a lot of work on GPU ... Graphics Processing Units(GPUs)are used to accelerate computing-intensive tasks,such as neural networks,data analysis,high-performance computing,etc.In the past decade or so,researchers have done a lot of work on GPU architecture and proposed a variety of theories and methods to study the microarchitectural characteristics of various GPUs.In this study,the GPU serves as a co-processor and works together with the CPU in an embedded real-time system to handle computationally intensive tasks.It models the architecture of the GPU and further considers it based on some excellent work.The SIMT mechanism and Cache-miss situation provide a more detailed analysis of the GPU architecture.In order to verify the GPU architecture model proposed in this article,10 GPU kernel_task and an Nvidia GPU device were used to perform experiments.The experimental results showed that the minimum error between the kernel task execution time predicted by the GPU architecture model proposed in this article and the actual measured kernel task execution time was 3.80%,and the maximum error was 8.30%. 展开更多
关键词 heterogeneous computing gpu Architecture modeling Time predictability
下载PDF
基于强化学习的异构CPU环境网络资源部署方法
11
作者 王秋琳 梁懿 +2 位作者 刘迪 董昌朝 董晓祺 《自动化技术与应用》 2024年第11期140-144,173,共6页
针对现有方法进行异构CPU网络资源部署后存在的任务迟延长、资源处理效率低等问题,提出基于强化学习的异构CPU环境网络资源统一部署方法。先对Q-Learning强化学习及深度Q学习网络DQN的特点进行分析,通过更新深度神经网络各层权值、进行... 针对现有方法进行异构CPU网络资源部署后存在的任务迟延长、资源处理效率低等问题,提出基于强化学习的异构CPU环境网络资源统一部署方法。先对Q-Learning强化学习及深度Q学习网络DQN的特点进行分析,通过更新深度神经网络各层权值、进行强化学习训练以及设置目标网络等方式更新Q值,构建异构多核处理器CPU资源调度模型,将其用来调度网络资源,并利用DQN网络确定最佳资源部署策略,实现网络资源统一部署。实验结果表明:该方法可实现异构多核CPU负载均衡,且该方法部署后的任务迟延少、执行时间短,资源处理效率突出,具有一定应用价值。 展开更多
关键词 异构cpu 深度Q学习网络 神经网络 网络资源部署 网络权值
下载PDF
基于CPU/GPU异构平台的全波形反演及其实用化分析 被引量:12
12
作者 张猛 王华忠 +3 位作者 任浩然 冯波 隋志强 王延光 《石油物探》 EI CSCD 北大核心 2014年第4期461-467,共7页
全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实... 全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实现流程。理论模型测试结果表明,该算法不仅对速度模型具有高精度刻画能力,而且计算效率比基于CPU集群的FWI算法大幅提升。对胜利探区某陆上区块实际地震资料进行全波形速度反演试处理,取得了初步的应用效果。在此基础上,讨论了FWI对实际地震资料质量的要求,就FWI在陆上地震资料的生产性应用提出了相应的策略。 展开更多
关键词 地震反问题 全波形反演 速度估计 cpu gpu异构平台 陆上地震资料
下载PDF
基于GPU/CPU叠前逆时偏移研究及应用 被引量:14
13
作者 刘文卿 王宇超 +4 位作者 雍学善 王孝 邵喜春 高厚强 刘秋良 《石油地球物理勘探》 EI CSCD 北大核心 2012年第5期712-716,844+676,共5页
本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协... 本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协同系统的计算效率非常高,在实际应用中取得良好的成像效果和时效比。理论模型试算和实际盐丘数据的处理验证了算法的正确性。 展开更多
关键词 逆时偏移 波动方程 成像条件 gpu/cpu协同计算 随机速度边界
下载PDF
CPU和GPU协同处理的光学卫星遥感影像正射校正方法 被引量:34
14
作者 方留杨 王密 李德仁 《测绘学报》 EI CSCD 北大核心 2013年第5期668-675,共8页
系统地探讨基于CPU和GPU协同处理的光学卫星遥感影像正射校正方法。首先使用"层次性分块"策略设计基于CPU和GPU协同处理的正射校正方法,然后通过配置选择优化和存储层次性访问等手段进一步提高方法执行效率。在Tesla M2050 GP... 系统地探讨基于CPU和GPU协同处理的光学卫星遥感影像正射校正方法。首先使用"层次性分块"策略设计基于CPU和GPU协同处理的正射校正方法,然后通过配置选择优化和存储层次性访问等手段进一步提高方法执行效率。在Tesla M2050 GPU上对资源三号卫星下视全色影像进行正射校正的试验结果表明,本文方法可大幅提高光学卫星遥感影像正射校正效率,与传统串行正射校正算法相比,加速比最高达到110倍以上,相应的处理时间压缩至5 s以内,可满足对海量数据光学卫星遥感影像进行快速正射校正的要求。 展开更多
关键词 正射校正 cpugpu协同处理 层次性分块 配置选择优化 存储层次性访问
下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
15
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 cpu/gpu异构混合并行
下载PDF
基于CPU/GPU异构模式的高光谱遥感影像数据处理研究与实现 被引量:6
16
作者 汤媛媛 周海芳 +1 位作者 方民权 申小龙 《计算机科学》 CSCD 北大核心 2016年第2期47-50,77,共5页
近年来,基于GPU的新型异构高性能计算模式的蓬勃发展为众多领域应用提供了良好的发展机遇,国内外遥感专家开始引入高性能异构计算来解决高光谱遥感影像高维空间特点所带来的数据计算量大、实时处理难等问题。在此简要介绍了高光谱遥感和... 近年来,基于GPU的新型异构高性能计算模式的蓬勃发展为众多领域应用提供了良好的发展机遇,国内外遥感专家开始引入高性能异构计算来解决高光谱遥感影像高维空间特点所带来的数据计算量大、实时处理难等问题。在此简要介绍了高光谱遥感和CPU/GPU异构计算模式,总结了近几年国内外基于CPU/GPU异构模式的高光谱遥感数据处理研究现状和问题;并面向共享存储型小型桌面超级计算机,基于CPU/GPU异构模式实现了高光谱遥感影像MNF降维的并行化,通过与串行程序和共享存储的OpenMP同构模式对比,验证了异构模式在高光谱遥感处理领域的发展潜力。 展开更多
关键词 高光谱遥感 cpu/gpu OPENMP MNF
下载PDF
基于GPU/CPU和震源随机编码技术的混合域全波形反演 被引量:5
17
作者 冯海新 刘洪 +2 位作者 孙军 胡婷 刘志伟 《石油物探》 EI CSCD 北大核心 2017年第1期107-115,共9页
传统的全波形反演利用普通炮集进行反演,反演计算量过大;且利用传统的相位编码技术进行全波形反演,会产生炮间串扰问题,因此,提出了基于GPU/CPU和震源随机编码技术的混合域全波形反演。该方法将参与反演的多个炮集随机组合并分成炮集数... 传统的全波形反演利用普通炮集进行反演,反演计算量过大;且利用传统的相位编码技术进行全波形反演,会产生炮间串扰问题,因此,提出了基于GPU/CPU和震源随机编码技术的混合域全波形反演。该方法将参与反演的多个炮集随机组合并分成炮集数相同的组,各组炮集叠加形成多个组合炮集,然后将组合炮集代替普通炮集进行反演。与传统的相位编码反演方法相比,震源随机编码技术在反演效率和收敛速度方面均有优势,且减少了炮间串扰噪声;并且在GPU的加速下,计算效率会再次提升。Marmousi模型数据测试结果表明:组合炮集方法得到了与普通炮集方法相同的反演效果,但计算效率却比普通炮集方法明显提高,且相较于传统的相位编码技术,组合炮集方法有效抑制了串扰噪声。 展开更多
关键词 混合域 全波形反演 gpu/cpu 组合炮集 震源随机编码
下载PDF
CPU-GPU系统中基于剖分的全局性能优化方法 被引量:10
18
作者 张保 董小社 +3 位作者 白秀秀 曹海军 刘超 梅一多 《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第2期17-23,共7页
针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优... 针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化;针对3级优化剖分工具库提供了3级剖分机制,通过运行时的剖分技术获取剖分信息;策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略.实验证明,基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU-GPU异构并行系统上的全局优化过程,利用该优化方法后,以矩阵相乘和傅里叶变换为例的应用性能提升明显,最终性能相对于访存级优化最高可提高30%左右. 展开更多
关键词 cpu-gpu异构并行系统 全局优化 3级优化 3级剖分
下载PDF
CPU/GPU协同并行计算研究综述 被引量:95
19
作者 卢风顺 宋君强 +1 位作者 银福康 张理论 《计算机科学》 CSCD 北大核心 2011年第3期5-9,46,共6页
CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GP... CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GPU协同并行计算研究划分为三类,尔后从立项依据、研究内容和研究方法等方面重点介绍了几个混合计算项目,并指出了可进一步研究的方向,以期为领域科学家进行协同并行计算研究提供一定参考。 展开更多
关键词 异构混合 协同并行计算 gpu计算 性能优化 可扩展
下载PDF
CPU-GPU协同计算加速ASIFT算法 被引量:6
20
作者 何婷婷 芮建武 温腊 《计算机科学》 CSCD 北大核心 2014年第5期14-19,共6页
ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共... ASIFT(Affine-SIFT)是一种具有仿射不变性、尺度不变性的特征提取算法,其被用于图像匹配中,具有较好的匹配效果,但因计算复杂度高而难以运用到实时处理中。在分析ASIFT算法运行耗时分布的基础上,先对SIFT算法进行了GPU优化,通过使用共享内存、合并访存,提高了数据访问效率。之后对ASIFT计算中的其它部分进行GPU优化,形成GASIFT。整个GASIFT计算过程中使用显存池来减少对显存的申请和释放。最后分别在CPU/GPU协同工作的两种方式上进行了尝试。实验表明,CPU负责逻辑计算、GPU负责并行计算的模式最适合于GASIFT计算,在该模式下GASIFT有很好的加速效果,尤其针对大、中图片。对于2048*1536的大图片,GASIFT与标准ASIFT相比加速比可达16倍,与OpenMP优化过的ASIFT相比加速比可达7倍,极大地提高了ASIFT在实时计算中应用的可能性。 展开更多
关键词 特征提取 ASIFT SIFT cpu gpu协同工作
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部