期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
An Approach to Parallelization of SIFT Algorithm on GPUs for Real-Time Applications 被引量:4
1
作者 Raghu Raj Prasanna Kumar Suresh Muknahallipatna John McInroy 《Journal of Computer and Communications》 2016年第17期18-50,共33页
Scale Invariant Feature Transform (SIFT) algorithm is a widely used computer vision algorithm that detects and extracts local feature descriptors from images. SIFT is computationally intensive, making it infeasible fo... Scale Invariant Feature Transform (SIFT) algorithm is a widely used computer vision algorithm that detects and extracts local feature descriptors from images. SIFT is computationally intensive, making it infeasible for single threaded im-plementation to extract local feature descriptors for high-resolution images in real time. In this paper, an approach to parallelization of the SIFT algorithm is demonstrated using NVIDIA’s Graphics Processing Unit (GPU). The parallel-ization design for SIFT on GPUs is divided into two stages, a) Algorithm de-sign-generic design strategies which focuses on data and b) Implementation de-sign-architecture specific design strategies which focuses on optimally using GPU resources for maximum occupancy. Increasing memory latency hiding, eliminating branches and data blocking achieve a significant decrease in aver-age computational time. Furthermore, it is observed via Paraver tools that our approach to parallelization while optimizing for maximum occupancy allows GPU to execute memory bound SIFT algorithm at optimal levels. 展开更多
关键词 Scale Invariant Feature Transform (SIFT) parallel Computing gpu gpu Occupancy Portable parallel programming CUDA
下载PDF
Programming for scientific computing on peta-scale heterogeneous parallel systems 被引量:1
2
作者 杨灿群 吴强 +2 位作者 唐滔 王锋 薛京灵 《Journal of Central South University》 SCIE EI CAS 2013年第5期1189-1203,共15页
Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to co... Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to conduct computational experiments of historic significance, these systems are presently difficult to program. The users, who are domain experts rather than computer experts, prefer to use programming models closer to their domains (e.g., physics and biology) rather than MPI and OpenME This has led the development of domain-specific programming that provides domain-specific programming interfaces but abstracts away some performance-critical architecture details. Based on experience in designing large-scale computing systems, a hybrid programming framework for scientific computing on heterogeneous architectures is proposed in this work. Its design philosophy is to provide a collaborative mechanism for domain experts and computer experts so that both domain-specific knowledge and performance-critical architecture details can be adequately exploited. Two real-world scientific applications have been evaluated on TH-IA, a peta-scale CPU-GPU heterogeneous system that is currently the 5th fastest supercomputer in the world. The experimental results show that the proposed framework is well suited for developing large-scale scientific computing applications on peta-scale heterogeneous CPU/GPU systems. 展开更多
关键词 heterogeneous parallel system programming framework scientific computing gpu computing molecular dynamic
下载PDF
GPU parallel computing: Programming language,debugging tools and data structures
3
作者 Kun ZHOU 《Frontiers of Electrical and Electronic Engineering in China》 CSCD 2012年第1期5-15,共11页
With many cores driven by high memory bandwidth, today's graphics processing unit (GPU) has involved into an absolute computing workhorse. More and more scientists, researchers and software developers are using GPU... With many cores driven by high memory bandwidth, today's graphics processing unit (GPU) has involved into an absolute computing workhorse. More and more scientists, researchers and software developers are using GPUs to accelerate their algorithms and ap- plications. Developing complex programs and software on the GPU, however, is still far from easy with ex- isting tools provided by hardware vendors. This article introduces our recent research efforts to make GPU soft- ware development much easier. Specifically, we designed BSGP, a high-level programming language for general- purpose computation on the GPU. A BSGP program looks much the same as a sequential C program, and is thus easy to read, write and maintain. Its performance on the GPU is guaranteed by a well-designed compiler that converts the program to native GPU code. We also developed an effective debugging system for BSGP pro- grams based on the GPU interrupt, a unique feature of BSGP that allows calling CPU functions from inside GPU code. Moreover, using BSGP, we developed GPU algorithms for constructing several widely-used spatial hierarchies for high-performance graphics applications. 展开更多
关键词 graphics processing unit /gpu parallel computing programming languages debugging tools data structures
原文传递
Providing Source Code Level Portability Between CPU and GPU with MapCG
4
作者 Chun-Tao Hong De-Hao Chen +3 位作者 Yu-Bei Chen Wen-Guang Chen Wei-Min Zheng Hai-Bo Lin 《Journal of Computer Science & Technology》 SCIE EI CSCD 2012年第1期42-56,共15页
Graphics processing units (GPU) have taken an important role in the general purpose computing market in recent years. At present, the common approach to programming GPU units is to write CPU specific code with low l... Graphics processing units (GPU) have taken an important role in the general purpose computing market in recent years. At present, the common approach to programming GPU units is to write CPU specific code with low level GPU APIs such as CUDA. Although this approach can achieve good performance, it creates serious portability issues as programmers are required to write a specific version of the code for each potential target architecture. This results in high development and maintenance costs. We believe it is desirable to have a programming model which provides source code portability between CPUs and GPUs, as well as different GPUs. This would allow programmers to write one version of the code, which can be compiled and executed on either CPUs or GPUs efficiently without modification. In this paper, we propose MapCG, a MapReduce framework to provide source code level portability between CPUs and GPUs. In contrast to other approaches such as OpenCL, our framework, based on MapReduce, provides a high level programming model and makes programming much easier. We describe the design of MapCG, including the MapReduce-style high-level programming framework and the runtime system on the CPU and GPU. A prototype of the MapCG runtime, supporting multi-core CPUs and NVIDIA GPUs, was implemented. Our experimental results show that this implementation can execute the same source code efficiently on multi-core CPU platforms and GPUs, achieving an average speedup of 1.6-2.5x over previous implementations of MapReduce on eight commonly used applications. 展开更多
关键词 portability parallel gpu programming
原文传递
Parallel Image Processing: Taking Grayscale Conversion Using OpenMP as an Example
5
作者 Bayan AlHumaidan Shahad Alghofaily +2 位作者 Maitha Al Qhahtani Sara Oudah Naya Nagy 《Journal of Computer and Communications》 2024年第2期1-10,共10页
In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularl... In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularly noteworthy in the field of image processing, which witnessed significant advancements. This parallel computing project explored the field of parallel image processing, with a focus on the grayscale conversion of colorful images. Our approach involved integrating OpenMP into our framework for parallelization to execute a critical image processing task: grayscale conversion. By using OpenMP, we strategically enhanced the overall performance of the conversion process by distributing the workload across multiple threads. The primary objectives of our project revolved around optimizing computation time and improving overall efficiency, particularly in the task of grayscale conversion of colorful images. Utilizing OpenMP for concurrent processing across multiple cores significantly reduced execution times through the effective distribution of tasks among these cores. The speedup values for various image sizes highlighted the efficacy of parallel processing, especially for large images. However, a detailed examination revealed a potential decline in parallelization efficiency with an increasing number of cores. This underscored the importance of a carefully optimized parallelization strategy, considering factors like load balancing and minimizing communication overhead. Despite challenges, the overall scalability and efficiency achieved with parallel image processing underscored OpenMP’s effectiveness in accelerating image manipulation tasks. 展开更多
关键词 parallel Computing Image Processing OPENMP parallel programming High Performance Computing gpu (Graphic Processing Unit)
下载PDF
Bellman-Ford算法性能可移植的GPU并行优化 被引量:7
6
作者 刘磊 王燕燕 +2 位作者 申春 李玉祥 刘雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第5期1559-1564,共6页
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AM... 提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。 展开更多
关键词 计算机软件 Bellman-Ford算法 gpu并行编程及优化技术 并行归约算法 性能可移植性
下载PDF
面向GPU异构并行系统的多任务流编程模型 被引量:11
7
作者 董小社 刘超 +2 位作者 王恩东 刘袁 张兴军 《计算机学报》 EI CSCD 北大核心 2014年第7期1638-1646,共9页
传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,... 传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,利用系统硬件并行性特点实现程序任务级和数据级并行;采用任务间消息通信和任务内数据共享通信方式,既保证对传统并行应用的继承又降低了不同存储空间给应用开发带来的复杂性和难度.基于该编程模型实现了一个运行时支持系统原型,测试结果表明可保证高效的数据通信,且能充分利用系统计算能力,提高了应用程序运行效率. 展开更多
关键词 gpu 异构并行 编程模型
下载PDF
基于GPU的电磁暂态仿真可行性研究 被引量:18
8
作者 陈来军 陈颖 +1 位作者 许寅 梅生伟 《电力系统保护与控制》 EI CSCD 北大核心 2013年第2期107-112,共6页
由于CPU体系结构的制约,基于CPU的电磁暂态仿真正面临性能提升的瓶颈。近年来,GPU因其巨大的计算潜力在通用计算领域正受到越来越多的关注。从硬件结构和软件编程两个方面分析了GPU计算的特点,设计了基于CPU-GPU混合编程模型的电磁暂态... 由于CPU体系结构的制约,基于CPU的电磁暂态仿真正面临性能提升的瓶颈。近年来,GPU因其巨大的计算潜力在通用计算领域正受到越来越多的关注。从硬件结构和软件编程两个方面分析了GPU计算的特点,设计了基于CPU-GPU混合编程模型的电磁暂态仿真程序并构建了原型仿真系统。测试结果表明,当系统规模不断扩大时,GPU在电磁暂态仿真中的效率优势将越来越明显。在此基础上,结合仿真中关键环节的耗时情况,分析了影响仿真性能的关键因素,提出了改进GPU仿真效率的若干对策。 展开更多
关键词 gpu 电磁暂态仿真 并行计算 混合编程 效率分析
下载PDF
梯级水库短期优化调度模型的精细化与GPU并行实现 被引量:14
9
作者 纪昌明 马皓宇 +2 位作者 吴嘉杰 俞洪杰 彭杨 《水利学报》 EI CSCD 北大核心 2019年第5期535-546,共12页
目前制约梯级水库短期优化调度在实际工程中应用的主要瓶颈有:所构建的优化模型存在不合理的简化策略,所选择的求解算法无法保证解的质量以及模型的计算时间远超规定时长。为解决上述问题,本文首先构建精细至水电站各机组工作特性的优... 目前制约梯级水库短期优化调度在实际工程中应用的主要瓶颈有:所构建的优化模型存在不合理的简化策略,所选择的求解算法无法保证解的质量以及模型的计算时间远超规定时长。为解决上述问题,本文首先构建精细至水电站各机组工作特性的优化调度模型,接着通过二重嵌套动态规划(DP)计算给定模拟精度下的高质量解,并针对算法固有的'维数灾'问题,一方面通过数据压缩与数据库技术降低程序的内存占用量,另一方面将GPU并行加速技术首次引入水库调度领域,通过OpenACC实现算法的GPU并行以减少计算时间。最后通过潘口、小漩梯级水库日优化调度的实例研究与对比分析得出:精细模型较传统模型能更好地贴合电站的实际工况,提高梯级系统的发电效益;内存占用缩减策略的引入能有效降低算法的空间复杂度;GPU并行较传统的CPU并行能大幅提升算法的求解速度。由此为短期优化调度的理论发展与算法'维数灾'的处理提供借鉴。 展开更多
关键词 精细化模型 嵌套动态规划 gpu并行 短期优化调度 维数灾
下载PDF
一种求解机组组合问题的内点半定规划GPU并行算法 被引量:6
10
作者 张宁宇 高山 赵欣 《电力自动化设备》 EI CSCD 北大核心 2013年第7期126-131,138,共7页
针对内点法求解机组组合问题的半定规划(SDP)模型时大规模线性方程组计算时间太长的问题,提出一种基于图形处理器(GPU)的Krylov子空间并行算法。该算法采用预条件处理的拟最小残差法(QMR法),并以矩阵分块技术为基础。在CSR存储... 针对内点法求解机组组合问题的半定规划(SDP)模型时大规模线性方程组计算时间太长的问题,提出一种基于图形处理器(GPU)的Krylov子空间并行算法。该算法采用预条件处理的拟最小残差法(QMR法),并以矩阵分块技术为基础。在CSR存储格式下使用GPU实现Incomplete Cholesky并行预处理矩阵的计算。通过对不同规模线性方程组的计算分析表明,与传统的Ch01eskv直接法相比,QMR并行算法具有速度和存储优势.可获得良好的并行加速比。10-100机6个系统的仿真结果也表明,该SDP并行内点法在减少计算时间的同时可求得近似最优解。 展开更多
关键词 机组组合 半定规划 gpu QMR 不完全Cholesky分解 并行算法 Krylov 线性规划
下载PDF
多GPU加速在高性能数值计算中的应用 被引量:2
11
作者 张娜 明平洲 +2 位作者 王加昌 曾辉 刘东 《计算机工程与设计》 CSCD 北大核心 2014年第7期2602-2606,共5页
针对核能领域中存在的大量数值计算问题,结合实际应用中多核硬件平台里面的多GPU(图形处理器)计算节点,提出基于CUDA(统一计算设备架构)的任务级的并行编程框架。为核电工程设计中的数值计算提供并行硬件平台下的基础GPU编程模型,将CUD... 针对核能领域中存在的大量数值计算问题,结合实际应用中多核硬件平台里面的多GPU(图形处理器)计算节点,提出基于CUDA(统一计算设备架构)的任务级的并行编程框架。为核电工程设计中的数值计算提供并行硬件平台下的基础GPU编程模型,将CUDA底层对多GPU的有效调度与上层使用进行分离,隔离底层的编程技术,减轻设计人员和开发人员对CUDA底层接口的使用难度;将主程序中的耗时计算模块用CUDA进行改写,再移植到GPU上执行,提升多GPU对计算任务的加速性能。实验结果表明,该编程框架能有效提升多GPU对计算任务的加速。 展开更多
关键词 并行计算 并行编程 图形处理器 统一计算设备架构 数值计算 调度策略
下载PDF
面向通用计算GPU集群的任务自动分配系统 被引量:2
12
作者 胡新明 盛冲冲 +1 位作者 李佳佳 吴百锋 《计算机工程》 CAS CSCD 2014年第3期103-107,119,共6页
当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的... 当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的方式提供集群任务的计算资源需求,通过运行时系统动态地发现、建立并维护系统资源拓扑,设计一种较为契合GPU集群应用特征的任务分配策略。实验结果表明,StreamMAP系统能降低集群应用程序的编程复杂度,使之较为高效地利用GPU集群的计算资源,且程序的可移植性和可扩展性也得到了保证。 展开更多
关键词 gpu集群 异构 编程模型 任务分配 可移植性 可扩展性
下载PDF
海洋环流数值模式POP的GPU并行优化 被引量:3
13
作者 郭松 窦勇 雷元武 《计算机工程与科学》 CSCD 北大核心 2012年第8期147-153,共7页
POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU... POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X56756核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。 展开更多
关键词 CUDA gpu POP模式 gpuPOP CUDA FORTRAN
下载PDF
GPU编程原理及其在网络安全领域的应用算法分析 被引量:2
14
作者 吴鸿伟 汤伟宾 +1 位作者 李晓潮 郭东辉 《计算机科学》 CSCD 北大核心 2012年第S3期24-27,共4页
近年来,GPU在通用计算方面对传统的CPU应用发起了强有力的冲击,被广泛运用于各种高性能计算中,特别是网络安全领域。为了解决传统硬件加速存在的缺陷问题,首先介绍GPU的基本硬件架构及其并行计算原理,其次说明基于CUDA的GPU编程与通用CP... 近年来,GPU在通用计算方面对传统的CPU应用发起了强有力的冲击,被广泛运用于各种高性能计算中,特别是网络安全领域。为了解决传统硬件加速存在的缺陷问题,首先介绍GPU的基本硬件架构及其并行计算原理,其次说明基于CUDA的GPU编程与通用CPU编程之间算法实现的性能差异,最后详细分析了几种典型的网络安全算法,并设计了相应的GPU并行加速试验进行性能测试。实验结果表明,在算法设计合理的前提下,GPU可以提升应用算法上百倍的计算性能。 展开更多
关键词 gpu编程 并行计算 网络安全
下载PDF
基于CPU-GPU协同并行内点算法求解结构化非线性规划 被引量:2
15
作者 杨林峰 胡桂莉 +1 位作者 张晨 张振荣 《电子学报》 EI CAS CSCD 北大核心 2019年第2期382-389,共8页
大量工程应用问题可建模为结构化非线性规划,且这类问题的系数矩阵可分为稀疏型和稠密型两种类型.利用原始-对偶内点法(primal dual interior point method,PD-IPM),并结合分布式并行技术可高效求解此类问题.经典工程问题-机组组合(unit... 大量工程应用问题可建模为结构化非线性规划,且这类问题的系数矩阵可分为稀疏型和稠密型两种类型.利用原始-对偶内点法(primal dual interior point method,PD-IPM),并结合分布式并行技术可高效求解此类问题.经典工程问题-机组组合(unit commitment,UC)为稀疏系数矩阵的结构化非线性规划,本文根据PD-IPM原理,对UC模型进行连续松弛预处理,结合快速解耦技术解耦牛顿修正方程并设计CPU-GPU协同并行算法求解子问题,最后将结果与带稠密型子问题的结构化非线性规划的求解结果进行比较和分析.实验结果显示,本文所设计的算法对于两种不同类型的结构化非线性规划求解均能获得较好的加速比. 展开更多
关键词 非线性规划 内点法 机组组合 CPU-gpu协同 并行计算
下载PDF
一种基于GPU的地形顶点法向量并行计算方法 被引量:2
16
作者 何望君 刘纪平 张福浩 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2017年第7期734-738,共5页
为实现三维地形场景实时光照和阴影,采用顶点周围四点高程和GPU(显卡)寄存器绑定方法,借助顶点缓冲区和顶点着色器实时计算顶点法向量,对比主流地形着色算法,实验验证了GPU法向量实时计算效率和显卡兼容性.研究结果表明:地形场景为百万... 为实现三维地形场景实时光照和阴影,采用顶点周围四点高程和GPU(显卡)寄存器绑定方法,借助顶点缓冲区和顶点着色器实时计算顶点法向量,对比主流地形着色算法,实验验证了GPU法向量实时计算效率和显卡兼容性.研究结果表明:地形场景为百万级(1 048 576)三角形时,GPU顶点法向量计算方法具备较高渲染帧率(66帧/s)和较好显卡兼容性.研究结论初步突破了真实感地形需要Normal Map的限制,有利于网络条件下快速高效渲染大规模真实感地形. 展开更多
关键词 地形渲染 gpu编程 法向图 实时光照 并行计算
下载PDF
基于GPU的受限玻尔兹曼机并行加速 被引量:1
17
作者 张立民 刘凯 范晓磊 《电子设计工程》 2016年第2期28-31,34,共5页
为针对受限玻尔兹曼机处理大数据时存在的训练缓慢、难以得到模型最优的问题,提出了基于GPU的RBM模型训练并行加速方法。首先重新规划了对比散度算法在GPU的实现步骤;其次结合以往GPU并行方案,提出采用CUBLAS执行训练的矩阵乘加运算,设... 为针对受限玻尔兹曼机处理大数据时存在的训练缓慢、难以得到模型最优的问题,提出了基于GPU的RBM模型训练并行加速方法。首先重新规划了对比散度算法在GPU的实现步骤;其次结合以往GPU并行方案,提出采用CUBLAS执行训练的矩阵乘加运算,设计周期更长、代码更为简洁的Tausworthe113和CLCG4的组合随机数生成器,利用CUDA拾取纹理内存的读取模式实现了Sigmoid函数值计算;最后对训练时间和效果进行检验。通过MNIST手写数字识别集实验证明,相较于以往RBM并行代码,新设计的GPU并行方案在处理大规模数据集训练上优势较为明显,加速比达到25以上。 展开更多
关键词 受限玻尔兹曼机 gpu CUDA 加速比 并行加速
下载PDF
基于CPU-GPU混合编程的显微镜图像实时拼接
18
作者 吴为民 刘新 +2 位作者 李伙钦 江先伟 杨华 《重庆科技学院学报(自然科学版)》 CAS 2023年第3期67-74,共8页
随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CP... 随着电子显微镜图像的分辨率越来越高,图像拼接的计算量也越来越大,实时拼接的流畅效果对计算速度提出了很高的要求。利用NVIDIA的GPU并行编程框架CUDA,将拼接过程中耗时较长的图像特征点检测和图像拷贝部分迁移到GPU上进行并行计算,CPU则负责逻辑控制部分的计算,提高了整体的运算效率。实验结果表明,CPU-GPU混合编程模式有效地缩短了显微镜图像拼接时间,提高了拼接的流畅度和实时性。 展开更多
关键词 电子显微镜 实时拼接 并行计算 CPU-gpu混合编程
下载PDF
面向节点异构GPU集群的编程框架 被引量:3
19
作者 盛冲冲 胡新明 +1 位作者 李佳佳 吴百锋 《计算机工程》 CAS CSCD 北大核心 2015年第2期292-297,共6页
基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向... 基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向节点异构GPU集群体系结构的新型编程框架分布式并行编程框架(DISPAR)。DISPAR框架包含2个子系统:(1)代码转换系统Stream CC,是DISPAR源代码到MPI+CUDA代码的自动转换器。(2)任务分配系统Stream MAP,具有自动发现异构计算资源和任务自动映射功能的运行时系统。实验结果表明,该框架有效简化了GPU集群应用程序的编写,可高效地利用异构GPU集群的计算资源,且程序不依赖于硬件平台,可移植性较好。 展开更多
关键词 gpu集群 异构 分布式并行编程框架 代码转换 任务分配 可移植性
下载PDF
基于异构GPU集群的并行分布式编程解决方案 被引量:1
20
作者 李佳佳 胡新明 吴百锋 《计算机应用与软件》 CSCD 北大核心 2014年第9期28-31,176,共5页
由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大... 由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大提高了在GPU集群中编程的复杂度。主流GPU异构集群系统大多采用针对GPU的异构计算编程模型与面向分布式内存的消息传递模型的简单结合方式,这种方式使得GPU集群程序设计缺乏确定的准则,往往是低效而且易错的。为了提高在GPU集群中编程的效率,降低编程复杂度,以及实现平台无关性,提出一套异构GPU集群的并行分布式编程的解决方案。该方案通过采用扩展语言方法提出了编程框架DISPAR,并实现了预处理器系统StreamCC。实验证明了其可行性。 展开更多
关键词 gpu集群 编程模型 数据级并行
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部