期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
Parallel Image Processing: Taking Grayscale Conversion Using OpenMP as an Example
1
作者 Bayan AlHumaidan Shahad Alghofaily +2 位作者 Maitha Al Qhahtani Sara Oudah Naya Nagy 《Journal of Computer and Communications》 2024年第2期1-10,共10页
In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularl... In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularly noteworthy in the field of image processing, which witnessed significant advancements. This parallel computing project explored the field of parallel image processing, with a focus on the grayscale conversion of colorful images. Our approach involved integrating OpenMP into our framework for parallelization to execute a critical image processing task: grayscale conversion. By using OpenMP, we strategically enhanced the overall performance of the conversion process by distributing the workload across multiple threads. The primary objectives of our project revolved around optimizing computation time and improving overall efficiency, particularly in the task of grayscale conversion of colorful images. Utilizing OpenMP for concurrent processing across multiple cores significantly reduced execution times through the effective distribution of tasks among these cores. The speedup values for various image sizes highlighted the efficacy of parallel processing, especially for large images. However, a detailed examination revealed a potential decline in parallelization efficiency with an increasing number of cores. This underscored the importance of a carefully optimized parallelization strategy, considering factors like load balancing and minimizing communication overhead. Despite challenges, the overall scalability and efficiency achieved with parallel image processing underscored OpenMP’s effectiveness in accelerating image manipulation tasks. 展开更多
关键词 Parallel Computing Image processing OPENMP Parallel programming High Performance Computing GPU (graphic processing unit)
下载PDF
An Efficient Acceleration of Solving Heat and Mass Transfer Equations with the First Kind Boundary Conditions in Capillary Porous Radially Composite Cylinder Using Programmable Graphics Hardware
2
作者 Hira Narang Fan Wu Abdul Rafae Mohammed 《Journal of Computer and Communications》 2019年第7期267-281,共15页
With the latest advances in computing technology, a huge amount of efforts have gone into simulation of a range of scientific phenomena in engineering fields. One such case is the simulation of heat and mass transfer ... With the latest advances in computing technology, a huge amount of efforts have gone into simulation of a range of scientific phenomena in engineering fields. One such case is the simulation of heat and mass transfer in capillary porous media, which is becoming more and more necessary in analyzing a number of eventualities in science and engineering applications. However, this procedure of numerical solution of heat and mass transfer equations for capillary porous media is very time consuming. Therefore, this paper pursuit is at making use of one of the acceleration methods developed in the graphics community that exploits a graphical processing unit (GPU), which is applied to the numerical solutions of such heat and mass transfer equations. The nVidia Compute Unified Device Architecture (CUDA) programming model offers a correct approach of applying parallel computing to applications with graphical processing unit. This paper suggests a true improvement in the performance while solving the heat and mass transfer equations for capillary porous radially composite cylinder with the first type of boundary conditions. This heat and mass transfer simulation is carried out through the usage of CUDA platform on nVidia Quadro FX 4800 graphics card. Our experimental outcomes exhibit the drastic overall performance enhancement when GPU is used to illustrate heat and mass transfer simulation. GPU can considerably accelerate the performance with a maximum found speedup of more than 5-fold times. Therefore, the GPU is a good strategy to accelerate the heat and mass transfer simulation in porous media. 展开更多
关键词 Numerical Solution Heat and Mass Transfer General Purpose graphics processing unit (gpgpu) CUDA
下载PDF
An Efficient Acceleration of Solving Heat and Mass Transfer Equations with the Second Kind Boundary Conditions in Capillary Porous Composite Cylinder Using Programmable Graphics Hardware
3
作者 Hira Narang Fan Wu Abdul Rafae Mohammed 《Journal of Computer and Communications》 2018年第9期24-38,共15页
With the recent developments in computing technology, increased efforts have gone into simulation of various scientific methods and phenomenon in engineering fields. One such case is the simulation of heat and mass tr... With the recent developments in computing technology, increased efforts have gone into simulation of various scientific methods and phenomenon in engineering fields. One such case is the simulation of heat and mass transfer in capillary porous media, which is becoming more and more important in analysing various scenarios in engineering applications. Analysing such heat and mass transfer phenomenon in a given environment requires us to simulate it. This entails simulation of coupled heat mass transfer equations. However, this process of numerical solution of heat and mass transfer equations is very much time consuming. Therefore, this paper aims at utilizing one of the acceleration techniques developed in the graphics community that exploits a graphics processing unit (GPU) which is applied to the numerical solutions of heat and mass transfer equations. The nVidia Compute Unified Device Architecture (CUDA) programming model caters a good method of applying parallel computing to program the graphical processing unit. This paper shows a good improvement in the performance while solving the heat and mass transfer equations for capillary porous composite cylinder with the second kind of boundary conditions numerically running on GPU. This heat and mass transfer simulation is implemented using CUDA platform on nVidia Quadro FX 4800 graphics card. Our experimental results depict the drastic performance improvement when GPU is used to perform heat and mass transfer simulation. GPU can significantly accelerate the performance with a maximum observed speedup of more than 7-fold times. Therefore, the GPU is a good approach to accelerate the heat and mass transfer simulation. 展开更多
关键词 Numerical Solution Heat and Mass Transfer General Purpose graphics processing unit (gpgpu) CUDA
下载PDF
Exploiting Parallelism in the Simulation of General Purpose Graphics Processing Unit Program
4
作者 赵夏 马胜 +1 位作者 陈微 王志英 《Journal of Shanghai Jiaotong university(Science)》 EI 2016年第3期280-288,共9页
The simulation is an important means of performance evaluation of the computer architecture. Nowadays, the serial simulation of general purpose graphics processing unit(GPGPU) architecture is the main bottleneck for t... The simulation is an important means of performance evaluation of the computer architecture. Nowadays, the serial simulation of general purpose graphics processing unit(GPGPU) architecture is the main bottleneck for the simulation speed. To address this issue, we propose the intra-kernel parallelization on a multicore processor and the inter-kernel parallelization on a multiple-machine platform. We apply these two methods to the GPGPU-sim simulator. The intra-kernel parallelization method firstly parallelizes the serial simulation of multiple compute units in one cycle. Then it parallelizes the timing and functional simulation to reduce the performance loss caused by the synchronization between different compute units. The inter-kernel parallelization method divides multiple kernels of a CUDA program into several groups and distributes these groups across multiple simulation hosts to perform the simulation. Experimental results show that the intra-kernel parallelization method achieves a speed-up of up to 12 with a maximum error rate of 0.009 4% on a 32-core machine, and the inter-kernel parallelization method can accelerate the simulation by a factor of up to 3.9 with a maximum error rate of 0.11% on four simulation hosts. The orthogonality between these two methods allows us to combine them together on multiple multi-core hosts to get further performance improvements. 展开更多
关键词 general purpose graphics processing unit(gpgpu) MULTICORE intra-kernel inter-kernel parallel
原文传递
面向GPU并行编程的线程同步综述
5
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(gpgpu) 并行编程 线程同步 性能优化
下载PDF
基于GPGPU的Lattice-Boltzmann数值模拟算法 被引量:11
6
作者 周季夫 钟诚文 +2 位作者 尹世群 解建飞 张勇 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2008年第7期912-918,共7页
对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、... 对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、多通道渲染和乒乓技术来设计一套基于方腔的LBM数值模拟程序,最终使GPU的计算时间缩短到CPU计算时间的六分之一. 展开更多
关键词 基于图形处理器的通用计算 帧缓存扩展 多重渲染目标 Lattice-Boltzmann方法 反弹边界 乒乓技术
下载PDF
基于GPGPU的JPEG2000图像压缩方法 被引量:5
7
作者 李玉峰 吴蔚 +1 位作者 王恺 崔迎炜 《电子器件》 CAS 北大核心 2013年第2期163-168,共6页
为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发... 为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发平台。在通用计算图形处理器(General Purpose Graphic Process Unit,GPGPU)上使用CUDA技术实现DWT并行化加速,并针对GPGPU存储空间的特点进行优化。得出的实验结果表明,经过CUDA并行优化的方法能够有效地提高离散小波变换DWT的计算速度。 展开更多
关键词 JPEG2000 离散小波变换 通用图形处理器 并行计算 CUDA
下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
8
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
下载PDF
基于2阶段同步的GPGPU线程块压缩调度方法 被引量:1
9
作者 张军 何炎祥 +2 位作者 沈凡凡 江南 李清安 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1173-1185,共13页
通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图... 通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图形处理器均通过大量高度并行的线程完成计算任务的高效执行.但是在处理条件分支转移的控制流中,由于通用图形处理器采用串行的方式顺序处理不同的分支路径,使得其并行计算能力受到影响.在分析讨论前人针对分支转移处理低效的线程块压缩重组调度方法的基础上,提出了2阶段同步的线程块压缩重组调度方法 TSTBC(two-stage synchronization based thread block compaction scheduling),通过线程块压缩重组适合性判断逻辑部件,分2个阶段对线程块进行压缩重组有效性分析,进一步减少了无效的线程块压缩重组次数.模拟实验结果表明:该方法较好地提高了线程块的压缩重组有效性,相对于其他同类方法降低了对线程组内部数据局部性的破坏,并使得片上一级数据cache的访问失效率得到有效降低;相对于基准体系结构,系统性能提升了19.27%. 展开更多
关键词 通用图形处理器 线程调度 线程块压缩重组 2阶段同步 分支转移
下载PDF
基于GPGPU的准实时测频技术
10
作者 张朝晖 於建生 +1 位作者 薛钰娟 徐勤建 《雷达科学与技术》 2011年第2期183-187,共5页
简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实... 简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实时测量频率和其他脉冲参数的要求,同时对每一脉冲还可给出测频参考误差;并且在典型信噪比下,测频精度远高于模拟测频接收机。该实现与其他实现方案相比,灵活性更好,性价比更高,具有良好的应用前景。 展开更多
关键词 通用图形处理器(gpgpu) 准实时 数字测频 超高速采样
下载PDF
GPGPU技术及其在医学图像处理中的应用
11
作者 马千里 秦畅 卞春华 《现代计算机》 2010年第8期35-37,46,共4页
介绍通用图形处理器技术(GPGPU)技术的基本原理及其特点,分析其在医学影像领域的应用,并对医学图像处理常用的卷积滤波算法和各向异性扩展滤波算法进行优化及实验。结果表明,此技术可以极大地提高图像处理的速度,使得普通计算机上也可... 介绍通用图形处理器技术(GPGPU)技术的基本原理及其特点,分析其在医学影像领域的应用,并对医学图像处理常用的卷积滤波算法和各向异性扩展滤波算法进行优化及实验。结果表明,此技术可以极大地提高图像处理的速度,使得普通计算机上也可实现复杂的医学影像处理与可视化应用。 展开更多
关键词 图形处理器 gpgpu 并行计算 医学图像处理
下载PDF
基于GPGPU的生物序列快速比对 被引量:5
12
作者 马海晨 韦刚 吴百峰 《计算机工程》 CAS CSCD 2012年第4期241-244,共4页
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串... 在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。 展开更多
关键词 生物信息学 序列比对 通用图形处理器 SMITH-WATERMAN算法 OpenCL框架
下载PDF
基于GPGPU的大整数矩阵行列式快速准确计算方法 被引量:1
13
作者 魏渐俊 陈良育 《计算机工程》 CAS CSCD 北大核心 2018年第3期47-54,共8页
传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列... 传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列式,以加速计算过程并避免浮点运算误差,同时运用中国剩余定理得到准确计算结果。实验结果表明,与常用Maple、NTL等计算软件相比,该方法计算速度快,消耗内存少,可解决计算过程中内存膨胀的问题,对于高阶整数矩阵行列式优势较为明显。 展开更多
关键词 通用计算图形处理器 行列式 高性能计算 并行算法 模方法
下载PDF
Single-particle 3D reconstruction on specialized stream architecture and comparison with GPGPUs
14
作者 段勃 Wang Wendi +1 位作者 Tan Guangming Meng Dan 《High Technology Letters》 EI CAS 2014年第4期333-345,共13页
The wide acceptance and data deluge in medical imaging processing require faster and more efficient systems to be built.Due to the advances in heterogeneous architectures recently,there has been a resurgence in the fi... The wide acceptance and data deluge in medical imaging processing require faster and more efficient systems to be built.Due to the advances in heterogeneous architectures recently,there has been a resurgence in the first research aimed at FPGA-based as well as GPGPU-based accelerator design.This paper quantitatively analyzes the workload,computational intensity and memory performance of a single-particle 3D reconstruction application,called EMAN,and parallelizes it on CUDA GPGPU architectures and decouples the memory operations from the computing flow and orchestrates the thread-data mapping to reduce the overhead of off-chip memory operations.Then it exploits the trend towards FPGA-based accelerator design,which is achieved by offloading computingintensive kernels to dedicated hardware modules.Furthermore,a customized memory subsystem is also designed to facilitate the decoupling and optimization of computing dominated data access patterns.This paper evaluates the proposed accelerator design strategies by comparing it with a parallelized program on a 4-cores CPU.The CUDA version on a GTX480 shows a speedup of about 6 times.The performance of the stream architecture implemented on a Xilinx Virtex LX330 FPGA is justified by the reported speedup of 2.54 times.Meanwhile,measured in terms of power efficiency,the FPGA-based accelerator outperforms a 4-cores CPU and a GTX480 by 7.3 times and 3.4 times,respectively. 展开更多
关键词 单粒子 架构 三维重建 FPGA 外存储器 设计策略 计算强度 数据访问模式
下载PDF
基于弹簧质点模型的三维布料仿真
15
作者 邓炫烨 张春威 罗梦婷 《信息与电脑》 2023年第8期11-14,共4页
随着游戏、动画、工业等商业领域的快速发展,较多研究者尝试使用计算机模拟真实世界物体形变,其中布料仿真是物体形变研究中的热点和重点。文章是基于欧拉显式积分和Verlet积分在布料模拟中的研究和实现。文章通过对比两种不同积分算法... 随着游戏、动画、工业等商业领域的快速发展,较多研究者尝试使用计算机模拟真实世界物体形变,其中布料仿真是物体形变研究中的热点和重点。文章是基于欧拉显式积分和Verlet积分在布料模拟中的研究和实现。文章通过对比两种不同积分算法的研究,表明欧拉显式积分所获取的效果更具有真实性,但会出现超弹性现象,而Verlet积分所获取的效果具有稳定性,但存在失真性。当两种算法在布料模拟中的质点数较多时,文章采用通用图形处理器(General-Purpose computing on Graphics Processing Units,GPGPU)计算来弥补算法的不足。 展开更多
关键词 布料仿真 弹簧质点模型 欧拉积分 Verlet积分 通用图形处理器(gpgpu)
下载PDF
地震叠前时间偏移的一种图形处理器提速实现方法 被引量:73
16
作者 李博 刘国峰 刘洪 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2009年第1期245-252,共8页
新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技... 新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技术在石油工业中的应用研究正在有效开展.本文仅借助于油气勘探中广泛使用的叠前时间偏移,旨在于扼要阐明其基于GPU应用的有效性;文中还提出一种利用GPU实现地震叠前时间偏移的软件构件方法,并针对非对称走时叠前时间偏移所拓展的应用软件提供一种具体实现架构.与以往用个人计算机(PC,Personal Computer)或者PC集群所用的叠前时间偏移相比,本文方法可甚大地提高计算效率,从而在石油物探资料处理中可显著地节约计算成本和维护费用.文中实际例证也表明,基于GPU进行高性能并行计算,当是适应目前石油工业中大规模计算需求的一个重要发展途径. 展开更多
关键词 非对称走时叠前时间偏移 图形处理器 GPU通用计算 统一计算设备架构
下载PDF
通用图形处理器缓存子系统性能优化方法综述 被引量:4
17
作者 张军 谢竟成 +3 位作者 沈凡凡 谭海 汪吕蒙 何炎祥 《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1191-1207,共17页
随着工艺和制程技术的不断发展以及体系架构的日趋完善,通用图形处理器(general purpose graphics processing units,GPGPU)的并行计算能力得到了很大的提升,其在高性能、高吞吐量等通用计算应用场景的使用越来越广泛.GPGPU通过支持大... 随着工艺和制程技术的不断发展以及体系架构的日趋完善,通用图形处理器(general purpose graphics processing units,GPGPU)的并行计算能力得到了很大的提升,其在高性能、高吞吐量等通用计算应用场景的使用越来越广泛.GPGPU通过支持大量线程的并发执行,可以较好地隐藏长延时访存操作,从而获得高并行计算能力.然而,GPGPU在处理计算和访存不规则的应用时,其存储子系统的效率受到很大影响,尤其是片上缓存的争用情况尤为突出,难以及时提供计算操作所需的数据,使得GPGPU的高并行计算能力不能得到充分发挥.解决片上缓存的争用问题、优化缓存子系统的性能,是优化GPGPU性能的主要解决方案之一,也是目前研究GPGPU性能优化的主要热点之一.目前,针对GPGPU缓存子系统的性能优化研究主要集中在线程级并行度(thread level parallelism,TLP)调节、访存顺序调节、数据通量增强、最后一级缓存(last level cache,LLC)优化和基于非易失性存储(non-volatile memory,NVM)的GPGPU缓存新架构设计等5个方面.也从这5个方面重点分析讨论了目前主要的GPGPU缓存子系统性能优化方法,并在最后指出了未来GPGPU缓存子系统优化需要进一步探讨的问题,对GPGPU缓存子系统性能优化的研究有重要意义. 展开更多
关键词 通用图形处理器 缓存子系统 性能优化 延迟隐藏 缓存争用
下载PDF
并行Agent仿真研究综述 被引量:7
18
作者 余文广 王维平 李群 《系统仿真学报》 CAS CSCD 北大核心 2012年第2期245-251,共7页
作为一种研究复杂系统的有效途径,基于Agent的建模仿真方法得到了广泛应用,但随着应用规模和复杂度的增加,仿真运行速度成为制约其应用的一个重要因素。并行Agent仿真通过将Agent模型分配到多个处理单元上同时运行来减少仿真运行时间,... 作为一种研究复杂系统的有效途径,基于Agent的建模仿真方法得到了广泛应用,但随着应用规模和复杂度的增加,仿真运行速度成为制约其应用的一个重要因素。并行Agent仿真通过将Agent模型分配到多个处理单元上同时运行来减少仿真运行时间,是提高仿真运行速度的一个直接手段。根据基于Agent的建模仿真的基本思想,分析了并行Agent仿真区别于传统的并行离散事件仿真的新特点,着重从时间同步协议、负载均衡、通信优化三方面阐述了并行Agent仿真的研究现状,并对基于通用目的图形处理器的并行Agent仿真进行了讨论。最后对并行Agent仿真未来的研究方向进行了展望。 展开更多
关键词 并行Agent仿真 时间同步协议 负载均衡 通信优化 通用目的图形处理器
下载PDF
并行时空处理模型下的快速N-body算法 被引量:3
19
作者 王伟 曾栩鸿 +2 位作者 王福焕 傅丽丽 曾国荪 《计算机科学与探索》 CSCD 2011年第11期1006-1013,共8页
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的... 图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。 展开更多
关键词 N-BODY 并行计算 通用图形处理器(gpgpu) 时间空间模型
下载PDF
图形处理器在数据库技术中的应用 被引量:4
20
作者 杨珂 罗琼 石教英 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第8期1349-1360,共12页
综述了图形处理器上的通用计算(GPGPU)技术以及利用图形处理器(GPU)进行数据库处理的工作.将GPU技术的发展划分为固定功能架构、分离渲染架构和统一渲染架构3个时代,归纳了GPGPU技术的难点和现状.对于3个时代的GPU,分别论述其体系结构... 综述了图形处理器上的通用计算(GPGPU)技术以及利用图形处理器(GPU)进行数据库处理的工作.将GPU技术的发展划分为固定功能架构、分离渲染架构和统一渲染架构3个时代,归纳了GPGPU技术的难点和现状.对于3个时代的GPU,分别论述其体系结构带来的机会与存在的局限,提出了相应的通用计算模型.综述了GPU用于数据库领域的相关研究,这些应用包括谓词、布尔组合和聚集、排序、连接、多维索引等.根据GPU技术的推动因素展望了GPGPU技术的趋势,归纳了GPU技术可以被利用的3个层面:图形流水线和通用并行计算、交互式多媒体、图形学理论与方法.以数据库技术为例展望了在每个层面上通用计算的趋势. 展开更多
关键词 图形处理器 通用计算 数据库技术
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部