期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于嵌入式CPU+GPU异构平台的遥感图像滤波加速
1
作者 谭鹏源 薛长斌 周莉 《空间科学学报》 CAS CSCD 北大核心 2024年第1期95-102,共8页
针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采... 针对遥感图像在轨实时处理提出一种基于嵌入式CPU+GPU异构平台的遥感图像滤波加速设计方法.以加速拉普拉斯滤波为例,利用GPU的并行计算特点,通过数据划分及数据映射的方法对算法进行并行设计;利用GPU的向量单元和缓存等硬件资源,通过采取向量化和向量重组以及工作组调优方法进一步提高了算法的运行速度.在嵌入式开发板上验证了加速设计的可行性和高效性.实验结果表明,相比于单CPU的串行实现,在增加GPU并行处理后的拉普拉斯滤波获得了4.08~16.92倍的加速比.进一步利用GPU硬件资源优化性能后,加速比可达15.38~56.41倍. 展开更多
关键词 嵌入式gpu 遥感图像滤波 opencl 向量化 向量重组
下载PDF
基于OpenCL的连续数据无关访存密集型函数并行与优化研究 被引量:1
2
作者 蒋丽媛 张云泉 +1 位作者 龙国平 贾海鹏 《计算机科学》 CSCD 北大核心 2013年第3期111-115,共5页
连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作。在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU... 连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作。在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化。在考察向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植。实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850GPU达到了平均40倍的性能加速比;在AMD HD 7970GPU达到了平均90倍的性能加速比;在NVIDIA Tesla C2050GPU上达到了平均60倍的性能加速比;同时,与这个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla C2050平台上也达到了1.5倍的性能加速。 展开更多
关键词 gpu opencl 向量化 roi
下载PDF
众核GPU上双调归并排序的优化
3
作者 阚圣哲 曹宗雁 《科研信息化技术与应用》 2011年第5期44-51,共8页
编写了基于OpenCL的双调归并排序程序,保留了双调归并排序算法消耗存储空间小的优点,利用算法中数据局部性特点减少程序中CPU同步的次数,使用向量计算以提升ALU使用率,并对读写访存进行了优化。程序能够运行于支持OpenCL和向量计算的显... 编写了基于OpenCL的双调归并排序程序,保留了双调归并排序算法消耗存储空间小的优点,利用算法中数据局部性特点减少程序中CPU同步的次数,使用向量计算以提升ALU使用率,并对读写访存进行了优化。程序能够运行于支持OpenCL和向量计算的显卡和处理器上。不统计PCI-E总线数据传输时间,223规模的整数排序的性能在HD6870显卡上能达到0.276GB/s。 展开更多
关键词 opencl gpu 双调归并排序 向量
原文传递
一种面向OpenCL架构的矩阵-向量乘并行算法与实现 被引量:1
4
作者 肖汉 周清雷 姚鹏姿 《小型微型计算机系统》 CSCD 北大核心 2019年第1期26-30,共5页
矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的... 矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的并行度,每个工作组进行矩阵中的行块与列向量的乘积,每个工作项进行行块中行向量与列向量的乘积,并把计算任务分别分配到计算单元和处理单元进行处理.实验结果表明,与基于CPU的串行算法、基于OpenMP并行算法和基于统一计算设备架构(Compute Unified Device Architecture,CUDA)并行算法性能相比,矩阵-向量乘并行算法在OpenCL架构下NVIDIA图形处理器(Graphic Processing Unit,GPU)计算平台上分别获得了20. 86倍、6. 39倍和1. 49倍的加速比.验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 矩阵-向量乘 图形处理器 开放式计算语言 并行算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部