期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
面向DCU非一致控制流的编译优化 被引量:2
1
作者 杨小艺 赵荣彩 +2 位作者 王洪生 韩林 徐坤坤 《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化... 国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。 展开更多
关键词 DCU 单指令多线程 线程束分化 复杂控制流 编译优化
下载PDF
基于GPGPU的并行影像匹配算法 被引量:44
2
作者 肖汉 张祖勋 《测绘学报》 EI CSCD 北大核心 2010年第1期46-51,共6页
提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实... 提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实验结果表明,并行算法充分利用GPU的并行处理能力,在处理1280×1024分辨率的8位灰度图像时可达到最高多处理器warp占有率,速度是基于CPU实现的7倍。CUDA在高运算强度数据处理中呈现出的实时处理能力和计算能力,为进一步加速影像匹配性能和GPU通用计算提供了新的方法和思路。 展开更多
关键词 细粒度并行计算 图形处理器的通用计算 统一计算设备架构 影像匹配 单指令多线程
下载PDF
基于CUDA技术的卷积神经网络识别算法 被引量:9
3
作者 张佳康 陈庆奎 《计算机工程》 CAS CSCD 北大核心 2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP... 针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。 展开更多
关键词 流处理器 单指令多线程 GTX200硬件架构 CUDA技术 卷积神经网络
下载PDF
一种易实现的SIMT调度模型分析 被引量:3
4
作者 徐元旭 张超 +1 位作者 杨兵 喻明艳 《微电子学与计算机》 CSCD 北大核心 2014年第1期25-28,共4页
以图像处理器(GPU)为基础,从中提取建立出单指令多线程调度模型,该模型独立于GPU,功能与其类似,但结构更简单,更易于理解和实现,方便向其他处理器结构中移植.并对该调度模型进行性能分析,分析结果揭示出该模型的特性,对该模型的使用和... 以图像处理器(GPU)为基础,从中提取建立出单指令多线程调度模型,该模型独立于GPU,功能与其类似,但结构更简单,更易于理解和实现,方便向其他处理器结构中移植.并对该调度模型进行性能分析,分析结果揭示出该模型的特性,对该模型的使用和向其他处理器中移植以及优化提供重要参考. 展开更多
关键词 多核处理器 多线程并行处理 单指令多线程 调度模型 性能分析
下载PDF
CUDA架构下的快速Wallis影像增强算法
5
作者 肖汉 吴庆双 冯娜 《沈阳工业大学学报》 EI CAS 2011年第3期293-298,共6页
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形... 针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间. 展开更多
关键词 图形处理器 统一计算设备架构 单指令多线程 Wallis变换 影像增强 CUDA核 并行 滤波
下载PDF
基于CUDA的图像径向基模糊实现方法研究
6
作者 陈浩 陈兆学 喻海中 《中国医学物理学杂志》 CSCD 2012年第6期3772-3776,共5页
目的:为了克服传统高斯模糊方法处理速度容易受模板大小局限和图像边界处不能真实反映高斯模糊结果的缺陷,本文提出了一种基于计算统一设备架构CUDA的图像高斯径向基模糊的实现方法。方法:采用连续的高斯径向基函数对图像直接在时域进... 目的:为了克服传统高斯模糊方法处理速度容易受模板大小局限和图像边界处不能真实反映高斯模糊结果的缺陷,本文提出了一种基于计算统一设备架构CUDA的图像高斯径向基模糊的实现方法。方法:采用连续的高斯径向基函数对图像直接在时域进行乘积运算,使高斯模糊后图像每一像素点值(包括图像边界处的像素值)与原始图像所有像素点的值相关联。根据高斯径向基函数径向对称的特点以及CUDA单指令多线程(SIMT)的并行执行模型,并且使用合并访存、共享内存、常量内存等合适的内存优化措施,对运算的过程进行GPU并行加速。结果:对尿沉渣图像进行高斯径向基模糊结果表明:图像在模糊过程中克服了模板的局限,在边界质量上得到了极大的改善;处理速度上也达到了较大的提高。结论:基于CUDA平台能很好的并行实现高斯径向基模糊,与串行运算速度相比,在大尺寸图像处理时加速比可望达到20倍以上。 展开更多
关键词 高斯径向基模糊 计算统一设备架构 单指令多线程 内存优化 加速比
下载PDF
基于统一计算设备架构的并行串匹配算法 被引量:3
7
作者 唐定车 刘任任 谭建龙 《计算机应用》 CSCD 北大核心 2009年第B06期399-401,共3页
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于... BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。 展开更多
关键词 统一计算设备架构 单指令多线程 并行 串匹配算法
下载PDF
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现 被引量:2
8
作者 黄亮 秦信刚 +1 位作者 武玲娟 熊庭刚 《计算机工程与科学》 CSCD 北大核心 2014年第12期2418-2423,共6页
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形... 现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。 展开更多
关键词 图形处理器 统一架构 着色器 单指令多线程 单指令多数据
下载PDF
面向GPU Cache的访存请求处理技术 被引量:1
9
作者 李炳超 《电脑知识与技术》 2021年第19期128-130,138,共4页
GPU内部大量线程的同时运行会生成大量的访存请求,当访问同一L1 Cache组的访存请求所涉及的空间超过L1 Cache一组的容量时,由于没有Cache行可以分配而导致当前访存请求及后续所有访存请求发生停顿,影响了GPU的性能。该文设计了一种访存... GPU内部大量线程的同时运行会生成大量的访存请求,当访问同一L1 Cache组的访存请求所涉及的空间超过L1 Cache一组的容量时,由于没有Cache行可以分配而导致当前访存请求及后续所有访存请求发生停顿,影响了GPU的性能。该文设计了一种访存请求缓冲队列结构,访存请求被发送到不同的队列中,并通过调度策略来选择不会发生停顿的访存请求访问L1 Cache。实验表明,该方法能够有效地减少停顿次数,使得GPU的性能平均提高了26%。 展开更多
关键词 图形处理器 高速缓冲存储器 线程 访存请求 单指令多线程
下载PDF
基于多GPU的Harris角点检测并行算法 被引量:13
10
作者 肖汉 周清雷 张祖勋 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2012年第7期876-881,共6页
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共... 提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。 展开更多
关键词 图形处理器 统一计算设备架构 单指令多线程 角点检测 HARRIS算子
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部