期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向DCU非一致控制流的编译优化
被引量:
2
1
作者
杨小艺
赵荣彩
+2 位作者
王洪生
韩林
徐坤坤
《计算机应用》
CSCD
北大核心
2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化...
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
展开更多
关键词
DCU
单指令多线程
线程
束分化
复杂控制流
编译优化
下载PDF
职称材料
基于GPGPU的并行影像匹配算法
被引量:
44
2
作者
肖汉
张祖勋
《测绘学报》
EI
CSCD
北大核心
2010年第1期46-51,共6页
提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实...
提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实验结果表明,并行算法充分利用GPU的并行处理能力,在处理1280×1024分辨率的8位灰度图像时可达到最高多处理器warp占有率,速度是基于CPU实现的7倍。CUDA在高运算强度数据处理中呈现出的实时处理能力和计算能力,为进一步加速影像匹配性能和GPU通用计算提供了新的方法和思路。
展开更多
关键词
细粒度并行计算
图形处理器的通用计算
统一计算设备架构
影像匹配
单指令多线程
下载PDF
职称材料
基于CUDA技术的卷积神经网络识别算法
被引量:
9
3
作者
张佳康
陈庆奎
《计算机工程》
CAS
CSCD
北大核心
2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP...
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。
展开更多
关键词
流处理器
单指令多线程
GTX200硬件架构
CUDA技术
卷积神经网络
下载PDF
职称材料
一种易实现的SIMT调度模型分析
被引量:
3
4
作者
徐元旭
张超
+1 位作者
杨兵
喻明艳
《微电子学与计算机》
CSCD
北大核心
2014年第1期25-28,共4页
以图像处理器(GPU)为基础,从中提取建立出单指令多线程调度模型,该模型独立于GPU,功能与其类似,但结构更简单,更易于理解和实现,方便向其他处理器结构中移植.并对该调度模型进行性能分析,分析结果揭示出该模型的特性,对该模型的使用和...
以图像处理器(GPU)为基础,从中提取建立出单指令多线程调度模型,该模型独立于GPU,功能与其类似,但结构更简单,更易于理解和实现,方便向其他处理器结构中移植.并对该调度模型进行性能分析,分析结果揭示出该模型的特性,对该模型的使用和向其他处理器中移植以及优化提供重要参考.
展开更多
关键词
多核处理器
多线程
并行处理
单指令多线程
调度模型
性能分析
下载PDF
职称材料
CUDA架构下的快速Wallis影像增强算法
5
作者
肖汉
吴庆双
冯娜
《沈阳工业大学学报》
EI
CAS
2011年第3期293-298,共6页
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形...
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间.
展开更多
关键词
图形处理器
统一计算设备架构
单指令多线程
Wallis变换
影像增强
CUDA核
并行
滤波
下载PDF
职称材料
基于CUDA的图像径向基模糊实现方法研究
6
作者
陈浩
陈兆学
喻海中
《中国医学物理学杂志》
CSCD
2012年第6期3772-3776,共5页
目的:为了克服传统高斯模糊方法处理速度容易受模板大小局限和图像边界处不能真实反映高斯模糊结果的缺陷,本文提出了一种基于计算统一设备架构CUDA的图像高斯径向基模糊的实现方法。方法:采用连续的高斯径向基函数对图像直接在时域进...
目的:为了克服传统高斯模糊方法处理速度容易受模板大小局限和图像边界处不能真实反映高斯模糊结果的缺陷,本文提出了一种基于计算统一设备架构CUDA的图像高斯径向基模糊的实现方法。方法:采用连续的高斯径向基函数对图像直接在时域进行乘积运算,使高斯模糊后图像每一像素点值(包括图像边界处的像素值)与原始图像所有像素点的值相关联。根据高斯径向基函数径向对称的特点以及CUDA单指令多线程(SIMT)的并行执行模型,并且使用合并访存、共享内存、常量内存等合适的内存优化措施,对运算的过程进行GPU并行加速。结果:对尿沉渣图像进行高斯径向基模糊结果表明:图像在模糊过程中克服了模板的局限,在边界质量上得到了极大的改善;处理速度上也达到了较大的提高。结论:基于CUDA平台能很好的并行实现高斯径向基模糊,与串行运算速度相比,在大尺寸图像处理时加速比可望达到20倍以上。
展开更多
关键词
高斯径向基模糊
计算统一设备架构
单指令多线程
内存优化
加速比
下载PDF
职称材料
基于统一计算设备架构的并行串匹配算法
被引量:
3
7
作者
唐定车
刘任任
谭建龙
《计算机应用》
CSCD
北大核心
2009年第B06期399-401,共3页
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于...
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。
展开更多
关键词
统一计算设备架构
单指令多线程
并行
串匹配算法
下载PDF
职称材料
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现
被引量:
2
8
作者
黄亮
秦信刚
+1 位作者
武玲娟
熊庭刚
《计算机工程与科学》
CSCD
北大核心
2014年第12期2418-2423,共6页
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形...
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。
展开更多
关键词
图形处理器
统一架构
着色器
单指令多线程
单指令
多数据
下载PDF
职称材料
面向GPU Cache的访存请求处理技术
被引量:
1
9
作者
李炳超
《电脑知识与技术》
2021年第19期128-130,138,共4页
GPU内部大量线程的同时运行会生成大量的访存请求,当访问同一L1 Cache组的访存请求所涉及的空间超过L1 Cache一组的容量时,由于没有Cache行可以分配而导致当前访存请求及后续所有访存请求发生停顿,影响了GPU的性能。该文设计了一种访存...
GPU内部大量线程的同时运行会生成大量的访存请求,当访问同一L1 Cache组的访存请求所涉及的空间超过L1 Cache一组的容量时,由于没有Cache行可以分配而导致当前访存请求及后续所有访存请求发生停顿,影响了GPU的性能。该文设计了一种访存请求缓冲队列结构,访存请求被发送到不同的队列中,并通过调度策略来选择不会发生停顿的访存请求访问L1 Cache。实验表明,该方法能够有效地减少停顿次数,使得GPU的性能平均提高了26%。
展开更多
关键词
图形处理器
高速缓冲存储器
线程
访存请求
单指令多线程
下载PDF
职称材料
基于多GPU的Harris角点检测并行算法
被引量:
13
10
作者
肖汉
周清雷
张祖勋
《武汉大学学报(信息科学版)》
EI
CSCD
北大核心
2012年第7期876-881,共6页
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共...
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。
展开更多
关键词
图形处理器
统一计算设备架构
单指令多线程
角点检测
HARRIS算子
原文传递
题名
面向DCU非一致控制流的编译优化
被引量:
2
1
作者
杨小艺
赵荣彩
王洪生
韩林
徐坤坤
机构
郑州大学计算机与人工智能学院
国家超级计算郑州中心
出处
《计算机应用》
CSCD
北大核心
2023年第10期3170-3177,共8页
基金
河南省重大科技专项(221100210600)。
文摘
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
关键词
DCU
单指令多线程
线程
束分化
复杂控制流
编译优化
Keywords
Deep Computer Unit(DCU)
Single Instruction Multiple Thread(SIMT)
warp divergence
complex control flow
compilation optimization
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于GPGPU的并行影像匹配算法
被引量:
44
2
作者
肖汉
张祖勋
机构
武汉大学遥感信息工程学院
郑州师范高等专科学校
出处
《测绘学报》
EI
CSCD
北大核心
2010年第1期46-51,共6页
基金
国家自然科学基金(40771177)
国家863计划(2006AA12Z136)
河南省重点科技攻关项目(072102360026)
文摘
提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIMT模式下完成高性能并行计算。并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。实验结果表明,并行算法充分利用GPU的并行处理能力,在处理1280×1024分辨率的8位灰度图像时可达到最高多处理器warp占有率,速度是基于CPU实现的7倍。CUDA在高运算强度数据处理中呈现出的实时处理能力和计算能力,为进一步加速影像匹配性能和GPU通用计算提供了新的方法和思路。
关键词
细粒度并行计算
图形处理器的通用计算
统一计算设备架构
影像匹配
单指令多线程
Keywords
fine-grained parallel computing
GPGPU
CUDA
image matching
SlMT
分类号
TP338.6 [自动化与计算机技术—计算机系统结构]
P237 [天文地球—摄影测量与遥感]
下载PDF
职称材料
题名
基于CUDA技术的卷积神经网络识别算法
被引量:
9
3
作者
张佳康
陈庆奎
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第15期179-181,共3页
基金
国家自然科学基金资助项目(60573108)
上海教委发展基金资助项目(09YZ428)
+1 种基金
上海教委科研创新基金资助重点项目(08ZZ76)
上海市重点学科建设基金资助项目(S30501)
文摘
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。
关键词
流处理器
单指令多线程
GTX200硬件架构
CUDA技术
卷积神经网络
Keywords
stream processor
Single-Instruction Multiple-Thread(SIMT)
GTX200 hardware architecture
Compute Unified Device Architecture(CUDA) technology
Convolutional Neural Networks(CNNs)
分类号
TP193 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种易实现的SIMT调度模型分析
被引量:
3
4
作者
徐元旭
张超
杨兵
喻明艳
机构
哈尔滨工业大学电子信息与技术系
出处
《微电子学与计算机》
CSCD
北大核心
2014年第1期25-28,共4页
文摘
以图像处理器(GPU)为基础,从中提取建立出单指令多线程调度模型,该模型独立于GPU,功能与其类似,但结构更简单,更易于理解和实现,方便向其他处理器结构中移植.并对该调度模型进行性能分析,分析结果揭示出该模型的特性,对该模型的使用和向其他处理器中移植以及优化提供重要参考.
关键词
多核处理器
多线程
并行处理
单指令多线程
调度模型
性能分析
Keywords
= multicore processor~ multi-thread parallel processing
single instruction multi-threads
scheduling model~ performance analysis
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
CUDA架构下的快速Wallis影像增强算法
5
作者
肖汉
吴庆双
冯娜
机构
武汉大学遥感信息工程学院
郑州师范学院信息技术系
安徽师范大学国土资源与旅游学院
郑州市档案馆
出处
《沈阳工业大学学报》
EI
CAS
2011年第3期293-298,共6页
基金
国家自然科学基金资助项目(40771177)
国家高技术研究与发展计划(863)资助项目(2006AA12Z136)
河南省高等学校青年骨干教师计划资助项目(2009GGJS-167)
文摘
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间.
关键词
图形处理器
统一计算设备架构
单指令多线程
Wallis变换
影像增强
CUDA核
并行
滤波
Keywords
graphic processing unit (GPU)
compute unified device architecture (CUDA)
single instructionmultiple thread (SIMT)
Wallis transform
image enhancement
CUDA core
parallel
filter
分类号
TP391 [自动化与计算机技术—计算机应用技术]
P237 [天文地球—摄影测量与遥感]
下载PDF
职称材料
题名
基于CUDA的图像径向基模糊实现方法研究
6
作者
陈浩
陈兆学
喻海中
机构
上海理工大学医疗器械与食品学院
出处
《中国医学物理学杂志》
CSCD
2012年第6期3772-3776,共5页
基金
上海市教委科研创新项目(No.11YZ116)
上海理工大学校国家级项目与文科基地培育计划(No.12XGM04)
文摘
目的:为了克服传统高斯模糊方法处理速度容易受模板大小局限和图像边界处不能真实反映高斯模糊结果的缺陷,本文提出了一种基于计算统一设备架构CUDA的图像高斯径向基模糊的实现方法。方法:采用连续的高斯径向基函数对图像直接在时域进行乘积运算,使高斯模糊后图像每一像素点值(包括图像边界处的像素值)与原始图像所有像素点的值相关联。根据高斯径向基函数径向对称的特点以及CUDA单指令多线程(SIMT)的并行执行模型,并且使用合并访存、共享内存、常量内存等合适的内存优化措施,对运算的过程进行GPU并行加速。结果:对尿沉渣图像进行高斯径向基模糊结果表明:图像在模糊过程中克服了模板的局限,在边界质量上得到了极大的改善;处理速度上也达到了较大的提高。结论:基于CUDA平台能很好的并行实现高斯径向基模糊,与串行运算速度相比,在大尺寸图像处理时加速比可望达到20倍以上。
关键词
高斯径向基模糊
计算统一设备架构
单指令多线程
内存优化
加速比
Keywords
gaussian RBF blurting
CUDA
SIMT
memory optimization
acceleration ratio
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统一计算设备架构的并行串匹配算法
被引量:
3
7
作者
唐定车
刘任任
谭建龙
机构
湘潭大学信息工程学院
中国科学院计算技术研究所
出处
《计算机应用》
CSCD
北大核心
2009年第B06期399-401,共3页
基金
国家973计划项目(2007CB311100)
文摘
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。
关键词
统一计算设备架构
单指令多线程
并行
串匹配算法
Keywords
Compute Unified Device Architecture (CUDA)
single instruction multiple threads
parallel
string matching algorithm
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现
被引量:
2
8
作者
黄亮
秦信刚
武玲娟
熊庭刚
机构
武汉数字工程研究所
出处
《计算机工程与科学》
CSCD
北大核心
2014年第12期2418-2423,共6页
文摘
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。
关键词
图形处理器
统一架构
着色器
单指令多线程
单指令
多数据
Keywords
GPU
unified architecture
shader
single instruction multiple threads (SIMT)
single in- struction multiple data (SIMD)
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向GPU Cache的访存请求处理技术
被引量:
1
9
作者
李炳超
机构
中国民航大学计算机科学与技术学院
出处
《电脑知识与技术》
2021年第19期128-130,138,共4页
基金
中国民航大学中央高校基金(3122018C023)。
文摘
GPU内部大量线程的同时运行会生成大量的访存请求,当访问同一L1 Cache组的访存请求所涉及的空间超过L1 Cache一组的容量时,由于没有Cache行可以分配而导致当前访存请求及后续所有访存请求发生停顿,影响了GPU的性能。该文设计了一种访存请求缓冲队列结构,访存请求被发送到不同的队列中,并通过调度策略来选择不会发生停顿的访存请求访问L1 Cache。实验表明,该方法能够有效地减少停顿次数,使得GPU的性能平均提高了26%。
关键词
图形处理器
高速缓冲存储器
线程
访存请求
单指令多线程
分类号
TP33 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于多GPU的Harris角点检测并行算法
被引量:
13
10
作者
肖汉
周清雷
张祖勋
机构
郑州大学信息工程学院
郑州师范学院信息科学与技术学院
武汉大学遥感信息工程学院
出处
《武汉大学学报(信息科学版)》
EI
CSCD
北大核心
2012年第7期876-881,共6页
基金
国家自然科学基金资助项目(41071233)
国家863计划资助项目(2009AA122002)
+1 种基金
中国博士后科学基金资助项目(2012M510110)
河南省高等学校青年骨干教师资助项目(2009GGJS-167)
文摘
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。
关键词
图形处理器
统一计算设备架构
单指令多线程
角点检测
HARRIS算子
Keywords
graphic processing unit (GPU)
compute unified device architecture (CUDA)
single instruction multiple thread(SIMT) corner detection Harris operator
分类号
P237.3 [天文地球—摄影测量与遥感]
原文传递
题名
作者
出处
发文年
被引量
操作
1
面向DCU非一致控制流的编译优化
杨小艺
赵荣彩
王洪生
韩林
徐坤坤
《计算机应用》
CSCD
北大核心
2023
2
下载PDF
职称材料
2
基于GPGPU的并行影像匹配算法
肖汉
张祖勋
《测绘学报》
EI
CSCD
北大核心
2010
44
下载PDF
职称材料
3
基于CUDA技术的卷积神经网络识别算法
张佳康
陈庆奎
《计算机工程》
CAS
CSCD
北大核心
2010
9
下载PDF
职称材料
4
一种易实现的SIMT调度模型分析
徐元旭
张超
杨兵
喻明艳
《微电子学与计算机》
CSCD
北大核心
2014
3
下载PDF
职称材料
5
CUDA架构下的快速Wallis影像增强算法
肖汉
吴庆双
冯娜
《沈阳工业大学学报》
EI
CAS
2011
0
下载PDF
职称材料
6
基于CUDA的图像径向基模糊实现方法研究
陈浩
陈兆学
喻海中
《中国医学物理学杂志》
CSCD
2012
0
下载PDF
职称材料
7
基于统一计算设备架构的并行串匹配算法
唐定车
刘任任
谭建龙
《计算机应用》
CSCD
北大核心
2009
3
下载PDF
职称材料
8
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现
黄亮
秦信刚
武玲娟
熊庭刚
《计算机工程与科学》
CSCD
北大核心
2014
2
下载PDF
职称材料
9
面向GPU Cache的访存请求处理技术
李炳超
《电脑知识与技术》
2021
1
下载PDF
职称材料
10
基于多GPU的Harris角点检测并行算法
肖汉
周清雷
张祖勋
《武汉大学学报(信息科学版)》
EI
CSCD
北大核心
2012
13
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部