期刊文献+
共找到53篇文章
< 1 2 3 >
每页显示 20 50 100
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:1
1
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
下载PDF
面向OpenCL架构的Harris角点检测算法 被引量:7
2
作者 肖汉 马歌 周清雷 《计算机科学》 CSCD 北大核心 2014年第7期306-309,321,共5页
Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)... Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)设计思想的Harris角点检测并行算法,其采用图形处理器(GPU)中共享存储器、常量存储器和锁页内存机制在OpenCL框架下完成影像角点检测的全过程。实验结果表明,基于OpenCL的Harris角点检测并行算法相比CPU上的串行算法可获得的加速比高达77倍,执行效率明显提高,对于大规模数据处理表现出良好的实时处理能力。 展开更多
关键词 图形处理器 开放式计算语言 影像 角点检测 HARRIS算子
下载PDF
面向OpenCL的GPGPU微基准测试程序集的研究与实现 被引量:2
3
作者 杨海燕 史晓华 +3 位作者 孙清越 晏望龙 严鑫 金茂忠 《系统工程与电子技术》 EI CSCD 北大核心 2013年第12期2631-2642,共12页
随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支... 随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支持在包括图形处理器(graphics processing unit,GPU)在内的多种微处理器架构上开发和运行并行程序。针对OpenCL平台开发了一套较完整的GPGPU微基准测试程序集,全面测试了GPU的单精浮点运算能力、GPU体系结构中各类存储单元的读写带宽及最佳访问模式等。这些面向OpenCL的GPGPU微基准测试程序,对OpenCL及GPGPU软件架构的设计者及使用者,均具有重要的实用和参考价值。 展开更多
关键词 计算机系统结构 微基准测试程序集 通用图形处理器 开放计算语言
下载PDF
基于OpenCL的尺度不变特征变换算法的并行设计与实现 被引量:3
4
作者 许川佩 王光 《计算机应用》 CSCD 北大核心 2016年第7期1801-1806,共6页
针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(Open CL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结... 针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(Open CL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用Open CL语言在图形处理单元(GPU)上实现了SIFT算法的细粒度并行加速,并在中央处理器(CPU)上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51~19.33和2.34~4.74倍。实验结果表明,利用Open CL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构(CUDA)因移植困难而不能充分利用异构系统中多种计算核心的缺点。 展开更多
关键词 尺度不变特征变换算法 开放式计算语言 复用内存对象 细粒度并行 异构系统
下载PDF
面向OpenCL模型的DCT并行化 被引量:3
5
作者 向阳霞 张惠民 王子强 《电脑知识与技术(过刊)》 2013年第9X期6007-6011,共5页
为了提高DCT变换的速度,文中对面向OpenCL模型的DCT并行化过程进行了研究,首先分析了GPU和OpenCL的特性和优势,研究了传统DCT变换的工作原理,然后针对CPU和GPU两种不同平台对DCT变换进行测试和结果分析,实验结果表明基于OpenCL模型的并... 为了提高DCT变换的速度,文中对面向OpenCL模型的DCT并行化过程进行了研究,首先分析了GPU和OpenCL的特性和优势,研究了传统DCT变换的工作原理,然后针对CPU和GPU两种不同平台对DCT变换进行测试和结果分析,实验结果表明基于OpenCL模型的并行化能够有效地提高DCT变换的速度。 展开更多
关键词 GPU处理器 opencl模型 离散余弦变化 并行化
下载PDF
基于OpenCL的累积汇流并行计算
6
作者 龙满生 罗文浪 《计算机工程与应用》 CSCD 2014年第3期22-29,116,共9页
大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流... 大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流算法的并行化策略,具有更好的平台独立性和可移植性,简化了CPU/GPU异构平台下的并行应用程序设计。累积汇流并行算法包括时空独立型的流量分配和空间依赖型的累积入流两个过程,均定义为OpenCL内核并交由OpenCL设备并行执行,其中累积入流过程借助流量转移矩阵由递归式转换为迭代式来实现并行计算。与基于流量转移矩阵的并行汇流算法相比,尽管基于单元入度矩阵的并行汇流算法可以降低迭代过程中的计算冗余,但需要采用具有较大延迟的原子操作以及需要更多的迭代次数,在有限的GPU计算资源下,两种算法性能差异不明显。实验结果表明,并行累积汇流算法在NVIDIA GeForce GT 650M GPU上获得了较好的加速比,加速性能随格网尺度增加而有所增加,其中流量分配获得了约50~70倍的加速比,累积入流获得了10~20倍的加速比,展示了利用OpenCL在GPU等并行计算设备上进行大规模数字地形分析的潜在优势。 展开更多
关键词 并行计算 累积汇流 图形处理器 开放计算语言
下载PDF
基于MPI和OpenCL多层次并行图像卷积算法设计
7
作者 王继刚 刘惠 姜滨 《中兴通讯技术》 2015年第2期53-55,62,共4页
通过对图像卷积算法的分析,发现算法在对图像处理的过程中具有很高的并行性。提出了一种结合异构开发框架开放运算语言(Open CL)和并行开发库消息传递接口(MPI)的算法,在支持图形处理器(GPU)的异构集群环境下设计并实现了图像卷积算法... 通过对图像卷积算法的分析,发现算法在对图像处理的过程中具有很高的并行性。提出了一种结合异构开发框架开放运算语言(Open CL)和并行开发库消息传递接口(MPI)的算法,在支持图形处理器(GPU)的异构集群环境下设计并实现了图像卷积算法的多层次并行实现,使得算法在处理速度上有了显著的提升。 展开更多
关键词 异构集群 消息传递接口 开放运算语言 图像卷积
下载PDF
基于OpenCL的图像灰度化并行算法研究 被引量:9
8
作者 肖汉 郭宝云 +1 位作者 李彩林 肖诗洋 《江西师范大学学报(自然科学版)》 CAS 北大核心 2020年第5期462-471,共10页
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化... 随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 展开更多
关键词 图像灰度化 加权平均 图形处理器 开放式计算语言 并行算法
下载PDF
基于OpenCL的MD5破解算法 被引量:5
9
作者 翁捷 吴强 杨灿群 《计算机工程》 CAS CSCD 北大核心 2011年第4期119-121,共3页
在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明... 在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明,在相同CPU平台上该算法能够获得高于破解软件John the ripper 17倍的破解速度。 展开更多
关键词 开放计算语言 带随机数的MD5算法 图形处理器 强力攻击
下载PDF
异构平台上基于OpenCL的矩阵乘并行算法 被引量:3
10
作者 肖汉 肖诗洋 +1 位作者 李彩林 周清雷 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第11期147-153,共7页
在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多... 在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比,基于OpenCL架构的矩阵乘并行算法效率更高. 展开更多
关键词 矩阵乘 图形处理器 开放式计算语言 并行算法
下载PDF
用OpenCL与OpenGL互操作实现雷达终端的高性能绘制 被引量:1
11
作者 钱立兵 莫红飞 丁永晖 《空军预警学院学报》 2018年第3期194-197,203,共5页
随着雷达终端数据的增长,对图形处理器(GPU)采用OpenGL等绘制工作很难满足当前雷达终端显示需求.针对现有GPU绘制中处理大量目标数据存在资源利用率低以及带宽延迟大的问题,基于通用平台的GPU架构,提出一种OpenCL与OpenGL互相操作的加... 随着雷达终端数据的增长,对图形处理器(GPU)采用OpenGL等绘制工作很难满足当前雷达终端显示需求.针对现有GPU绘制中处理大量目标数据存在资源利用率低以及带宽延迟大的问题,基于通用平台的GPU架构,提出一种OpenCL与OpenGL互相操作的加速方法.该方法采用GPU计算和绘制同时进行,通过设计回波数据的GPU计算,实现P、B、A显的回波计算与纹理绘制.应用结果表明,该方法高效地实现了GPU计算和绘制性能,从而实现了雷达终端高性能绘制,提高了终端显示的流畅性. 展开更多
关键词 图形处理器 开放式计算语言 开放式图形语言 雷达显示 异构计算
下载PDF
基于OpenCL的图形处理器FDTD算法仿真研究 被引量:2
12
作者 龚兴全 李康 孔凡敏 《系统仿真学报》 CAS CSCD 北大核心 2014年第8期1639-1643,1651,共6页
大型电磁仿真计算的时域有限差分(FDTD)仿真计算通常是十分耗时的,通用图形处理器(GPGPU)技术为其提供了一种合适的解决方案。通过分析FDTD算法特征以及Courant稳定性及数值色散稳定条件,阐述其在并行计算方面的优势。OpenCL是一种新的... 大型电磁仿真计算的时域有限差分(FDTD)仿真计算通常是十分耗时的,通用图形处理器(GPGPU)技术为其提供了一种合适的解决方案。通过分析FDTD算法特征以及Courant稳定性及数值色散稳定条件,阐述其在并行计算方面的优势。OpenCL是一种新的开放的行业标准,可以用来开发在CPUs,GPUs及其它各种平台上通用的程序。通过阐述OpenCL硬件基础,执行环境,实现方法来增进对其概念的掌握。为充分发挥异构处理平台下GPU的计算能力,提出了基于开放运算语言(OpenCL)模型,并且利用图形处理器并行FDTD仿真的实现方法。并与传统CPU计算相比较,验证计算结果的精确性。通过分析不同网格数量的速度提升情况,结果表明基于OpenCL的GPU计算速度与单CPU相比可以提升几十倍。 展开更多
关键词 图形处理器 开放运算语言 时域有限差分方法 加速比
下载PDF
基于OpenCL的Gzip数据压缩算法 被引量:8
13
作者 赵雅倩 李龙 +4 位作者 郭跃超 史宏志 郭振华 魏士欣 陈继承 《计算机应用》 CSCD 北大核心 2018年第A01期112-115,130,共5页
目前,数据压缩算法主要基于串行编程模型设计和实现,导致数据压缩速率较低,因而无法满足大数据分析和处理等应用的实时性需求。为了解决这个问题,以常用数据压缩算法Gzip为蓝本,提出一种实现无损数据压缩算法的专用硬件电路。首先,采用... 目前,数据压缩算法主要基于串行编程模型设计和实现,导致数据压缩速率较低,因而无法满足大数据分析和处理等应用的实时性需求。为了解决这个问题,以常用数据压缩算法Gzip为蓝本,提出一种实现无损数据压缩算法的专用硬件电路。首先,采用多字典并行查找的设计方案提高重复数据的查找速率;接着,采用匹配长度拼接技术提升数据的压缩效果;最后,采用开放计算语言(Open CL)实现了所提出的专用硬件电路。基于现场可编程门阵列(FPGA)进行功能验证和性能评测,结果表明:与基于串行编程模型设计和实现的数据压缩算法相比,所提出的硬件电路在取得适当压缩率的同时,显著地提高了数据的压缩速率,压缩速率可达12 Gb/s。 展开更多
关键词 数据压缩 开放计算语言 Gzip算法 现场可编程门阵列 硬件加速
下载PDF
基于OpenCL的流式应用程序在MPSoC上的动态并行度伸缩调度
14
作者 黄姗 石晶林 萧放 《高技术通讯》 CSCD 北大核心 2016年第12期925-934,共10页
分析了嵌入式系统应用程序的复杂化和多样化趋势,面向嵌入式系统常见的流式应用程序,提出了基于开放运算语言(OpenCL)的统一编程框架,并在此框架的基础上设计一个运行时系统,在应用程序可用计算资源发生变化的场景下,该系统可在线调整... 分析了嵌入式系统应用程序的复杂化和多样化趋势,面向嵌入式系统常见的流式应用程序,提出了基于开放运算语言(OpenCL)的统一编程框架,并在此框架的基础上设计一个运行时系统,在应用程序可用计算资源发生变化的场景下,该系统可在线调整应用程序的并行度,并进行动态调度。实验结果显示,与已有的Flextream动态调度系统相比,该调度系统在性能上最高可以提场17%,在动态调度的时间开销上最多可以降低7%。 展开更多
关键词 多处理器片上系统(MPSoC) 开放运算语言(opencl) 编程框架 并行度伸缩 运行时系统
下载PDF
Real-time flow-based video abstraction using OpenCL
15
作者 Yong-jin PARK Jin-woo KIM +1 位作者 Jin-hong PARK Tack-don HAN 《Journal of Measurement Science and Instrumentation》 CAS 2012年第1期46-50,共5页
A non-photorealistic rendering technique is a method to show various effects different from those of realistic image generation.Of the various techniques,flow-based image abstraction displays the shape and color featu... A non-photorealistic rendering technique is a method to show various effects different from those of realistic image generation.Of the various techniques,flow-based image abstraction displays the shape and color features well and performs a stylistic visual abstraction.But real-time rendering is impossible when CPU is used because it applies various filtering and iteration methods.In this paper,we present real-time processing methods of video abstraction using open open computing language(OpenCL),technique of general-purpose computing on graphics processing units(GPGPU).Through the acceleration of general-purpose computing(GPU),16 frame-per-second(FPS)or greater is shown to process video abstraction. 展开更多
关键词 non-photorealistic rendering video abstraction general-purpose computing on graphics processing units(GPGPU) open computing language(opencl)
下载PDF
Dixit Player with Open CLIP
16
作者 Ryan Wei 《Journal of Data Analysis and Information Processing》 2023年第4期536-547,共12页
A computer vision approach through Open AI’s CLIP, a model capable of predicting text-image pairs, is used to create an AI agent for Dixit, a game which requires creative linking between images and text. This paper c... A computer vision approach through Open AI’s CLIP, a model capable of predicting text-image pairs, is used to create an AI agent for Dixit, a game which requires creative linking between images and text. This paper calculates baseline accuracies for both the ability to match the correct image to a hint and the ability to match up with human preferences. A dataset created by previous work on Dixit is used for testing. CLIP is utilized through the comparison of a hint to multiple images, and previous hints, achieving a final accuracy of 0.5011 which surpasses previous results. 展开更多
关键词 computer Vision AI CLIP Dixit open AI Creative Gameplay open CLIP Natural language Processing Visual Models Game AI Image-Text Pairing
下载PDF
面向稀疏计算的领域特定语言设计与实现
17
作者 胡燕婷 郑启龙 《小型微型计算机系统》 CSCD 北大核心 2024年第5期1241-1248,共8页
在稀疏计算领域应用模型的开发过程中,低层次的编程接口需要用户对底层硬件和算法模型同时具有全面、深入的了解.这种要求造成了稀疏计算领域的高门槛特性,不利于非专业人员的开发工作.为了降低稀疏计算领域的学习门槛,简化稀疏计算编程... 在稀疏计算领域应用模型的开发过程中,低层次的编程接口需要用户对底层硬件和算法模型同时具有全面、深入的了解.这种要求造成了稀疏计算领域的高门槛特性,不利于非专业人员的开发工作.为了降低稀疏计算领域的学习门槛,简化稀疏计算编程,提高编程的效率,本文提出了一种基于领域特定语言的解决方案,命名为Sparse Computing Programming Solutions:SCPS.SCPS设计和实现了专门的语法规则体系Sparse Computation by Domain Language:SCDL,并配备了相应的语法检查器.其次,SCPS会根据用户对数据和任务的划分进行代码优化,通过代码自动生成器将用户编写的应用模型转换为相关硬件的计算代码.为了提供良好的跨平台特性,代码生成器最终将生成相应模型的OpenCL代码.大规模的实验结果表明,使用SCDL语言构建的代码量仅为对应OpenCL代码的1/15,有效地提高了稀疏计算编程的效率.同时,实验证明了与串行代码相比,自动生成的代码能够达到优化的效果. 展开更多
关键词 领域特定语言 稀疏计算 语法检查 代码自动生成 opencl
下载PDF
基于Open Type的维哈柯文自动选形引擎的设计与实现 被引量:6
18
作者 苏国平 缪成 夏国平 《中文信息学报》 CSCD 北大核心 2007年第4期116-121,共6页
本文面向维哈柯文自动选择显示字形研究,分析了新疆地区普遍使用的维吾尔、哈萨克文和柯尔克孜文变形显示的特点,简要介绍了最新Open Type字体技术的结构与操作步骤,基于该字体技术设计了一种通用维哈柯文自动选形引擎,通过分析文字的... 本文面向维哈柯文自动选择显示字形研究,分析了新疆地区普遍使用的维吾尔、哈萨克文和柯尔克孜文变形显示的特点,简要介绍了最新Open Type字体技术的结构与操作步骤,基于该字体技术设计了一种通用维哈柯文自动选形引擎,通过分析文字的连接类型,构建自动选形规则库,按照规则绑定字形标签,并应用Open Type字体解释引擎按照字形标签完成字符替换与置位操作。并且在永中office维哈柯文版本上实现了该自动选形引擎,经实际应用测试证明,该字体引擎完全实现了维哈柯文变形显示的要求。 展开更多
关键词 计算机应用 中文信息处理 维哈柯文 选形引擎 open TYPE
下载PDF
轻量级卷积神经网络的硬件加速方法
19
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 软硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言
下载PDF
基于GPU加速的全源对最短路径并行算法 被引量:1
20
作者 肖汉 肖诗洋 +1 位作者 李焕勤 周清雷 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第5期1022-1032,共11页
针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分... 针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分支,最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明,与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理(Open Multi-Processing, OpenMP)并行算法和基于统一计算设备架构(Compute Unified Device Architecture, CUDA)并行算法相比,最短路径并行算法在开放式计算语言(Open Computing Language, OpenCL)架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比,验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 最短路径 重复平方法 图形处理器 开放式计算语言 并行算法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部