期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于OpenCL的Prewitt算法的并行实现 被引量:5
1
作者 马歌 肖汉 《现代电子技术》 2014年第20期103-106,共4页
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作... Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。 展开更多
关键词 opencl 异构框架 边缘检测 Prewitt算法 并行实现
下载PDF
基于OpenCL的3DES算法FPGA加速器 被引量:6
2
作者 吴健凤 郑博文 +1 位作者 聂一 柴志雷 《计算机工程》 CAS CSCD 北大核心 2021年第12期147-155,162,共10页
在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列(FPGA)加解密系统又存在开发周期长、维护升级困难等问题。针对3DE... 在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列(FPGA)加解密系统又存在开发周期长、维护升级困难等问题。针对3DES算法,提出一种基于OpenCL的FPGA加速器设计方案。设计具有48轮迭代的流水并行结构,在数据传输模块中采用数据存储调整、数据位宽改进策略提高内核实际带宽利用率,在算法加密模块中采用指令流优化策略形成流水线并行架构,同时采用内核矢量化、计算单元复制策略进一步提高内核性能。实验结果表明,该加速器在Intel Stratix 10 GX2800上可获得111.801 Gb/s的吞吐率,与Intel Core i7-9700 CPU相比性能提升372倍,能效提升644倍,与NvidiaGeForce GTX 1080Ti GPU相比性能提升20%,能效提升9倍。 展开更多
关键词 opencl框架 现场可编程门阵列 加解密算法 3DES算法 流水并行结构
下载PDF
基于OpenCL机器视觉算法GPU实现 被引量:3
3
作者 吴进 刘应 +1 位作者 刘镇弢 李乔深 《计算机工程与设计》 北大核心 2019年第2期346-351,共6页
针对不断增长的对机器视觉算法处理效率和实时性的要求,研究基于异构编程框架OpenCL对机器视觉算法在通用计算机图形处理单元(GPU)上的并行处理和加速方法,提出结合存储分配、指令流优化、数据重用等方法的并行优化策略。在Sobel边缘检... 针对不断增长的对机器视觉算法处理效率和实时性的要求,研究基于异构编程框架OpenCL对机器视觉算法在通用计算机图形处理单元(GPU)上的并行处理和加速方法,提出结合存储分配、指令流优化、数据重用等方法的并行优化策略。在Sobel边缘检测、Canny边缘检测、Harris角点检测、高斯图像金字塔4个不同并行度视觉算法上进行验证,验证结果表明,在不考虑数据传输的情况下,对比CPU串行实现取得了平均6.16的加速比,对比OpenCV的GPU库(即CUDA实现)取得了1.12-5.47的加速比,验证了所提优化策略的有效性。 展开更多
关键词 开放计算语言 图形处理器 并行加速 机器视觉算法 异构框架
下载PDF
OclDNN:一种可应用于TensorFlow的通用DNN库
4
作者 陈锐 孙羽菲 +4 位作者 郭强 隋轶丞 周振辉 石昌青 张玉志 《计算机工程》 CAS CSCD 北大核心 2023年第4期138-148,共11页
深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟... 深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟达、AMD等少数国外厂商开发并根据自有硬件设备特点进行优化,但其封闭性导致其他厂商生产的通用加速器难以在深度学习领域发挥作用。为解决现有DNN库无法支持国产加速器的问题,使得深度学习模型能够调用国产加速器进行运算,研究跨平台的通用DNN库,通过对开源MIOpen的结构特点和调用方式进行分析,提出修改和重构该库的方法,并实现一种基于OpenCL的DNN(OclDNN)库。考虑到TensorFlow较高的流行度及其对DNN库调用的特殊性与复杂性,研究通用DNN库在TensorFlow中的集成方法,通过StreamExecutor中的OpenCL平台实现对OclDNN的调用。实验结果表明,OclDNN在英伟达、华为等不同厂商的计算设备上运算结果正确可靠,在相同实验环境下,深度学习算子使用OclDNN时的加速性能比传统CPU并行算法提升了5~60倍。 展开更多
关键词 深度神经网络库 深度学习 开放计算语言 硬件加速器 TensorFlow框架
下载PDF
基于GPU的并行Cholesky分解及其应用 被引量:1
5
作者 沈雁 戴瑜兴 《计算机工程》 CAS CSCD 北大核心 2019年第2期284-289,共6页
在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵... 在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵子块的逆矩阵得到复用,完成对称正定矩阵的高效Cholesky分解,并且其能够应用于三维视觉光束平差问题中的大型正定矩阵的分解。实验结果表明,该方法的Cholesky分解速度比clMAGMA提升50%以上,针对光束平差问题,比Ceres Solver中使用的Eigen库速度提升约38倍。 展开更多
关键词 正定系统 CHOLESKY分解 并行计算 opencl框架 光束平差
下载PDF
基于GPGPU的生物序列快速比对 被引量:5
6
作者 马海晨 韦刚 吴百峰 《计算机工程》 CAS CSCD 2012年第4期241-244,共4页
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串... 在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。 展开更多
关键词 生物信息学 序列比对 通用图形处理器 SMITH-WATERMAN算法 opencl框架
下载PDF
基于GPU的异构并行编程模型分析与研究
7
作者 包达尔罕 高文炜 +2 位作者 郑欣 冯路 杨金颖 《内蒙古民族大学学报(自然科学版)》 2020年第1期42-46,共5页
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已经被广泛使用和研究.从异构并行编程模型与编程框架两个角度总结了异构并行编程模型的最新研究成果.异构并行编程为异构系统与上层应用之间搭建桥梁,... 近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已经被广泛使用和研究.从异构并行编程模型与编程框架两个角度总结了异构并行编程模型的最新研究成果.异构并行编程为异构系统与上层应用之间搭建桥梁,为当前高速发展的并行计算提供了技术方案支持.在主流的并行编程模型中,CUDA与OpenCL是广泛被人们所青睐的两种方案,并且它们能够提供成熟且稳定的技术支持.文章以CUDA和OpenCL的特征为出发点,研究了异构并行编程模型的核心技术. 展开更多
关键词 CUDA opencl 编程模型 编程框架
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部