期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于OpenCL的Prewitt算法的并行实现
被引量:
5
1
作者
马歌
肖汉
《现代电子技术》
2014年第20期103-106,共4页
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作...
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。
展开更多
关键词
opencl
异构框架
边缘检测
Prewitt算法
并行实现
下载PDF
职称材料
基于OpenCL的3DES算法FPGA加速器
被引量:
6
2
作者
吴健凤
郑博文
+1 位作者
聂一
柴志雷
《计算机工程》
CAS
CSCD
北大核心
2021年第12期147-155,162,共10页
在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列(FPGA)加解密系统又存在开发周期长、维护升级困难等问题。针对3DE...
在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列(FPGA)加解密系统又存在开发周期长、维护升级困难等问题。针对3DES算法,提出一种基于OpenCL的FPGA加速器设计方案。设计具有48轮迭代的流水并行结构,在数据传输模块中采用数据存储调整、数据位宽改进策略提高内核实际带宽利用率,在算法加密模块中采用指令流优化策略形成流水线并行架构,同时采用内核矢量化、计算单元复制策略进一步提高内核性能。实验结果表明,该加速器在Intel Stratix 10 GX2800上可获得111.801 Gb/s的吞吐率,与Intel Core i7-9700 CPU相比性能提升372倍,能效提升644倍,与NvidiaGeForce GTX 1080Ti GPU相比性能提升20%,能效提升9倍。
展开更多
关键词
opencl
框架
现场可编程门阵列
加解密算法
3DES算法
流水并行结构
下载PDF
职称材料
基于OpenCL机器视觉算法GPU实现
被引量:
3
3
作者
吴进
刘应
+1 位作者
刘镇弢
李乔深
《计算机工程与设计》
北大核心
2019年第2期346-351,共6页
针对不断增长的对机器视觉算法处理效率和实时性的要求,研究基于异构编程框架OpenCL对机器视觉算法在通用计算机图形处理单元(GPU)上的并行处理和加速方法,提出结合存储分配、指令流优化、数据重用等方法的并行优化策略。在Sobel边缘检...
针对不断增长的对机器视觉算法处理效率和实时性的要求,研究基于异构编程框架OpenCL对机器视觉算法在通用计算机图形处理单元(GPU)上的并行处理和加速方法,提出结合存储分配、指令流优化、数据重用等方法的并行优化策略。在Sobel边缘检测、Canny边缘检测、Harris角点检测、高斯图像金字塔4个不同并行度视觉算法上进行验证,验证结果表明,在不考虑数据传输的情况下,对比CPU串行实现取得了平均6.16的加速比,对比OpenCV的GPU库(即CUDA实现)取得了1.12-5.47的加速比,验证了所提优化策略的有效性。
展开更多
关键词
开放计算语言
图形处理器
并行加速
机器视觉算法
异构框架
下载PDF
职称材料
OclDNN:一种可应用于TensorFlow的通用DNN库
4
作者
陈锐
孙羽菲
+4 位作者
郭强
隋轶丞
周振辉
石昌青
张玉志
《计算机工程》
CAS
CSCD
北大核心
2023年第4期138-148,共11页
深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟...
深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟达、AMD等少数国外厂商开发并根据自有硬件设备特点进行优化,但其封闭性导致其他厂商生产的通用加速器难以在深度学习领域发挥作用。为解决现有DNN库无法支持国产加速器的问题,使得深度学习模型能够调用国产加速器进行运算,研究跨平台的通用DNN库,通过对开源MIOpen的结构特点和调用方式进行分析,提出修改和重构该库的方法,并实现一种基于OpenCL的DNN(OclDNN)库。考虑到TensorFlow较高的流行度及其对DNN库调用的特殊性与复杂性,研究通用DNN库在TensorFlow中的集成方法,通过StreamExecutor中的OpenCL平台实现对OclDNN的调用。实验结果表明,OclDNN在英伟达、华为等不同厂商的计算设备上运算结果正确可靠,在相同实验环境下,深度学习算子使用OclDNN时的加速性能比传统CPU并行算法提升了5~60倍。
展开更多
关键词
深度神经网络库
深度学习
开放计算语言
硬件加速器
TensorFlow框架
下载PDF
职称材料
基于GPU的并行Cholesky分解及其应用
被引量:
1
5
作者
沈雁
戴瑜兴
《计算机工程》
CAS
CSCD
北大核心
2019年第2期284-289,共6页
在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵...
在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵子块的逆矩阵得到复用,完成对称正定矩阵的高效Cholesky分解,并且其能够应用于三维视觉光束平差问题中的大型正定矩阵的分解。实验结果表明,该方法的Cholesky分解速度比clMAGMA提升50%以上,针对光束平差问题,比Ceres Solver中使用的Eigen库速度提升约38倍。
展开更多
关键词
正定系统
CHOLESKY分解
并行计算
opencl
框架
光束平差
下载PDF
职称材料
基于GPGPU的生物序列快速比对
被引量:
5
6
作者
马海晨
韦刚
吴百峰
《计算机工程》
CAS
CSCD
2012年第4期241-244,共4页
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串...
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。
展开更多
关键词
生物信息学
序列比对
通用图形处理器
SMITH-WATERMAN算法
opencl
框架
下载PDF
职称材料
基于GPU的异构并行编程模型分析与研究
7
作者
包达尔罕
高文炜
+2 位作者
郑欣
冯路
杨金颖
《内蒙古民族大学学报(自然科学版)》
2020年第1期42-46,共5页
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已经被广泛使用和研究.从异构并行编程模型与编程框架两个角度总结了异构并行编程模型的最新研究成果.异构并行编程为异构系统与上层应用之间搭建桥梁,...
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已经被广泛使用和研究.从异构并行编程模型与编程框架两个角度总结了异构并行编程模型的最新研究成果.异构并行编程为异构系统与上层应用之间搭建桥梁,为当前高速发展的并行计算提供了技术方案支持.在主流的并行编程模型中,CUDA与OpenCL是广泛被人们所青睐的两种方案,并且它们能够提供成熟且稳定的技术支持.文章以CUDA和OpenCL的特征为出发点,研究了异构并行编程模型的核心技术.
展开更多
关键词
CUDA
opencl
编程模型
编程框架
下载PDF
职称材料
题名
基于OpenCL的Prewitt算法的并行实现
被引量:
5
1
作者
马歌
肖汉
机构
郑州师范学院信息科学与技术学院
出处
《现代电子技术》
2014年第20期103-106,共4页
基金
国家"973"重点基础研究发展计划(2012CB719900)
中国博士后科学基金(2012M510110)
+1 种基金
河南省重点科技攻关项目(132102310003)
河南省教育厅科学技术研究重点项目(13A520354)
文摘
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。
关键词
opencl
异构框架
边缘检测
Prewitt算法
并行实现
Keywords
opencl
opencl
heterogeneous
framework
edge detecetion
Prewitt algorithm
parallel implementation
分类号
TN919.34 [电子电信—通信与信息系统]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于OpenCL的3DES算法FPGA加速器
被引量:
6
2
作者
吴健凤
郑博文
聂一
柴志雷
机构
江南大学人工智能与计算机学院
江南大学物联网工程学院
数学工程与先进计算国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第12期147-155,162,共10页
基金
国家自然科学基金(61972180)
数学工程与先进计算国家重点实验室开放基金(2018A04)。
文摘
在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列(FPGA)加解密系统又存在开发周期长、维护升级困难等问题。针对3DES算法,提出一种基于OpenCL的FPGA加速器设计方案。设计具有48轮迭代的流水并行结构,在数据传输模块中采用数据存储调整、数据位宽改进策略提高内核实际带宽利用率,在算法加密模块中采用指令流优化策略形成流水线并行架构,同时采用内核矢量化、计算单元复制策略进一步提高内核性能。实验结果表明,该加速器在Intel Stratix 10 GX2800上可获得111.801 Gb/s的吞吐率,与Intel Core i7-9700 CPU相比性能提升372倍,能效提升644倍,与NvidiaGeForce GTX 1080Ti GPU相比性能提升20%,能效提升9倍。
关键词
opencl
框架
现场可编程门阵列
加解密算法
3DES算法
流水并行结构
Keywords
opencl framework
Field Programmable Gate Array(FPGA)
encryption and decryption algorithm
3DES algorithm
pipeline parallel structure
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于OpenCL机器视觉算法GPU实现
被引量:
3
3
作者
吴进
刘应
刘镇弢
李乔深
机构
西安邮电大学电子工程学院
出处
《计算机工程与设计》
北大核心
2019年第2期346-351,共6页
基金
国家自然科学基金面上基金项目(61772417)
国家自然科学基金重点基金项目(61634004)
+3 种基金
国家自然科学基金青年基金项目(61602377)
陕西省科技统筹创新工程基金项目(2016KTZDGY02-04-02)
陕西省重点研发计划基金项目(2017GY-060)
陕西省自然科学基础研究计划基金项目(2018JM4018)
文摘
针对不断增长的对机器视觉算法处理效率和实时性的要求,研究基于异构编程框架OpenCL对机器视觉算法在通用计算机图形处理单元(GPU)上的并行处理和加速方法,提出结合存储分配、指令流优化、数据重用等方法的并行优化策略。在Sobel边缘检测、Canny边缘检测、Harris角点检测、高斯图像金字塔4个不同并行度视觉算法上进行验证,验证结果表明,在不考虑数据传输的情况下,对比CPU串行实现取得了平均6.16的加速比,对比OpenCV的GPU库(即CUDA实现)取得了1.12-5.47的加速比,验证了所提优化策略的有效性。
关键词
开放计算语言
图形处理器
并行加速
机器视觉算法
异构框架
Keywords
opencl
GPU
parallel acceleration
machine vision algorithm
heterogeneous
framework
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
OclDNN:一种可应用于TensorFlow的通用DNN库
4
作者
陈锐
孙羽菲
郭强
隋轶丞
周振辉
石昌青
张玉志
机构
南开大学软件学院
先进计算与关键软件海河实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第4期138-148,共11页
基金
国家重点研发计划(2021YFB0300104)。
文摘
深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟达、AMD等少数国外厂商开发并根据自有硬件设备特点进行优化,但其封闭性导致其他厂商生产的通用加速器难以在深度学习领域发挥作用。为解决现有DNN库无法支持国产加速器的问题,使得深度学习模型能够调用国产加速器进行运算,研究跨平台的通用DNN库,通过对开源MIOpen的结构特点和调用方式进行分析,提出修改和重构该库的方法,并实现一种基于OpenCL的DNN(OclDNN)库。考虑到TensorFlow较高的流行度及其对DNN库调用的特殊性与复杂性,研究通用DNN库在TensorFlow中的集成方法,通过StreamExecutor中的OpenCL平台实现对OclDNN的调用。实验结果表明,OclDNN在英伟达、华为等不同厂商的计算设备上运算结果正确可靠,在相同实验环境下,深度学习算子使用OclDNN时的加速性能比传统CPU并行算法提升了5~60倍。
关键词
深度神经网络库
深度学习
开放计算语言
硬件加速器
TensorFlow框架
Keywords
Deep Neural Network(DNN)library
deep learning
Open Computing Language(
opencl
)
hardware accelerator
TensorFlow
framework
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于GPU的并行Cholesky分解及其应用
被引量:
1
5
作者
沈雁
戴瑜兴
机构
湖南大学电气与信息工程学院
温州大学数理与电子信息工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第2期284-289,共6页
基金
浙江省自然科学基金重点项目(LZ16E050002)
文摘
在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵子块的逆矩阵得到复用,完成对称正定矩阵的高效Cholesky分解,并且其能够应用于三维视觉光束平差问题中的大型正定矩阵的分解。实验结果表明,该方法的Cholesky分解速度比clMAGMA提升50%以上,针对光束平差问题,比Ceres Solver中使用的Eigen库速度提升约38倍。
关键词
正定系统
CHOLESKY分解
并行计算
opencl
框架
光束平差
Keywords
positive definite system
Cholesky decomposition
parallel computing
opencl framework
bundle adjustment
分类号
TP361 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于GPGPU的生物序列快速比对
被引量:
5
6
作者
马海晨
韦刚
吴百峰
机构
复旦大学计算机科学技术学院
出处
《计算机工程》
CAS
CSCD
2012年第4期241-244,共4页
文摘
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。
关键词
生物信息学
序列比对
通用图形处理器
SMITH-WATERMAN算法
opencl
框架
Keywords
bioinformatics
sequence alignment
General Purpose Graphic Processing Unit(GPGPU)
Smith-Waterman(SW) algorithm
opencl framework
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于GPU的异构并行编程模型分析与研究
7
作者
包达尔罕
高文炜
郑欣
冯路
杨金颖
机构
西安微电子技术研究所
火箭军装备部驻西安地区第四代表室
出处
《内蒙古民族大学学报(自然科学版)》
2020年第1期42-46,共5页
文摘
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已经被广泛使用和研究.从异构并行编程模型与编程框架两个角度总结了异构并行编程模型的最新研究成果.异构并行编程为异构系统与上层应用之间搭建桥梁,为当前高速发展的并行计算提供了技术方案支持.在主流的并行编程模型中,CUDA与OpenCL是广泛被人们所青睐的两种方案,并且它们能够提供成熟且稳定的技术支持.文章以CUDA和OpenCL的特征为出发点,研究了异构并行编程模型的核心技术.
关键词
CUDA
opencl
编程模型
编程框架
Keywords
CUDA
opencl
Programing model
Programing
framework
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于OpenCL的Prewitt算法的并行实现
马歌
肖汉
《现代电子技术》
2014
5
下载PDF
职称材料
2
基于OpenCL的3DES算法FPGA加速器
吴健凤
郑博文
聂一
柴志雷
《计算机工程》
CAS
CSCD
北大核心
2021
6
下载PDF
职称材料
3
基于OpenCL机器视觉算法GPU实现
吴进
刘应
刘镇弢
李乔深
《计算机工程与设计》
北大核心
2019
3
下载PDF
职称材料
4
OclDNN:一种可应用于TensorFlow的通用DNN库
陈锐
孙羽菲
郭强
隋轶丞
周振辉
石昌青
张玉志
《计算机工程》
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
5
基于GPU的并行Cholesky分解及其应用
沈雁
戴瑜兴
《计算机工程》
CAS
CSCD
北大核心
2019
1
下载PDF
职称材料
6
基于GPGPU的生物序列快速比对
马海晨
韦刚
吴百峰
《计算机工程》
CAS
CSCD
2012
5
下载PDF
职称材料
7
基于GPU的异构并行编程模型分析与研究
包达尔罕
高文炜
郑欣
冯路
杨金颖
《内蒙古民族大学学报(自然科学版)》
2020
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部