期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于GPU加速器的图像实时去雾系统
1
作者
高策
赵新宇
柳玉晗
《科技传播》
2015年第23期152-153,共2页
随着成像技术的飞速发展,光学设备使用了越来越多的先进探测器;对影像的清晰展示逐渐成为光学设备的一项重要功能,在雾霾环境下,如何将实时影像进行处理,以更加清晰、更能突出目标特点、更具视觉效果的方式呈现在观测者面前,已经成为制...
随着成像技术的飞速发展,光学设备使用了越来越多的先进探测器;对影像的清晰展示逐渐成为光学设备的一项重要功能,在雾霾环境下,如何将实时影像进行处理,以更加清晰、更能突出目标特点、更具视觉效果的方式呈现在观测者面前,已经成为制约产业发展的关键核心技术,是光学设备相关从业人员急需解决的课题;本文通过构建实时去雾系统的硬件环境,描述基于GPU加速器的图像实时去雾方法 ,解决了雾霾环境下光学设备成像不清晰的问题,并通过试验验证了该系统对1080p的SDI图像进行实时去雾处理的效果。从试验结果可以看出该系统去雾效果明显,实时处理能力强,具有较好的应用前景。
展开更多
关键词
gpu加速器
去雾
光学设备
SDI
暗原色先验
下载PDF
职称材料
ParaC:面向GPU平台的图像处理领域的编程框架
被引量:
4
2
作者
卢兴敬
刘雷
+2 位作者
贾海鹏
冯晓兵
武成岗
《软件学报》
EI
CSCD
北大核心
2017年第7期1655-1675,共21页
GPGPU加速器是当前提高图像处理算法性能的主流加速平台,但在GPGPU平台上,同一个程序充分利用硬件体系结构特征和软件特征的优化版本与简单实现版本在性能上会有数量级的差异.GPGPU加速器具有多维多层的大量执行线程和层次化存储体系结...
GPGPU加速器是当前提高图像处理算法性能的主流加速平台,但在GPGPU平台上,同一个程序充分利用硬件体系结构特征和软件特征的优化版本与简单实现版本在性能上会有数量级的差异.GPGPU加速器具有多维多层的大量执行线程和层次化存储体系结构,后者的不同层次具有不同的容量、带宽、延迟和访问权限.同时,图像处理应用程序具有复杂的计算操作、边界处理规则和数据访问特性.因此,任务的并发执行模式、线程的组织方式和并发任务到设备的映射不仅影响到程序的并发度、调度、通信和同步等特性,而且也会影响到访存的带宽、延迟等.因此,GPGPU平台上的程序优化是一个困难、复杂且效率较低的过程.提出基于语言扩展的领域编程模型:Para C.Para C编程环境利用高层语言扩展描述的程序语义信息,自动分析获取应用程序的操作信息、并发任务间的数据重用信息和访存信息等程序特征,同时结合硬件平台特征,利用基于领域先验知识驱动的编译优化模型自动生成GPGPU平台上的优化代码,最后,利用源源变换编译器生成标准Open CL程序.在测试用例上的实验结果表明,ParaC在GPGPU平台上自动生成的优化版本相对于手工优化版本的加速比最高达到3.22倍,但代码行数只是后者的1.2%~39.68%.
展开更多
关键词
图像处理
通用
gpu加速器
领域编程语言
编译优化
源源变换
下载PDF
职称材料
ROCm平台半精度矩阵乘法的实现和优化
3
作者
王雨薇
吉青
+2 位作者
卜景德
高娅
赵红朋
《计算机工程与设计》
北大核心
2024年第8期2313-2319,共7页
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比...
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比小、处于带宽限制下的特点;通过提升类GPU占用率和优化带宽利用率,实现优化算法的HGEMM函数设计,取得较普通算法1.1-1.3倍加速比。实验结果表明,依据半精度数据格式特点,使用优化算法提升占用率和优化指令排布,能够提升HGEMM函数的计算访存比,实现小规模矩阵HGEMM函数的性能提升。
展开更多
关键词
类
gpu加速器
矩阵乘法
半精度
性能优化
算法实现
高性能计算
线性代数
下载PDF
职称材料
题名
基于GPU加速器的图像实时去雾系统
1
作者
高策
赵新宇
柳玉晗
机构
中国科学院长春光学精密机械与物理研究所
出处
《科技传播》
2015年第23期152-153,共2页
文摘
随着成像技术的飞速发展,光学设备使用了越来越多的先进探测器;对影像的清晰展示逐渐成为光学设备的一项重要功能,在雾霾环境下,如何将实时影像进行处理,以更加清晰、更能突出目标特点、更具视觉效果的方式呈现在观测者面前,已经成为制约产业发展的关键核心技术,是光学设备相关从业人员急需解决的课题;本文通过构建实时去雾系统的硬件环境,描述基于GPU加速器的图像实时去雾方法 ,解决了雾霾环境下光学设备成像不清晰的问题,并通过试验验证了该系统对1080p的SDI图像进行实时去雾处理的效果。从试验结果可以看出该系统去雾效果明显,实时处理能力强,具有较好的应用前景。
关键词
gpu加速器
去雾
光学设备
SDI
暗原色先验
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
ParaC:面向GPU平台的图像处理领域的编程框架
被引量:
4
2
作者
卢兴敬
刘雷
贾海鹏
冯晓兵
武成岗
机构
体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院大学
出处
《软件学报》
EI
CSCD
北大核心
2017年第7期1655-1675,共21页
基金
国家自然科学基金(61432018
61402445
+5 种基金
61502452
61602443
61432018)
国家重点研发计划(2016YFB1000402)
数学工程与先进计算国家重点实验室开放基金(2016A03)
北京市科委计划(D161100001216002)~~
文摘
GPGPU加速器是当前提高图像处理算法性能的主流加速平台,但在GPGPU平台上,同一个程序充分利用硬件体系结构特征和软件特征的优化版本与简单实现版本在性能上会有数量级的差异.GPGPU加速器具有多维多层的大量执行线程和层次化存储体系结构,后者的不同层次具有不同的容量、带宽、延迟和访问权限.同时,图像处理应用程序具有复杂的计算操作、边界处理规则和数据访问特性.因此,任务的并发执行模式、线程的组织方式和并发任务到设备的映射不仅影响到程序的并发度、调度、通信和同步等特性,而且也会影响到访存的带宽、延迟等.因此,GPGPU平台上的程序优化是一个困难、复杂且效率较低的过程.提出基于语言扩展的领域编程模型:Para C.Para C编程环境利用高层语言扩展描述的程序语义信息,自动分析获取应用程序的操作信息、并发任务间的数据重用信息和访存信息等程序特征,同时结合硬件平台特征,利用基于领域先验知识驱动的编译优化模型自动生成GPGPU平台上的优化代码,最后,利用源源变换编译器生成标准Open CL程序.在测试用例上的实验结果表明,ParaC在GPGPU平台上自动生成的优化版本相对于手工优化版本的加速比最高达到3.22倍,但代码行数只是后者的1.2%~39.68%.
关键词
图像处理
通用
gpu加速器
领域编程语言
编译优化
源源变换
Keywords
image processing
GP
gpu
accelerator
domain specific language
compiler optimization, source-to-source translation
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
ROCm平台半精度矩阵乘法的实现和优化
3
作者
王雨薇
吉青
卜景德
高娅
赵红朋
机构
郑州大学计算机与人工智能学院
中国科学院理论物理研究所理论物理先进计算联合实验室
出处
《计算机工程与设计》
北大核心
2024年第8期2313-2319,共7页
基金
国家重点研发计划基金项目(2021YFB0300200)。
文摘
为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比小、处于带宽限制下的特点;通过提升类GPU占用率和优化带宽利用率,实现优化算法的HGEMM函数设计,取得较普通算法1.1-1.3倍加速比。实验结果表明,依据半精度数据格式特点,使用优化算法提升占用率和优化指令排布,能够提升HGEMM函数的计算访存比,实现小规模矩阵HGEMM函数的性能提升。
关键词
类
gpu加速器
矩阵乘法
半精度
性能优化
算法实现
高性能计算
线性代数
Keywords
gpu
-like accelerator
GEMM
half-precision
performance optimization
algorithm implementation
high perfor-mance computing
linear algebra
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于GPU加速器的图像实时去雾系统
高策
赵新宇
柳玉晗
《科技传播》
2015
0
下载PDF
职称材料
2
ParaC:面向GPU平台的图像处理领域的编程框架
卢兴敬
刘雷
贾海鹏
冯晓兵
武成岗
《软件学报》
EI
CSCD
北大核心
2017
4
下载PDF
职称材料
3
ROCm平台半精度矩阵乘法的实现和优化
王雨薇
吉青
卜景德
高娅
赵红朋
《计算机工程与设计》
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部