期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向DCU的LDS访存向量化优化
被引量:
1
1
作者
杨思驰
赵荣彩
+1 位作者
韩林
王洪生
《计算机工程》
CAS
CSCD
北大核心
2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问...
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。
展开更多
关键词
深度计算器
本地数据共享
访存向量化
访
存
特征
bank冲突
下载PDF
职称材料
基于RISC-V的FFmpeg多媒体算法库优化策略
被引量:
3
2
作者
张桢
梁军
+2 位作者
贾海鹏
张云泉
李青
《计算机工程》
CAS
CSCD
北大核心
2023年第4期159-165,173,共8页
RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗...
RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。
展开更多
关键词
开源指令集架构
FFmpeg多媒体算法库
向量化
访
存
汇编优化
指令流水优化
下载PDF
职称材料
异构计算平台图像边缘检测算法优化研究
被引量:
5
3
作者
魏秋明
梁军
+2 位作者
鲍泓
王晶
李论
《计算机工程》
CAS
CSCD
北大核心
2017年第5期240-247,共8页
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K...
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。
展开更多
关键词
图像边缘检测
异构计算平台
向量化
访
存
数据本地化
条件分支优化
下载PDF
职称材料
题名
面向DCU的LDS访存向量化优化
被引量:
1
1
作者
杨思驰
赵荣彩
韩林
王洪生
机构
郑州大学计算机与人工智能学院
国家超级计算郑州中心
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第2期206-213,共8页
基金
河南省重大科技专项(221100210600)。
文摘
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。
关键词
深度计算器
本地数据共享
访存向量化
访
存
特征
bank冲突
Keywords
Deep Computing Unit(DCU)
Local Data Shared(LDS)
memory access vectorization
memory access characteristic
bank conflict
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于RISC-V的FFmpeg多媒体算法库优化策略
被引量:
3
2
作者
张桢
梁军
贾海鹏
张云泉
李青
机构
北京联合大学北京市信息服务工程重点实验室
中国科学院计算技术研究所计算机体系结构国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第4期159-165,173,共8页
基金
国家自然科学基金(61972376)
北京联合大学科研项目(ZK50202002)。
文摘
RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。
关键词
开源指令集架构
FFmpeg多媒体算法库
向量化
访
存
汇编优化
指令流水优化
Keywords
open source Instruction Set Architecture(ISA)
FFmpeg multimedia algorithm library
vectorized memory access
assembly optimization
instruction pipeline optimization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
异构计算平台图像边缘检测算法优化研究
被引量:
5
3
作者
魏秋明
梁军
鲍泓
王晶
李论
机构
北京联合大学电子信息技术实验实训基地
北京联合大学北京市信息服务工程重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第5期240-247,共8页
基金
国家自然科学基金(NSFC61271370)
北京市教育委员会科技计划面上项目(SQKM201411417010
KM201311417001)
文摘
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。
关键词
图像边缘检测
异构计算平台
向量化
访
存
数据本地化
条件分支优化
Keywords
image edge detection
heterogeneous computing platform
quantitative acess memory
data localization
conditional branch optimization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向DCU的LDS访存向量化优化
杨思驰
赵荣彩
韩林
王洪生
《计算机工程》
CAS
CSCD
北大核心
2024
1
下载PDF
职称材料
2
基于RISC-V的FFmpeg多媒体算法库优化策略
张桢
梁军
贾海鹏
张云泉
李青
《计算机工程》
CAS
CSCD
北大核心
2023
3
下载PDF
职称材料
3
异构计算平台图像边缘检测算法优化研究
魏秋明
梁军
鲍泓
王晶
李论
《计算机工程》
CAS
CSCD
北大核心
2017
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部