期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向国产异构平台的OpenMP Offload共享内存访存优化
1
作者
王鑫
李嘉楠
+2 位作者
韩林
赵荣彩
周强伟
《计算机工程与应用》
CSCD
北大核心
2023年第10期75-85,共11页
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了...
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。
展开更多
关键词
国产处理器DCU
本地数据共享(LDS)
OpenMP
Offlaod
SPMD
non-SPMD
下载PDF
职称材料
面向FT-M7002平台点积算法的优化实现
2
作者
郭盼盼
陈梦雪
+2 位作者
梁祖达
马晓畅
许邦建
《计算机工程与科学》
CSCD
北大核心
2022年第11期1909-1917,共9页
基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了...
基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了程序的向量并行性,有效地提升了数据传输的速度,提高了程序性能。实验结果表明,输入不同规模大小的数组,不同类型的点积算法在FT-M7002平台上优化后和优化前的平均性能比为12.4166~45.2338。相较于TI官网的dsplib库中不同类型的点积函数在TMS320C6678处理器上运行的性能,FT-M7002平台优化后的性能与TI平台的平均性能比为1.3716~4.5196。实验结果表明了该DSP平台相对于TI主流平台的计算性能优势。
展开更多
关键词
FT-M7002
DSP
点积算法
向量
DMA双通道传输
SVR传输
下载PDF
职称材料
题名
面向国产异构平台的OpenMP Offload共享内存访存优化
1
作者
王鑫
李嘉楠
韩林
赵荣彩
周强伟
机构
郑州大学
计算
机与人工智能学院
国家
超级
计算
郑州
中心
(
郑州大学
)
出处
《计算机工程与应用》
CSCD
北大核心
2023年第10期75-85,共11页
基金
2022年度河南省重大科技专项(221100210600)。
文摘
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。
关键词
国产处理器DCU
本地数据共享(LDS)
OpenMP
Offlaod
SPMD
non-SPMD
Keywords
domestic processor DCU
local data share(LDS)
OpenMP Offload
SPMD
non-SPMD
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向FT-M7002平台点积算法的优化实现
2
作者
郭盼盼
陈梦雪
梁祖达
马晓畅
许邦建
机构
郑州大学
计算
机与人工智能学院
国家
超级
计算
郑州
中心
(
郑州大学
)
湖南
大学
电气与信息工程学院
湖南
大学
信息科学与工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2022年第11期1909-1917,共9页
文摘
基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了程序的向量并行性,有效地提升了数据传输的速度,提高了程序性能。实验结果表明,输入不同规模大小的数组,不同类型的点积算法在FT-M7002平台上优化后和优化前的平均性能比为12.4166~45.2338。相较于TI官网的dsplib库中不同类型的点积函数在TMS320C6678处理器上运行的性能,FT-M7002平台优化后的性能与TI平台的平均性能比为1.3716~4.5196。实验结果表明了该DSP平台相对于TI主流平台的计算性能优势。
关键词
FT-M7002
DSP
点积算法
向量
DMA双通道传输
SVR传输
Keywords
FT-M7002
digital signal processor(DSP)
dot product algorithm
vector
DMA dual channel transmission
SVR transmission
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向国产异构平台的OpenMP Offload共享内存访存优化
王鑫
李嘉楠
韩林
赵荣彩
周强伟
《计算机工程与应用》
CSCD
北大核心
2023
0
下载PDF
职称材料
2
面向FT-M7002平台点积算法的优化实现
郭盼盼
陈梦雪
梁祖达
马晓畅
许邦建
《计算机工程与科学》
CSCD
北大核心
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部