期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析
被引量:
1
1
作者
王一超
秦强
+1 位作者
施忠伟
林新华
《计算机科学》
CSCD
北大核心
2015年第1期75-78,共4页
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和Ope...
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度。同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性。因此,OpenACC是一个值得研究的并行编程标准。如今的异构加速硬件设备呈现出多元化趋势。在2013年11月的Top500榜单上排名第一的"天河二号"使用了48000块构建在Intel Knights Corner架构之上的协处理器。与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体。对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题。只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求。解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题。通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性。
展开更多
关键词
OpenACC
性能可移植性
高
性能
计算
下载PDF
职称材料
Bellman-Ford算法性能可移植的GPU并行优化
被引量:
7
2
作者
刘磊
王燕燕
+2 位作者
申春
李玉祥
刘雷
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2015年第5期1559-1564,共6页
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AM...
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。
展开更多
关键词
计算机软件
Bellman-Ford算法
GPU并行编程及优化技术
并行归约算法
性能可移植性
下载PDF
职称材料
CUDA下单源最短路径算法并行优化
被引量:
3
3
作者
张晗
钱育蓉
+2 位作者
王跃飞
陈人和
田宸玮
《计算机工程与设计》
北大核心
2019年第8期2181-2189,共9页
为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡...
为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡进行测试,参照共享内存容量划分线程块、缩减迭代后向量维度并使用CUDA流缩短首次计算时延,相比传统算法,改进后并行算法加速比在200倍左右。该并行优化方案验证了固定序在CUDA平台具有可行性和可移植性,可作为多平台研究参照。
展开更多
关键词
固定序改进算法
Bellman-Ford算法
并行计算
性能可移植性
图形处理器
统一计算设备架构
下载PDF
职称材料
题名
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析
被引量:
1
1
作者
王一超
秦强
施忠伟
林新华
机构
上海交通大学
出处
《计算机科学》
CSCD
北大核心
2015年第1期75-78,共4页
文摘
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度。同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性。因此,OpenACC是一个值得研究的并行编程标准。如今的异构加速硬件设备呈现出多元化趋势。在2013年11月的Top500榜单上排名第一的"天河二号"使用了48000块构建在Intel Knights Corner架构之上的协处理器。与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体。对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题。只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求。解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题。通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性。
关键词
OpenACC
性能可移植性
高
性能
计算
Keywords
OpenACC
Performance portabilty
High performance computing
分类号
TP338.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
Bellman-Ford算法性能可移植的GPU并行优化
被引量:
7
2
作者
刘磊
王燕燕
申春
李玉祥
刘雷
机构
吉林大学计算机科学与技术学院
中信证券有限公司
中国科学院计算技术研究所
出处
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2015年第5期1559-1564,共6页
基金
吉林省重大科技攻关项目(20130206052GX)
'863'国家高技术研究发展计划项目(2012AA010902)
'973'国家重点基础研究计划项目(2011CB302500)
文摘
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。
关键词
计算机软件
Bellman-Ford算法
GPU并行编程及优化技术
并行归约算法
性能可移植性
Keywords
computer software
Bellman-Ford algorithm
GPU parallel programing and optimization techniques
parallel reduction algorithm
performance portability
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
CUDA下单源最短路径算法并行优化
被引量:
3
3
作者
张晗
钱育蓉
王跃飞
陈人和
田宸玮
机构
新疆大学软件学院
出处
《计算机工程与设计》
北大核心
2019年第8期2181-2189,共9页
基金
国家自然科学基金项目(61562086、61462079)
新疆维吾尔自治区创新团队基金项目(XJEDU2017T002)
文摘
为设计基于固定序的Bellman-Ford算法在CUDA平台下并行优化方案,结合算法计算密集和数据密集的特点。从核函数计算层面,提出访存优化方法和基于固定序优化线程发散;从CPU-GPU传输层面,提出基于CUDA流优化数据传输开销方法。对不同显卡进行测试,参照共享内存容量划分线程块、缩减迭代后向量维度并使用CUDA流缩短首次计算时延,相比传统算法,改进后并行算法加速比在200倍左右。该并行优化方案验证了固定序在CUDA平台具有可行性和可移植性,可作为多平台研究参照。
关键词
固定序改进算法
Bellman-Ford算法
并行计算
性能可移植性
图形处理器
统一计算设备架构
Keywords
improved fixed order algorithm
Bellman-Ford algorithm
parallel computing
performance portability
GPU
CUDA
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析
王一超
秦强
施忠伟
林新华
《计算机科学》
CSCD
北大核心
2015
1
下载PDF
职称材料
2
Bellman-Ford算法性能可移植的GPU并行优化
刘磊
王燕燕
申春
李玉祥
刘雷
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2015
7
下载PDF
职称材料
3
CUDA下单源最短路径算法并行优化
张晗
钱育蓉
王跃飞
陈人和
田宸玮
《计算机工程与设计》
北大核心
2019
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部