期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于神威·太湖之光的非结构网格计算加速算法
被引量:
1
1
作者
许乐
安虹
+2 位作者
陈俊仕
张鹏飞
武铮
《计算机工程》
CAS
CSCD
北大核心
2022年第12期45-53,共9页
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访...
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。
展开更多
关键词
神威·太湖之光
非结构网格
众核加速
离散访存
无依赖任务划分
下载PDF
职称材料
申威处理器上数据流运行时系统的设计与实现
2
作者
张鹏飞
陈俊仕
+3 位作者
郑重
沈沛祺
安虹
许乐
《计算机工程》
CAS
CSCD
北大核心
2023年第12期46-54,共9页
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、...
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题。基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用。实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化。实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速。
展开更多
关键词
申威异构处理器
数据流运行时系统
Codelet程序执行模型
并行编程模型
众核加速
下载PDF
职称材料
基于CPU-MIC异构众核环境的行星流体动力学数值模拟
被引量:
1
3
作者
吴长茂
杨超
+3 位作者
尹亮
刘芳芳
孙乔
李力刚
《数值计算与计算机应用》
2017年第3期197-214,共18页
数值模拟是行星流体动力学研究的主要工具.本文介绍CPU-MIC异构众核平台的行星流体动力学数值模拟,计算并模拟地球外核的磁流体运动.本文在已有工作的基础上^([1-3]),添加了CPU-MIC异构众核环境的数值模拟支持.首先描述了CPU-MIC异构众...
数值模拟是行星流体动力学研究的主要工具.本文介绍CPU-MIC异构众核平台的行星流体动力学数值模拟,计算并模拟地球外核的磁流体运动.本文在已有工作的基础上^([1-3]),添加了CPU-MIC异构众核环境的数值模拟支持.首先描述了CPU-MIC异构众核环境的上的数值模拟流程,然后给出了MIC上的分布式并行GMRES(m)众核解法器的实现算法.其次,实现了解法器的计算核心稀疏矩阵向量乘(SpMV)在MIC上的分布式并行算法,该SpMV实现了计算-通信重叠、数据传输-计算重叠.再次,为加速行星流体动力学方程收敛,给出了MIC上以SpMV为基本操作的分布式并行多项式预条件子.最后,提出了一些MIC众核平台的优化措施,如多线程、流存储和数据传输优化等.天河2号数值模拟表明相比CPU版的数值模拟,CPU-MIC异构众核环境下数值模拟在单MIC卡和64块MIC卡分别取得了6.93和6.0倍的加速比.
展开更多
关键词
行星流体动力学
解法器
并行计算
众核加速
GMRES
性能优化
原文传递
题名
基于神威·太湖之光的非结构网格计算加速算法
被引量:
1
1
作者
许乐
安虹
陈俊仕
张鹏飞
武铮
机构
中国科学技术大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第12期45-53,共9页
基金
国家自然科学基金“面向E级计算系统的光滑粒子流体动力学高可扩展并行计算框架”(62102389)。
文摘
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。
关键词
神威·太湖之光
非结构网格
众核加速
离散访存
无依赖任务划分
Keywords
Sunway TaihuLight
unstructured grid
many-core acceleration
discrete memory access
independent task partition
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
申威处理器上数据流运行时系统的设计与实现
2
作者
张鹏飞
陈俊仕
郑重
沈沛祺
安虹
许乐
机构
中国科学技术大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第12期46-54,共9页
基金
国家自然科学基金(62102389)。
文摘
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题。基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用。实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化。实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速。
关键词
申威异构处理器
数据流运行时系统
Codelet程序执行模型
并行编程模型
众核加速
Keywords
Shenwei heterogeneous processor
data-flow runtime system
Codelet program execution model
parallel programming model
many-core acceleration
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于CPU-MIC异构众核环境的行星流体动力学数值模拟
被引量:
1
3
作者
吴长茂
杨超
尹亮
刘芳芳
孙乔
李力刚
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院软件研究所计算机科学国家重点实验室
中国科学院大学工程科学学院
中国科学院上海天文台
出处
《数值计算与计算机应用》
2017年第3期197-214,共18页
基金
国家高技术研究发展计划(863计划)(2015AAO1A302)
国家自然科学基金重大研究计划集成项目(91530323)
+2 种基金
国家重点研发计划(2016YFB0200603)
中国科学院信息化专项资助项目(XXH-12503-02-02-2)
中国科学院前沿科学重点研究项目(QYZDB-SSW-SYS006)
文摘
数值模拟是行星流体动力学研究的主要工具.本文介绍CPU-MIC异构众核平台的行星流体动力学数值模拟,计算并模拟地球外核的磁流体运动.本文在已有工作的基础上^([1-3]),添加了CPU-MIC异构众核环境的数值模拟支持.首先描述了CPU-MIC异构众核环境的上的数值模拟流程,然后给出了MIC上的分布式并行GMRES(m)众核解法器的实现算法.其次,实现了解法器的计算核心稀疏矩阵向量乘(SpMV)在MIC上的分布式并行算法,该SpMV实现了计算-通信重叠、数据传输-计算重叠.再次,为加速行星流体动力学方程收敛,给出了MIC上以SpMV为基本操作的分布式并行多项式预条件子.最后,提出了一些MIC众核平台的优化措施,如多线程、流存储和数据传输优化等.天河2号数值模拟表明相比CPU版的数值模拟,CPU-MIC异构众核环境下数值模拟在单MIC卡和64块MIC卡分别取得了6.93和6.0倍的加速比.
关键词
行星流体动力学
解法器
并行计算
众核加速
GMRES
性能优化
Keywords
planetary fluid dynamics
solver
parallel computing
Xeon Phi accelera-tion
GMRES
performance optimization
分类号
O35 [理学—流体力学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于神威·太湖之光的非结构网格计算加速算法
许乐
安虹
陈俊仕
张鹏飞
武铮
《计算机工程》
CAS
CSCD
北大核心
2022
1
下载PDF
职称材料
2
申威处理器上数据流运行时系统的设计与实现
张鹏飞
陈俊仕
郑重
沈沛祺
安虹
许乐
《计算机工程》
CAS
CSCD
北大核心
2023
0
下载PDF
职称材料
3
基于CPU-MIC异构众核环境的行星流体动力学数值模拟
吴长茂
杨超
尹亮
刘芳芳
孙乔
李力刚
《数值计算与计算机应用》
2017
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部