期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于神威·太湖之光的非结构网格计算加速算法 被引量:1
1
作者 许乐 安虹 +2 位作者 陈俊仕 张鹏飞 武铮 《计算机工程》 CAS CSCD 北大核心 2022年第12期45-53,共9页
在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访... 在国产异构众核平台神威·太湖之光上的非结构网格计算具有稀疏存储、离散访存、数据依赖等特点,严重制约了众核处理器的性能发挥。为解决稀疏存储和离散访存问题,提出一种N阶对角染色算法,以有效平衡主从核计算并利用从核将全局访存转化为LDM访问。针对数据依赖造成的计算竞争问题,采用自适应和无依赖的任务划分方法,避免并行计算时的数据冲突。为对处理器架构和非结构网格计算进行优化,采用主核与从核异步并行的方式,差异化使用主从核以充分利用硬件资源,同时,取消处理器提供的寄存器通信机制,降低从核阵列的同步开销同时便于扩展到新一代神威平台。此外,使用计算访存异步重叠技术来充分隐藏访存延迟。利用SpMV、Integration、calcLudsFcc算子进行实验,结果表明,相比主核实现,组合加速算法在不同算例规模下平均取得了10倍的加速效果,加速比最高可达24倍,N阶对角染色算法相比非染色分块算法取得了超过5.8倍的性能加速,有效提升了数据局部性和计算并行度。该算法对有依赖关系的计算冲突算子同样具有良好的加速性能,验证了自适应和无依赖任务划分方法的有效性。 展开更多
关键词 神威·太湖之光 非结构网格 众核加速 离散访存 无依赖任务划分
下载PDF
申威处理器上数据流运行时系统的设计与实现
2
作者 张鹏飞 陈俊仕 +3 位作者 郑重 沈沛祺 安虹 许乐 《计算机工程》 CAS CSCD 北大核心 2023年第12期46-54,共9页
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、... 我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题。基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用。实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化。实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速。 展开更多
关键词 申威异构处理器 数据流运行时系统 Codelet程序执行模型 并行编程模型 众核加速
下载PDF
基于CPU-MIC异构众核环境的行星流体动力学数值模拟 被引量:1
3
作者 吴长茂 杨超 +3 位作者 尹亮 刘芳芳 孙乔 李力刚 《数值计算与计算机应用》 2017年第3期197-214,共18页
数值模拟是行星流体动力学研究的主要工具.本文介绍CPU-MIC异构众核平台的行星流体动力学数值模拟,计算并模拟地球外核的磁流体运动.本文在已有工作的基础上^([1-3]),添加了CPU-MIC异构众核环境的数值模拟支持.首先描述了CPU-MIC异构众... 数值模拟是行星流体动力学研究的主要工具.本文介绍CPU-MIC异构众核平台的行星流体动力学数值模拟,计算并模拟地球外核的磁流体运动.本文在已有工作的基础上^([1-3]),添加了CPU-MIC异构众核环境的数值模拟支持.首先描述了CPU-MIC异构众核环境的上的数值模拟流程,然后给出了MIC上的分布式并行GMRES(m)众核解法器的实现算法.其次,实现了解法器的计算核心稀疏矩阵向量乘(SpMV)在MIC上的分布式并行算法,该SpMV实现了计算-通信重叠、数据传输-计算重叠.再次,为加速行星流体动力学方程收敛,给出了MIC上以SpMV为基本操作的分布式并行多项式预条件子.最后,提出了一些MIC众核平台的优化措施,如多线程、流存储和数据传输优化等.天河2号数值模拟表明相比CPU版的数值模拟,CPU-MIC异构众核环境下数值模拟在单MIC卡和64块MIC卡分别取得了6.93和6.0倍的加速比. 展开更多
关键词 行星流体动力学 解法器 并行计算 众核加速 GMRES 性能优化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部