期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向多核CPU/众核GPU架构的非结构CFD共享内存并行计算技术
被引量:
1
1
作者
张健
李瑞田
+3 位作者
邓亮
代喆
刘杰
徐传福
《航空学报》
EI
CAS
CSCD
北大核心
2024年第7期108-121,共14页
针对现代高性能计算机架构开展非结构CFD节点内共享内存并行,是提升浮点计算效率、实现更大规模流体仿真应用能力的关键。然而由于非结构网格CFD计算存在拓扑关系复杂、数据局部性差、数据写冲突等问题,传统算法如何共享内存并行化以高...
针对现代高性能计算机架构开展非结构CFD节点内共享内存并行,是提升浮点计算效率、实现更大规模流体仿真应用能力的关键。然而由于非结构网格CFD计算存在拓扑关系复杂、数据局部性差、数据写冲突等问题,传统算法如何共享内存并行化以高效发挥多核CPU/众核GPU的硬件能力,成为一个重大的挑战。从一个工业级非结构CFD软件出发,通过深入分析其计算行为和访存模式,设计实现了多种共享内存并行算法,采用了网格重排序、循环融合、多级访存等数据局部性优化技术进一步提升性能。面向多核CPU架构,系统开展了循环级与任务级两种并行模式的对比研究;面向众核GPU架构,创新地提出了一种基于多级访存优化方法的规约并行策略。利用M6机翼和CHN-T1飞机算例对所有并行算法及优化技术进行了全面验证与评估。结果表明:在多核CPU平台上,基于剖分复制的任务级并行策略性能最好,采用Cuthill-McKee重排序以及循环融合分别使整体性能提升10%。在众核GPU平台上,基于多级访存的规约策略具有显著的加速效果,优化后热点函数的性能相比优化前提升了3倍,相比CPU串行性能整体加速比可达127。
展开更多
关键词
非结构网格
CFD
共享内存并行
GPU
访存优化
原文传递
针对特普利茨线性系统的多级并行算法
2
作者
张哲
《计算机工程》
CAS
CSCD
北大核心
2011年第1期36-38,共3页
利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,...
利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,并通过实验验证其可行性。
展开更多
关键词
特普利茨矩阵
柯西式矩阵
多级
并行
程序设计
消息传递接口
开放多平台
共享内存并行
程序设计
下载PDF
职称材料
题名
面向多核CPU/众核GPU架构的非结构CFD共享内存并行计算技术
被引量:
1
1
作者
张健
李瑞田
邓亮
代喆
刘杰
徐传福
机构
国防科技大学并行与分布计算全国重点实验室
中国空气动力研究与发展中心计算空气动力研究所
出处
《航空学报》
EI
CAS
CSCD
北大核心
2024年第7期108-121,共14页
基金
国家数值风洞(NNW)工程
四川省科技计划(2023YFG0152)。
文摘
针对现代高性能计算机架构开展非结构CFD节点内共享内存并行,是提升浮点计算效率、实现更大规模流体仿真应用能力的关键。然而由于非结构网格CFD计算存在拓扑关系复杂、数据局部性差、数据写冲突等问题,传统算法如何共享内存并行化以高效发挥多核CPU/众核GPU的硬件能力,成为一个重大的挑战。从一个工业级非结构CFD软件出发,通过深入分析其计算行为和访存模式,设计实现了多种共享内存并行算法,采用了网格重排序、循环融合、多级访存等数据局部性优化技术进一步提升性能。面向多核CPU架构,系统开展了循环级与任务级两种并行模式的对比研究;面向众核GPU架构,创新地提出了一种基于多级访存优化方法的规约并行策略。利用M6机翼和CHN-T1飞机算例对所有并行算法及优化技术进行了全面验证与评估。结果表明:在多核CPU平台上,基于剖分复制的任务级并行策略性能最好,采用Cuthill-McKee重排序以及循环融合分别使整体性能提升10%。在众核GPU平台上,基于多级访存的规约策略具有显著的加速效果,优化后热点函数的性能相比优化前提升了3倍,相比CPU串行性能整体加速比可达127。
关键词
非结构网格
CFD
共享内存并行
GPU
访存优化
Keywords
unstructured-grid
CFD
shared memory parallelization
GPU
memory access optimization
分类号
V211.3 [航空宇航科学与技术—航空宇航推进理论与工程]
原文传递
题名
针对特普利茨线性系统的多级并行算法
2
作者
张哲
机构
辽宁师范大学计算机与信息技术学院计算机系
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第1期36-38,共3页
文摘
利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,并通过实验验证其可行性。
关键词
特普利茨矩阵
柯西式矩阵
多级
并行
程序设计
消息传递接口
开放多平台
共享内存并行
程序设计
Keywords
Toeplitz matrix
Cauchy-like matrix
multilevel parallel programming
Message Passing Interface(MPI)
Open Multi-platform shared-memory parallel Programming(OpenMP)
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向多核CPU/众核GPU架构的非结构CFD共享内存并行计算技术
张健
李瑞田
邓亮
代喆
刘杰
徐传福
《航空学报》
EI
CAS
CSCD
北大核心
2024
1
原文传递
2
针对特普利茨线性系统的多级并行算法
张哲
《计算机工程》
CAS
CSCD
北大核心
2011
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部