期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
基于OpenACC编程模型的逆时偏移多级并行的设计与优化 被引量:8
1
作者 赵虎 武泗海 +2 位作者 尹成 唐泽凯 贾鹏 《石油地球物理勘探》 EI CSCD 北大核心 2018年第6期1307-1313,1325,I0008,I0009,共10页
OpenCL和CUDA等GPU并行编程模型在波场数值模拟、偏移成像等领域已经得到广泛应用,但二者都破坏原有的串行代码而重新设计并行算法,会增加并行实现的难度和工作量。本文将一种新的GPU并行编程模型OpenACC应用于逆时偏移计算,通过添加编... OpenCL和CUDA等GPU并行编程模型在波场数值模拟、偏移成像等领域已经得到广泛应用,但二者都破坏原有的串行代码而重新设计并行算法,会增加并行实现的难度和工作量。本文将一种新的GPU并行编程模型OpenACC应用于逆时偏移计算,通过添加编译指令实现节点间/节点内的进程/线程级的多级并行方案,是一种更便捷、高效的异构并行技术。对多级并行的数据通信进行优化,实现了叠前偏移成像的多级异构并行加速。数值实验结果表明文中多级并行方案可以有效地解决逆时偏移计算量大和存储量大的问题;经过数据通信的优化后,可以显著提高逆时偏移的计算效率。 展开更多
关键词 GPU编程 openacc 逆时偏移 多级并行
下载PDF
一种基于OPENACC的GPU加速实现高斯模糊算法 被引量:7
2
作者 曾文权 胡玉贵 +1 位作者 何拥军 林敏 《计算机技术与发展》 2013年第7期147-150,共4页
针对使用底层API进行GPU加速时存在的编码复杂以及效率低下等缺陷,文中试图利用基于中间层的OPENACC加速技术对传统的串行代码进行改写,从而达到改善开发效率,简化代码之目的。文中以传统的串行高斯模糊算法为处理对象,在其中添加OPENAC... 针对使用底层API进行GPU加速时存在的编码复杂以及效率低下等缺陷,文中试图利用基于中间层的OPENACC加速技术对传统的串行代码进行改写,从而达到改善开发效率,简化代码之目的。文中以传统的串行高斯模糊算法为处理对象,在其中添加OPENACC指令,提出基于OPENACC指令的GPU加速算法,并对算法流程进行了分析和说明。通过与原生CUDA和串行高斯的结果对比之后,发现随着处理像素数量的增加,串行高斯性能呈指数变化,而CUDA和OPENAC则呈线性变化。结果表明,该算法能在不改变原有非并行代码结构的基础上,通过增加高效的OPENACC指令即可获得与CUDA近似的图像处理质量和处理性能,且较CUDA具有更高的代码开发效率。 展开更多
关键词 openacc 图形处理器 统一计算架构 高斯模糊
下载PDF
基于GPU-OpenACC的气候模式加速优化研究 被引量:3
3
作者 肖洒 魏敏 +2 位作者 邓帅 徐达 张晨琛 《气象》 CSCD 北大核心 2019年第7期1001-1008,共8页
为使数值模式适应异构架构在高性能计算领域的快速发展趋势,本文基于OpenACC语言,对气候模式BCC_AGCM3.0中动力框架三段程序段进行GPU加速优化试验。通过异步执行设置、循环内移、数据管理及向量参数化配置等方式,对模式中计算密集部分... 为使数值模式适应异构架构在高性能计算领域的快速发展趋势,本文基于OpenACC语言,对气候模式BCC_AGCM3.0中动力框架三段程序段进行GPU加速优化试验。通过异步执行设置、循环内移、数据管理及向量参数化配置等方式,对模式中计算密集部分程序段进行GPU加速并行化,并进行了优化运行效率对比及正确性验证。试验结果表明,BCC_AGCM3.0模式中三段程序段GPU加速后效率提升均在3倍以上,BCC_AGCM气候模式全球涡度均方根相对误差控制在一定范围之内。加速方法及策略对于数值天气气候模式在异构环境下的移植与优化具有一定参考价值。 展开更多
关键词 BCC_AGCM GPU openacc 异构
下载PDF
一种基于OpenACC的遥感影像正射纠正快速实现方法 被引量:4
4
作者 莫德林 戴晨光 +1 位作者 张振超 胡玲 《影像技术》 CAS 2014年第2期47-49,27,共4页
利用CUDA语言移植旧程序时需要重新设计算法,花费较多的时间,效率不高。针对这一问题,本文在分析正射纠正算法并行性的基础上,提出一种基于OpenACC的遥感影像正射纠正快速实现方法,并与基于CUDA的正射纠正方法进行对比。通过正射纠正实... 利用CUDA语言移植旧程序时需要重新设计算法,花费较多的时间,效率不高。针对这一问题,本文在分析正射纠正算法并行性的基础上,提出一种基于OpenACC的遥感影像正射纠正快速实现方法,并与基于CUDA的正射纠正方法进行对比。通过正射纠正实验表明,OpenACC能通过对源代码的较小改动将其移植到GPU中,获得一定的加速比,其可移植性好,代码开发效率较高。 展开更多
关键词 openacc CUDA 正射纠正 加速比
下载PDF
基于OpenACC的高性能计算并行优化研究与应用 被引量:3
5
作者 顾文静 孙晨 王彬 《计算机技术与发展》 2018年第4期65-70,共6页
针对GPU加速时存在的编码复杂性、移植性差导致开发维护效率低下的缺陷,利用基于OpenACC指导命令的加速技术对传统的串行代码进行改写,从而达到提高开发效率、简化代码的目的。以GRAPES全球模式长波辐射过程为研究对象,首先通过编译选... 针对GPU加速时存在的编码复杂性、移植性差导致开发维护效率低下的缺陷,利用基于OpenACC指导命令的加速技术对传统的串行代码进行改写,从而达到提高开发效率、简化代码的目的。以GRAPES全球模式长波辐射过程为研究对象,首先通过编译选项对程序性能进行初步优化,再根据其数据依赖和访存特性,对数据和循环结构进行预处理并添加OpenACC指导命令实现循环级并行。实验结果表明,长波辐射过程并行计算结果正确,在不改变原有代码结构的基础上即可获得4~6倍的加速比,优化性能可比拟相同计算能力的Intel集群,虽然较GPU加速仍有差距,但大大增强了代码的可读性和可移植性,且随着编译器和硬件技术的发展,OpenACC有着广阔的发展空间。 展开更多
关键词 神威·太湖之光 openacc GRAPES模式 长波辐射过程
下载PDF
MATLAB与OpenACC结合实现中值滤波算法并行优化
6
作者 黄伟建 王月兴 黄远 《河北工程大学学报(自然科学版)》 CAS 2019年第2期101-104,共4页
针对当前基于CUDA的中值滤波并行加速算法存在的编程复杂,图像数据提取和显示环节实现繁琐等问题提出了利用MATLAB和OpenACC结合的并行算法。该算法采用MATLAB实现图像的提取并转换成数组文件,之后利用OpenACC实现串行代码到并行代码的... 针对当前基于CUDA的中值滤波并行加速算法存在的编程复杂,图像数据提取和显示环节实现繁琐等问题提出了利用MATLAB和OpenACC结合的并行算法。该算法采用MATLAB实现图像的提取并转换成数组文件,之后利用OpenACC实现串行代码到并行代码的转换并处理MATLAB转换的数组文件,最后通过MATLAB将滤波后的数据显示成图像。通过仿真实验进行中值滤波算法的加速实验,结果表明:提出的算法在大量减少代码转换工作量的情况下加速效果较串行程序提升明显且与CUDA加速效果相当。 展开更多
关键词 openacc MATLAB 中值滤波 GPU并行优化
下载PDF
一种基于OPENACC指令的加速体验
7
作者 胡玉贵 《电脑知识与技术》 2012年第12期8248-8250,共3页
随着越来越多的公司和企业使用GPU来作为加速计算设备,对并行程序的需求也越来越大,目前我们一般都使用CUDA或OPENCL等底层API进程序开发,但是使用这些底层API来进行开发效率都不高,目前出现OPENACC指令就是针对这个问题提出来的,在该文... 随着越来越多的公司和企业使用GPU来作为加速计算设备,对并行程序的需求也越来越大,目前我们一般都使用CUDA或OPENCL等底层API进程序开发,但是使用这些底层API来进行开发效率都不高,目前出现OPENACC指令就是针对这个问题提出来的,在该文里,我们针对高斯模糊算法,分别使用CPU,OPENACC,CUDA进行实现,比较他们的效率,发现在虽然OPENACC相对于CUDA性能要低一些,但相对其陡峭的学习曲线和低下的开发效率,OPENACC有着不错的性价比,而且随着编译器和硬件技术的发展,OPENACC有着广阔的发展空间。 展开更多
关键词 openacc CUDA GPGPU 卷积
下载PDF
一种基于OPENACC指令加速的均值模糊算法
8
作者 胡玉贵 《软件导刊》 2013年第1期59-61,共3页
目前,计算机系统普遍使用GPGPU设备加速计算,但使用底层API进行加速计算繁琐而又缺乏效率,运用基于指令的高级抽象编程可以解决这个问题。运用均值模糊算法体验OPENACC的用法,OPENACC通过指令把C或C++中的计算紧密代码转移到GUP中。比... 目前,计算机系统普遍使用GPGPU设备加速计算,但使用底层API进行加速计算繁琐而又缺乏效率,运用基于指令的高级抽象编程可以解决这个问题。运用均值模糊算法体验OPENACC的用法,OPENACC通过指令把C或C++中的计算紧密代码转移到GUP中。比较了分别使用CPU、OPENACC、CUDA实现均值模湖算法的性能表现,虽然CUDA有不错的性能,但相对于低下的开发效率和陡峭的学习曲线而言,OPENACC只用十几行代码就可以取得可观的加速比,而且随着编译器和硬件技术的发展,指令制导编译有越来越大的发展空间。 展开更多
关键词 openacc CUDA GPGPU 均值模糊
下载PDF
在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析 被引量:1
9
作者 王一超 秦强 +1 位作者 施忠伟 林新华 《计算机科学》 CSCD 北大核心 2015年第1期75-78,共4页
OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和Ope... OpenACC是一套基于指导语句方式的并行编程语言标准。编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果。OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度。同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性。因此,OpenACC是一个值得研究的并行编程标准。如今的异构加速硬件设备呈现出多元化趋势。在2013年11月的Top500榜单上排名第一的"天河二号"使用了48000块构建在Intel Knights Corner架构之上的协处理器。与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体。对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题。只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求。解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题。通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性。 展开更多
关键词 openacc 性能可移植性 高性能计算
下载PDF
太湖之光上利用OpenACC移植和优化GTC-P 被引量:8
10
作者 王一超 林新华 +5 位作者 蔡林金 Tang William Ethier Stephane 王蓓 施忠伟 松岗聪 《计算机研究与发展》 EI CSCD 北大核心 2018年第4期875-884,共10页
神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学... 神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学应用,算法基于高性能计算领域中被广泛使用的PIC(particle-in-cell)方法.利用神威OpenACC并行编程模型在"太湖之光"上成功移植了GTC-P应用.在移植过程中,鉴于OpenACC编译器尚无法解决的性能瓶颈,提出了3种基于中间代码二次开发的优化方法:1)消除原子操作;2)避免低效的全局访存操作;3)手动添加SIMD intrinsics指令.实验结果表明,在64个从核上相比1个主核,优化后的函数charge和push分别实现了1.6倍和8.6倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.优化结果证明了基于中间代码的手动优化对利用神威OpenACC移植的PIC算法在"太湖之光"上的性能提升非常重要. 展开更多
关键词 太湖之光 GTC-P PIC算法 神威 openacc
下载PDF
基于OpenACC的GRAPES_GLOBAL模式长波辐射异构并行化研究 被引量:2
11
作者 孙晨 王彬 +1 位作者 顾文静 魏敏 《气象科技进展》 2018年第1期197-202,共6页
气象数值模式是天气预报的基本工具和方法,随着技术的发展,模式分辨率有了大幅的提高,分辨率的提升使计算量呈指数增长,然而气象预报的时效性对并行程序的设计与计算平台的性能都提出了更高的要求。以GRAPES_GLOBAL数值天气预报模式为... 气象数值模式是天气预报的基本工具和方法,随着技术的发展,模式分辨率有了大幅的提高,分辨率的提升使计算量呈指数增长,然而气象预报的时效性对并行程序的设计与计算平台的性能都提出了更高的要求。以GRAPES_GLOBAL数值天气预报模式为研究案例,以"神威·太湖之光"新一代国产异构众核高性能计算系统为试验平台,分析其程序结构及计算原理,定位影响模式并行效率及扩展性的热点子程序。通过调整程序结构以及添加协处理器加速指示语句,并针对模式系统消息缓存过大等问题,为长波辐射过程的每个热点子程序分别设计了高效的通讯策略。实现了"粗粒度MPI并行+细粒度众核OPENACC并行"多级异构并行方案,使其普遍达到3~6倍的加速。本试验充分继承了原始代码的MPI级并行,同时利用数量众多的协处理器为其中的热点函数提供加速,有效提升模式的并行效率,节约了开发成本。 展开更多
关键词 神威·太湖之光 openacc GRAPES模式 长波辐射过程
下载PDF
Silicon-Crystal应用的神威OpenACC移植与数据流驱动任务图并行化 被引量:1
12
作者 徐阳 张玉春欣 花嵘 《山东科技大学学报(自然科学版)》 CAS 北大核心 2019年第3期57-64,共8页
利用神威OpenACC在"太湖之光"上成功移植了Silicon-Crystal应用,针对控制流驱动的OpenACC无法有效解决访存密集型应用带宽访存优化和跨时间迭代问题,通过数据流驱动的任务图并行化方法挖掘任务迭代间的并行性,利用任务间的错... 利用神威OpenACC在"太湖之光"上成功移植了Silicon-Crystal应用,针对控制流驱动的OpenACC无法有效解决访存密集型应用带宽访存优化和跨时间迭代问题,通过数据流驱动的任务图并行化方法挖掘任务迭代间的并行性,利用任务间的错峰访存提高访存带宽。实验结果表明,神威OpenACC移植单核组获得2.26倍加速;时间步长为1时,任务图并行化移植后的该应用可获得2.52倍加速,性能较OpenACC提升11.5%;时间步长扩展至20时,任务图规模随之增加,任务的乱序调度使错峰访存的优势进一步扩大,整体应用达到3.2倍性能加速,性能较OpenACC提升42%。 展开更多
关键词 太湖之光 神威openacc 数据流 任务图并行 MD模拟
下载PDF
Acceleration of Lattice Boltzmann Simulation via OpenACC
13
作者 Shuhao Guo Jie Wu 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2018年第5期44-52,共9页
The parallel acceleration of well-developed serial codes for numerical simulations of fluid dynamic problems is implemented in this paper. To solve the flow field,the lattice Boltzmann method( LBM) is used. The OpenAC... The parallel acceleration of well-developed serial codes for numerical simulations of fluid dynamic problems is implemented in this paper. To solve the flow field,the lattice Boltzmann method( LBM) is used. The OpenACC( OpenACCelerator) application programming interface,which is a relatively new standard for parallel computation,is adopted to perform the acceleration. By parallelizing the computation intensive loops and decreasing some meaningless data movement,the serial codes based on LBM are obviously accelerated. Several benchmark problems are considered and then simulated through the OpenACC programming model to assess performance and computational efficiency. After optimization,a reasonable speedup is obtained in comparison with the original version. 展开更多
关键词 openacc LATTICE BOLTZMANN SIMULATION parallel COMPUTING
下载PDF
一种基于OpenACC指令加速的素数生成算法
14
作者 杨帅 《信息与电脑》 2016年第20期97-98,共2页
当前,微机系统大多使用GPGPU设备加速计算,但是使用底层API进行并行加速效率不高且计算繁琐,使用基于指令的更高级抽象编程可解决这个问题。Open ACC就是为解决CUDA、Open CL等底层API开发的复杂性而开发出来的。笔者针对一种素数生成算... 当前,微机系统大多使用GPGPU设备加速计算,但是使用底层API进行并行加速效率不高且计算繁琐,使用基于指令的更高级抽象编程可解决这个问题。Open ACC就是为解决CUDA、Open CL等底层API开发的复杂性而开发出来的。笔者针对一种素数生成算法,分别使用CPU、CUDA、Open ACC实现,比较它们各自的效率,结果发现虽然Open ACC相比于CUDA性能要差一点,但是相比于CUDA陡峭的学习曲线和不高的开发效率,Open ACC有很高的性价比,并且随着硬件技术和编译器的发展,Open ACC有着非常广的发展空间。 展开更多
关键词 openacc CUDA GPU 素数
下载PDF
基于GPU加速的投影后变分壳模型计算
15
作者 陆晓 连占江 高早春 《原子能科学技术》 EI CAS CSCD 北大核心 2024年第2期272-278,共7页
为进一步拓展投影后变分(VAP)壳模型计算应用核区范围,需提升VAP的计算效率。为此,利用OpenACC并行编程指令,首次将VAP程序从传统的CPU平台移植到了高性能GPU计算平台上。在角动量投影的每个积分格点上实现了数目庞大的各独立转动矩阵元... 为进一步拓展投影后变分(VAP)壳模型计算应用核区范围,需提升VAP的计算效率。为此,利用OpenACC并行编程指令,首次将VAP程序从传统的CPU平台移植到了高性能GPU计算平台上。在角动量投影的每个积分格点上实现了数目庞大的各独立转动矩阵元的GPU并行化计算。经验证,采用GPU加速后的VAP程序计算得到的结果与原来的OpenMP并行化程序计算得到的结果完全相同,而计算效率得到了数倍的提升。借助于GPU加速技术,首次计算了变形重核^(178)Hf的基带能谱,打开了VAP壳模型方法应用于变形稀土重核之门。 展开更多
关键词 壳模型 投影后变分 GPU openacc
下载PDF
An MPI+OpenACC-Based PRM Scalar Advection Scheme in the GRAPES Model over a Cluster with Multiple CPUs and GPUs
16
作者 Huadong Xiao Yang Lu +1 位作者 Jianqiang Huang Wei Xue 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2022年第1期164-173,共10页
A moisture advection scheme is an essential module of a numerical weather/climate model representing the horizontal transport of water vapor.The Piecewise Rational Method(PRM) scalar advection scheme in the Global/Reg... A moisture advection scheme is an essential module of a numerical weather/climate model representing the horizontal transport of water vapor.The Piecewise Rational Method(PRM) scalar advection scheme in the Global/Regional Assimilation and Prediction System(GRAPES) solves the moisture flux advection equation based on PRM.Computation of the scalar advection involves boundary exchange,and computation of higher bandwidth requirements is complicated and time-consuming in GRAPES.Recently,Graphics Processing Units(GPUs) have been widely used to solve scientific and engineering computing problems owing to advancements in GPU hardware and related programming models such as CUDA/OpenCL and Open Accelerator(OpenACC).Herein,we present an accelerated PRM scalar advection scheme with Message Passing Interface(MPI) and OpenACC to fully exploit GPUs’ power over a cluster with multiple Central Processing Units(CPUs) and GPUs,together with optimization of various parameters such as minimizing data transfer,memory coalescing,exposing more parallelism,and overlapping computation with data transfers.Results show that about 3.5 times speedup is obtained for the entire model running at medium resolution with double precision when comparing the scheme’s elapsed time on a node with two GPUs(NVIDIA P100) and two 16-core CPUs(Intel Gold 6142).Further,results obtained from experiments of a higher resolution model with multiple GPUs show excellent scalability. 展开更多
关键词 Graphics Processing Unit(GPU)computing Open Accelerator(openacc) Message Passing Interface(MPI) Global/Regional Assimilation and Prediction System(GRAPES) Piecewise Rational Method(PRM)scalar advection scheme
原文传递
A Parallel Hybrid Testing Technique for Tri-Programming Model-Based Software Systems
17
作者 Huda Basloom Mohamed Dahab +3 位作者 Abdullah Saad AL-Ghamdi Fathy Eassa Ahmed Mohammed Alghamdi Seif Haridi 《Computers, Materials & Continua》 SCIE EI 2023年第2期4501-4530,共30页
Recently,researchers have shown increasing interest in combining more than one programming model into systems running on high performance computing systems(HPCs)to achieve exascale by applying parallelism at multiple ... Recently,researchers have shown increasing interest in combining more than one programming model into systems running on high performance computing systems(HPCs)to achieve exascale by applying parallelism at multiple levels.Combining different programming paradigms,such as Message Passing Interface(MPI),Open Multiple Processing(OpenMP),and Open Accelerators(OpenACC),can increase computation speed and improve performance.During the integration of multiple models,the probability of runtime errors increases,making their detection difficult,especially in the absence of testing techniques that can detect these errors.Numerous studies have been conducted to identify these errors,but no technique exists for detecting errors in three-level programming models.Despite the increasing research that integrates the three programming models,MPI,OpenMP,and OpenACC,a testing technology to detect runtime errors,such as deadlocks and race conditions,which can arise from this integration has not been developed.Therefore,this paper begins with a definition and explanation of runtime errors that result fromintegrating the three programming models that compilers cannot detect.For the first time,this paper presents a classification of operational errors that can result from the integration of the three models.This paper also proposes a parallel hybrid testing technique for detecting runtime errors in systems built in the C++programming language that uses the triple programming models MPI,OpenMP,and OpenACC.This hybrid technology combines static technology and dynamic technology,given that some errors can be detected using static techniques,whereas others can be detected using dynamic technology.The hybrid technique can detect more errors because it combines two distinct technologies.The proposed static technology detects a wide range of error types in less time,whereas a portion of the potential errors that may or may not occur depending on the 4502 CMC,2023,vol.74,no.2 operating environment are left to the dynamic technology,which completes the validation. 展开更多
关键词 Software testing hybrid testing technique openacc OPENMP MPI tri-programming model exascale computing
下载PDF
面向异构多核处理器的的循环分块 被引量:4
18
作者 李雁冰 赵荣彩 +1 位作者 赵博 黄品丰 《计算机工程与设计》 北大核心 2015年第1期168-173,共6页
将OpenACC编程模型用于异构多核处理器时,由于异构多核处理器加速设备内存有限,操作大量数据的代码不能获得很好的加速。针对这一问题,在OpenACC中引入循环分块子句,对循环进行分块处理,使每个循环块使用的数据能够存储在设备内存中;提... 将OpenACC编程模型用于异构多核处理器时,由于异构多核处理器加速设备内存有限,操作大量数据的代码不能获得很好的加速。针对这一问题,在OpenACC中引入循环分块子句,对循环进行分块处理,使每个循环块使用的数据能够存储在设备内存中;提出面向异构多核处理器的循环分块子句生成算法,并在基于Open64的"源-源"自动并行化系统Auto-ACC中进行实现。测试结果表明,在异构多核处理器上,扩展的循环分块子句及所提生成算法能够对程序进行明显的加速。 展开更多
关键词 异构多核处理器 循环分块 数据重用 openacc 自动并行化
下载PDF
基于国产十亿亿次超算系统的近连续过渡流区N-S/DSMC耦合算法并行优化研究 被引量:2
19
作者 徐金秀 李中华 +2 位作者 孙俊 李志辉 郑岩 《计算机工程与科学》 CSCD 北大核心 2019年第4期583-589,共7页
过渡流区气动问题的数值模拟一直是空气动力学领域的难点。首先介绍了在已有N-S解算器和DSMC方法研究基础上,采用MPC耦合技术建立N-S/DSMC耦合算法,把DSMC方法和N-S方法的应用范围拓展到近连续过渡流区。然后详述了基于国家超级计算无... 过渡流区气动问题的数值模拟一直是空气动力学领域的难点。首先介绍了在已有N-S解算器和DSMC方法研究基础上,采用MPC耦合技术建立N-S/DSMC耦合算法,把DSMC方法和N-S方法的应用范围拓展到近连续过渡流区。然后详述了基于国家超级计算无锡中心的国产十亿亿次超级计算机开展的耦合算法多级并行优化技术,并首次实现了耦合算法的众核并行。测试表明,本文的进程级优化技术取得了超线性加速比;众核级优化受制于原算法特点和系统特点没有取得预期效果,但进行了探讨和分析,为N-S/DSMC耦合算法的众核并行提供了研究和分析依据,为过渡流区高超声速气动特性数值模拟研究提供了有效的途径。 展开更多
关键词 高超声速过渡流 模块化的颗粒-连续模拟技术 耦合算法 openacc
下载PDF
BCC_AGCM大气环流模式异构众核加速技术 被引量:3
20
作者 肖洒 魏敏 《气象科技》 2018年第2期245-249,417,共6页
针对未来高性能计算在CPU混合架构上的发展趋势,本文对大气环流模式BCC_AGCM中的部分核心段在混合架构的神威·太湖之光高性能计算机系统上进行众核加速分析与优化。文中以核心段quad为例,通过对代码内容结构重写和使用OpenACC语言... 针对未来高性能计算在CPU混合架构上的发展趋势,本文对大气环流模式BCC_AGCM中的部分核心段在混合架构的神威·太湖之光高性能计算机系统上进行众核加速分析与优化。文中以核心段quad为例,通过对代码内容结构重写和使用OpenACC语言对程序进行运行指示的方式,将该核心段成功移植加速并通过了结果正确性验证。结果表明,使用OpenACC语言能够以对源代码的较小改动来获得一定的加速比,在异构环境中源代码优化加速提升的效果取决于程序结构、循环并行颗粒度以及地址连续性。 展开更多
关键词 混合架构 神威·太湖之光 BCC_AGCM openacc
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部