期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
BFS Parallel Algorithm Based on Sunway TaihuLight
1
作者 Yang Zhou Jinhui He Hao Yang 《Journal of New Media》 2021年第2期63-72,共10页
In recent years,more and more attention has been paid to the research and application of graph structure.As the most typical representative of graph structure algorithm,breadth first search algorithm is widely used in... In recent years,more and more attention has been paid to the research and application of graph structure.As the most typical representative of graph structure algorithm,breadth first search algorithm is widely used in many fields.However,the performance of traditional serial breadth first search(BFS)algorithm is often very low in specific areas,especially in large-scale graph structure traversal.However,it is very common to deal with large-scale graph structure in scientific research.At the same time,the computing performance of supercomputer has also made great progress.China’s self-developed supercomputer system Sunway TaihuLight(SW)has won the top 500 list for three consecutive times.The huge computing performance of supercomputer is the key to solve this problem.It can be seen that if we use the computing power of supercomputing to solve the problem of large-scale graph structure traversal,the efficiency of graph structure traversal will be greatly improved.This paper expounds how to realize the breadth first search algorithm of graph structure on the Sunway TaihuLight,and achieved some results.In this way,MPI and thread library called athread of SW platform are used,and the traversal performance is improved dozens of times through the above related technologies and some partition methods of graph structure. 展开更多
关键词 Sunway taihulight breadth first search algorithm parallel computing
下载PDF
Heterogeneous Parallel Algorithm Design and Performance Optimization for WENO on the Sunway TaihuLight Supercomputer 被引量:4
2
作者 Jianqiang Huang Wentao Han +1 位作者 Xiaoying Wang Wenguang Chen 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2020年第1期56-67,共12页
A Weighted Essentially Non-Oscillatory scheme(WENO) is a solution to hyperbolic conservation laws,suitable for solving high-density fluid interface instability with strong intermittency. These problems have a large an... A Weighted Essentially Non-Oscillatory scheme(WENO) is a solution to hyperbolic conservation laws,suitable for solving high-density fluid interface instability with strong intermittency. These problems have a large and complex flow structure. To fully utilize the computing power of High Performance Computing(HPC) systems, it is necessary to develop specific methodologies to optimize the performance of applications based on the particular system’s architecture. The Sunway TaihuLight supercomputer is currently ranked as the fastest supercomputer in the world. This article presents a heterogeneous parallel algorithm design and performance optimization of a high-order WENO on Sunway TaihuLight. We analyzed characteristics of kernel functions, and proposed an appropriate heterogeneous parallel model. We also figured out the best division strategy for computing tasks,and implemented the parallel algorithm on Sunway TaihuLight. By using access optimization, data dependency elimination, and vectorization optimization, our parallel algorithm can achieve up to 172× speedup on one single node, and additional 58× speedup on 64 nodes, with nearly linear scalability. 展开更多
关键词 parallel algorithms WEIGHTED Essentially Non-Oscillatory scheme(WENO) optimization MANY-CORE Sunway taihulight
原文传递
国产神威环境下Athread代码生成工具的设计与开发
3
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 众核处理器 神威·太湖之光 高性能计算
下载PDF
High performance computing of DGDFT for tens of thousands of atoms using millions of cores on Sunway TaihuLight 被引量:4
4
作者 Wei Hu Xinming Qin +9 位作者 Qingcai Jiang Junshi Chen Hong An Weile Jia Fang Li Xin Liu Dexun Chen Fangfang Liu Yuwen Zhao Jinlong Yang 《Science Bulletin》 SCIE EI CSCD 2021年第2期111-119,M0003,共10页
High performance computing(HPC)is a powerful tool to accelerate the Kohn–Sham density functional theory(KS-DFT)calculations on modern heterogeneous supercomputers.Here,we describe a massively parallel implementation ... High performance computing(HPC)is a powerful tool to accelerate the Kohn–Sham density functional theory(KS-DFT)calculations on modern heterogeneous supercomputers.Here,we describe a massively parallel implementation of discontinuous Galerkin density functional theory(DGDFT)method on the Sunway Taihu Light supercomputer.The DGDFT method uses the adaptive local basis(ALB)functions generated on-the-fly during the self-consistent field(SCF)iteration to solve the KS equations with high precision comparable to plane-wave basis set.In particular,the DGDFT method adopts a two-level parallelization strategy that deals with various types of data distribution,task scheduling,and data communication schemes,and combines with the master–slave multi-thread heterogeneous parallelism of SW26010 processor,resulting in large-scale HPC KS-DFT calculations on the Sunway Taihu Light supercomputer.We show that the DGDFT method can scale up to 8,519,680 processing cores(131,072 core groups)on the Sunway Taihu Light supercomputer for studying the electronic structures of twodimensional(2 D)metallic graphene systems that contain tens of thousands of carbon atoms. 展开更多
关键词 Density functional theory Tens of thousands of atoms High performance computing Sunway taihulight
原文传递
Enabling Highly Efficient k-Means Computations on the SW26010 Many-Core Processor of Sunway TaihuLight 被引量:1
5
作者 Min Li Chao Yang +3 位作者 Qiao Sun Wen-Jing Ma Wen-Long Cao Yu-Long Ao 《Journal of Computer Science & Technology》 SCIE EI CSCD 2019年第1期77-93,共17页
With the advent of the big data era,the amounts of sampling data and the dimensions of data features are rapidly growing.It is highly desired to enable fast and efficient clustering of unlabeled samples based on featu... With the advent of the big data era,the amounts of sampling data and the dimensions of data features are rapidly growing.It is highly desired to enable fast and efficient clustering of unlabeled samples based on feature similarities. As a fundamental primitive for data clustering,the k-means operation is receiving increasingly more attentions today.To achieve high performance k-means computations on modern multi-core/many-core systems,we propose a matrix-based fused framework that can achieve high performance by conducting computations on a distance matrix and at the same time can improve the memory reuse through the fusion of the distance-matrix computation and the nearest centroids reduction.We implement and optimize the parallel k-means algorithm on the SW26010 many-core processor,which is the major horsepower of Sunway TaihuLight.In particular,we design a task mapping strategy for load-balanced task distribution,a data sharing scheme to reduce the memory footprint and a register blocking strategy to increase the data locality.Optimization techniques such as instruction reordering and double buffering are further applied to improve the sustained performance.Discussions on block-size tuning and performance modeling are also presented.We show by experiments on both randomly generated and real-world datasets that our parallel implementation of k-means on SW26010 can sustain a double-precision performance of over 348.1 Gflops,which is 46.9% of the peak performance and 84%of the theoretical performance upper bound on a single core group,and can achieve a nearly ideal scalability to the whole SW26010 processor of four core groups.Performance comparisons with the previous state-of-the-art on both CPU and GPU are also provided to show the superiority of our optimized k-means kernel. 展开更多
关键词 PARALLEL K-MEANS performance optimization SW26010 PROCESSOR Sunway taihulight
原文传递
神威·太湖之光平台上宇宙N体模拟中FMM的并行优化
6
作者 韩承磊 梁建国 +3 位作者 傅游 叶雨曦 花嵘 李倩倩 《山东科技大学学报(自然科学版)》 CAS 北大核心 2024年第3期105-113,共9页
宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研... 宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研究中存在的计算效率不高、通信开销大问题,结合神威·太湖之光SW26010处理器架构特点,通过数据重整、超越函数计算重构、设计双缓冲和消息传递接口通信时合并发送树进行优化。相较于优化前,优化后的PhotoNs-2在3个不同算例规模下均取得约24倍的加速效果。提出的优化方案可以为其他高性能应用在神威·太湖之光平台上的移植与优化提供参考。 展开更多
关键词 神威·太湖之光平台 并行优化 数据重整 快速多极子方法 宇宙N体
下载PDF
THAFTS-Acoustic软件全流程多级并行与容错设计
7
作者 吕小敬 邹明松 +2 位作者 刘钊 徐金秀 冷文浩 《船舶力学》 EI CSCD 北大核心 2023年第11期1729-1736,共8页
经过多年的技术发展,三维水弹性计算软件声学分析模块THAFTS-Acoustic已成为船海领域声固耦合分析的重要工具。随着计算量的不断增加,高性能计算能力成为制约该软件实现工程应用的关键因素之一。本文首先对软件核心求解模块的计算特征... 经过多年的技术发展,三维水弹性计算软件声学分析模块THAFTS-Acoustic已成为船海领域声固耦合分析的重要工具。随着计算量的不断增加,高性能计算能力成为制约该软件实现工程应用的关键因素之一。本文首先对软件核心求解模块的计算特征进行详细分析,发现软件在不同计算阶段计算密集度相差悬殊,数据间计算耦合方式不规则,单一并行模式无法保障所有核心段的高效并行。然后基于神威太湖之光超级计算系统设计实现混合异构多级并行算法和容错功能,提高软件的计算效率,并规避软硬件故障风险。最后,通过大规模并行算例测试全流程多级并行版本的加速性能。结果表明,以5万核心测试为基准,软件在百万核心运行时并行效率超过了38.3%。 展开更多
关键词 三维水弹性 神威太湖之光 多级并行 容错
下载PDF
面向神威·太湖之光的PETSc可扩展异构并行算法及其性能优化 被引量:14
8
作者 洪文杰 李肯立 +4 位作者 全哲 阳王东 李克勤 郝子宇 谢向辉 《计算机学报》 EI CSCD 北大核心 2017年第9期2057-2069,共13页
共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之... 共性数学库PETSc(Portable,Extensible Toolkit for Scientific Computation)是高性能计算的基础模块,是超级计算机计算环境的基础算法库之一,其性能直接影响调用数学库的高性能数值计算应用的效率.面向国际上首台100P神威·太湖之光异构超级计算机,根据实际研究需要选取PETSc中两个典型用例ex5(单节点线性求解方程组问题)和ex19(多节点求解2D驱动腔问题)进行实验探究.对运行结果分析找到的热点函数主要为PETSc函数库中7个核心函数,针对这7个核心函数(主要包括向量运算与矩阵运算),提出和实现了其异构并行算法,并结合机器的异构体系结构提出了相应的性能优化方法.在超级计算机上的实验结果为:核心函数并行算法在4主核、256从核的单节点上加速比最大可达到16.4;多节点情况下,当输入规模为16 384时,8192个节点相对于256节点的加速比为32,且加速比随着异构处理器数目的增加接近线性增加,表明PETSc核心函数并行算法在神威·太湖之光超级计算机上具有良好的可扩展性. 展开更多
关键词 并行算法设计 PETSc数学库 可扩展性 神威·太湖之光
下载PDF
BCCAGCM模式在神威·太湖之光系统的优化 被引量:4
9
作者 魏敏 王彬 +5 位作者 何香 孙俊 姜小成 肖洒 张莉 徐金秀 《应用气象学报》 CSCD 北大核心 2019年第4期502-512,共11页
开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计... 开展气象数值模式在神威·太湖之光系统的移植与优化,对研究模式与新型计算架构的适应性有重要意义。该文以BCCAGCM模式为研究对象,将其移植到神威·太湖之光全国产异构众核计算系统,进行性能分析,对模式动力框架和物理过程计算结构进行调整,将计算核心段采用OpenACC技术进行众核加速优化,大量代码进行算法重构。结果表明:各核心段计算效率基本达到未优化的3倍左右,最高可达14倍左右,将各核心段集成,形成异构众核集成版本,可正确、稳定运行,计算误差合理。在不同并行规模,采用从核对模式整体计算进行加速效果比较稳定,基本保持在1.9倍,26000核并行规模动力试验并行效率约70%,其他试验约为57%。 展开更多
关键词 BCCAGCM 神威·太湖之光 异构计算 众核
下载PDF
BCC_AGCM大气环流模式异构众核加速技术 被引量:3
10
作者 肖洒 魏敏 《气象科技》 2018年第2期245-249,417,共6页
针对未来高性能计算在CPU混合架构上的发展趋势,本文对大气环流模式BCC_AGCM中的部分核心段在混合架构的神威·太湖之光高性能计算机系统上进行众核加速分析与优化。文中以核心段quad为例,通过对代码内容结构重写和使用OpenACC语言... 针对未来高性能计算在CPU混合架构上的发展趋势,本文对大气环流模式BCC_AGCM中的部分核心段在混合架构的神威·太湖之光高性能计算机系统上进行众核加速分析与优化。文中以核心段quad为例,通过对代码内容结构重写和使用OpenACC语言对程序进行运行指示的方式,将该核心段成功移植加速并通过了结果正确性验证。结果表明,使用OpenACC语言能够以对源代码的较小改动来获得一定的加速比,在异构环境中源代码优化加速提升的效果取决于程序结构、循环并行颗粒度以及地址连续性。 展开更多
关键词 混合架构 神威·太湖之光 BCC_AGCM OpenACC
下载PDF
基于申威众核处理器的混合并行遗传算法 被引量:3
11
作者 赵瑞祥 郑凯 +4 位作者 刘垚 王肃 刘艳 沈焕学 周谦豪 《计算机应用》 CSCD 北大核心 2017年第9期2518-2523,共6页
传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法(HBPGA),并在目前TOP500上排名第一的超级... 传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法(HBPGA),并在目前TOP500上排名第一的超级计算机神威"太湖之光"平台上实现。该算法模型采用两级并行架构,结合了MPI和Athread两种编程模型,与传统在单核或者一级并行构架的多核集群上实现的遗传算法相比,在申威众核处理器上实现了二级并行,并得到了更好的性能和更高的加速比。实验中,当从核数为16×64时,最大加速比达到544,从核加速比超过31。 展开更多
关键词 混合并行遗传算法 神威"太湖之光" 众核 MPI Athread
下载PDF
LQCD Dslash在神威·太湖之光上的研究分析与MPI实现 被引量:3
12
作者 张淼 周宇 +3 位作者 陈建海 何钦铭 徐顺 宫明 《计算机科学与探索》 CSCD 北大核心 2019年第10期1664-1676,共13页
“神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们... “神威·太湖之光”是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们的关注。针对LQCD在神威平台上的移植优化问题展开研究。首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程。其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植。再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核本地设备存储器(LDM)与主存之间的直接存储访问(DMA)通讯、主核之间的消息传递接口(MPI)通讯及全局归约等操作。最后,经过实验测试,单核组优化程序与16核组优化程序相比单主核程序分别获得了165倍和25倍的加速比,并发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础。同时,对国产超算平台的推广使用具有积极意义。 展开更多
关键词 格点量子色动力学(LQCD) Dslash 消息传递接口(MPI) 神威·太湖之光 众核芯片
下载PDF
基于申威众核处理器的HOG特征提取算法并行加速 被引量:5
13
作者 赵美婷 刘轶 +2 位作者 刘锐 宋凯达 钱德沛 《计算机工程与科学》 CSCD 北大核心 2017年第4期611-618,共8页
HOG特征是一种简单高效的常用来进行物体检测的特征描述子,广泛应用于行人检测等领域,然而在处理海量图片时却面临着严峻的性能挑战。解决方法之一就是通过使用"神威太湖之光"超级计算机的处理器节点对海量图像背景下的行人... HOG特征是一种简单高效的常用来进行物体检测的特征描述子,广泛应用于行人检测等领域,然而在处理海量图片时却面临着严峻的性能挑战。解决方法之一就是通过使用"神威太湖之光"超级计算机的处理器节点对海量图像背景下的行人检测算法进行加速。主要采用了两种并行方案:一种是一个处理器同时处理4张图片,另一种是同时处理256张图片。大量的串行和并行处理的实验测试结果表明,对高分辨率多幅图像的并行处理可采用第一种方案,加速比可达83倍;对低分辨率图像可采用第二种方案,加速比最高可达到95。两种并行设计方案在"神威太湖之光"的多处理器节点上具有很好的可扩展性能。 展开更多
关键词 HOG特征提取 神威太湖之光 申威SW26010 并行实现
下载PDF
神威太湖之光加速计算在脑神经网络模拟中的应用 被引量:6
14
作者 栗学磊 朱效民 +1 位作者 魏彦杰 冯圣中 《计算机学报》 EI CSCD 北大核心 2020年第6期1024-1036,共13页
脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多... 脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多发生在高速缓存中.为避免主存访问的随机性,将频繁出现随机访存且数据量较小的神经元信息长时间停留在局部存储(LDM),同时将数据量很大的突触连接数据存储在主存,且尽可能连续访问主存.为避免可塑性导致的对突触连接的随机搜索,对脉冲时间依赖可塑性(STDP)算法采用需要前再更新的方法,以确保主存访问的连续性.为了提高脑模拟精度,设计环形缓冲和延迟传送联合应用方法,以支持高精度时间步长的脑模拟.在此基础上,对SWsnn进行向量化、访存隐藏等优化操作,计算性能进一步提高约50%.SWsnn对104神经元全连接网络实现了生物实时模拟,比同等规模浮点计算能力GPU上运行的CARLsim快10倍左右. 展开更多
关键词 脉冲神经网络(SNN) 脑模拟 SW26010 随机访存 环形缓冲 神威太湖之光
下载PDF
基于神威太湖之光的AMBER软件移植与优化 被引量:5
15
作者 彭龙 陈俊仕 安虹 《计算机工程》 CAS CSCD 北大核心 2020年第12期12-20,共9页
AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行... AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行化设计。在从核并行化的基础上提出主从异步流水化方案,利用SW26010处理器从核的局部数据缓存和直接内存存取通道技术,解决从核访存速度过低及并行访存带宽受限的问题,并通过SIMD指令将部分从核代码向量化,进一步提升AMBER软件在神威太湖之光平台上的计算性能。测试结果表明,AMBER热点函数的计算性能较优化前约提升15倍,单核组的整体性能较Intel Xeon Platinum 8163约提升4.6倍。 展开更多
关键词 分子动力学模拟 神威太湖之光 异构众核处理器 并行优化 异步流水化
下载PDF
一种基于深度学习的性能分析框架设计与实现 被引量:5
16
作者 冯赟龙 刘勇 何王全 《计算机工程与科学》 CSCD 北大核心 2018年第6期984-991,共8页
高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带... 高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带来了契机。提出一种基于深度学习的程序性能智能分析框架,其核心思想是将程序的性能分析问题抽象成可用机器学习技术描述的分类问题,使用处理器支持的PMU采集分类所需的性能数据并标准化,使用簇评估技术结合簇的实际含义确定性能问题类别,通过稀疏编码自动学习性能数据特征并构建性能问题分类模型。在神威太湖之光超级计算机上实现了程序性能分析框架原型。实验结果表明,该性能分析方法能够直观地指导程序员快速把握当前应用最为突出的性能瓶颈问题,提高应用优化的效率,降低用户调优代码的成本。 展开更多
关键词 性能分析 深度学习 神威太湖之光
下载PDF
基于“神威·太湖之光”的区域海洋模式并行优化 被引量:10
17
作者 吴琦 倪裕芳 黄小猛 《计算机研究与发展》 EI CSCD 北大核心 2019年第7期1556-1566,共11页
海洋模式作为地球数值模拟中重要的组成模块,在很多领域都起到了至关重要的作用,不仅是研究海洋、河口和海岸不可或缺的科研手段,基于海洋模式搭建的预报系统还能够实时预测台风、海啸等现象.为了模拟更细粒度的海洋变化,海洋模式朝着... 海洋模式作为地球数值模拟中重要的组成模块,在很多领域都起到了至关重要的作用,不仅是研究海洋、河口和海岸不可或缺的科研手段,基于海洋模式搭建的预报系统还能够实时预测台风、海啸等现象.为了模拟更细粒度的海洋变化,海洋模式朝着更高的分辨率和更多的物理参数化方案发展,一般的计算机已无法满足其需求.随着散热和功耗成为通用处理器的主要瓶颈,多核、众核以及由此导致的异构已成为下一代超级计算机的发展趋势,这也为发展高分辨率海洋模式提供了坚实的基础平台.基于国产超级计算机“神威·太湖之光”,利用其异构众核体系结构的优势对普林斯顿海洋模式(Princeton ocean model, POM)进行移植和优化,从而充分发挥了国产异构众核平台的特点和优势.基于神威的高分辨率海洋模式swPOM(Sunway Princeton ocean model)在主从核协作下运行效率达到纯主核的13倍,是通用Intel平台的2.8倍左右,可扩展到25万核上运行,为实时预报系统提供了保障. 展开更多
关键词 普林斯顿海洋模式 高分辨率 神威太湖之光 异构 并行优化
下载PDF
太湖之光上利用OpenACC移植和优化GTC-P 被引量:8
18
作者 王一超 林新华 +5 位作者 蔡林金 Tang William Ethier Stephane 王蓓 施忠伟 松岗聪 《计算机研究与发展》 EI CSCD 北大核心 2018年第4期875-884,共10页
神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学... 神威"太湖之光"是最新一期Top500榜单上排名第一的超级计算机,实测峰值性能约93PFLOPS.该系统提供了基于指导语句的并行编程工具OpenACC,兼容OpenACC 2.0编程标准,并添加了部分定制化功能.GTC-P是一个具有重要物理意义的科学应用,算法基于高性能计算领域中被广泛使用的PIC(particle-in-cell)方法.利用神威OpenACC并行编程模型在"太湖之光"上成功移植了GTC-P应用.在移植过程中,鉴于OpenACC编译器尚无法解决的性能瓶颈,提出了3种基于中间代码二次开发的优化方法:1)消除原子操作;2)避免低效的全局访存操作;3)手动添加SIMD intrinsics指令.实验结果表明,在64个从核上相比1个主核,优化后的函数charge和push分别实现了1.6倍和8.6倍的加速比,同时GTC-P代码整体取得了2.5倍的加速比.优化结果证明了基于中间代码的手动优化对利用神威OpenACC移植的PIC算法在"太湖之光"上的性能提升非常重要. 展开更多
关键词 太湖之光 GTC-P PIC算法 神威 OpenACC
下载PDF
PME算法在神威太湖之光上的移植和优化 被引量:2
19
作者 林增 武铮 +1 位作者 安虹 陈俊仕 《小型微型计算机系统》 CSCD 北大核心 2021年第1期9-14,共6页
分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW2601... 分子动力学模拟(MD)是一套通过计算机模拟生物体系内分子、原子运动的多体模拟方法.GROMACS是著名的MD应用,能够快速模拟生物及非生物体系运动过程,广泛应用于各高性能平台.作为世界排名第3的超级计算机,神威太湖之光拥有40960块SW26010异构众核处理器,峰值性能达到125.4PFlops.目前太湖之光上已有对GROM ACS短程力优化的相关研究,但对于PM E(Particle Mesh Ewald)算法未有探索性工作.本文基于申威平台对PME算法展开研究,针对随机访存模式、网格点写写冲突等挑战,提出了基于局部网格序的分块策略、数据重组策略、非线性函数近似等方法进行优化.最终优化后的结果相较于初始版本性能提升了8.85倍,相较于Intel CPU版本提升了1.2倍.本文采用的优化技术也可以为神威太湖之光上其他分子动力学模拟软件和涉及散乱数据插值程序的优化提供借鉴. 展开更多
关键词 PME GROMACS 神威太湖之光 异构众核处理器
下载PDF
基于神威太湖之光的宇宙学多体模拟 被引量:1
20
作者 刘旭 张曦煌 +2 位作者 刘钊 吕小敬 朱光辉 《计算机工程》 CAS CSCD 北大核心 2020年第9期35-43,共9页
宇宙学模拟对于科学家研究非线性结构的形成以及暗物质、暗能量等假想形式具有重要作用,而高精度宇宙学模拟包含数千亿甚至数万亿个粒子,因此超级计算机强大的计算能力使其成为解决宇宙学模拟问题的理想平台。为在国产神威太湖之光超级... 宇宙学模拟对于科学家研究非线性结构的形成以及暗物质、暗能量等假想形式具有重要作用,而高精度宇宙学模拟包含数千亿甚至数万亿个粒子,因此超级计算机强大的计算能力使其成为解决宇宙学模拟问题的理想平台。为在国产神威太湖之光超级计算机上实现宇宙学N体模拟,分析PHoToNs软件中使用的粒子网格算法和快速多极子方法,并结合众核处理器架构提出多层次分解和负载均衡方案、执行树遍历和引力计算的流水线策略以及向量化引力计算算法等多种性能优化技术,从而实现能充分发挥神威太湖之光架构优势的N体模拟软件SwPHoToNs。实验结果表明,在神威太湖之光超级计算系统的5200000个计算核心上进行包含6400亿个粒子的宇宙学模拟,SwPHoToNs获得了29.44 PFLOPS的持续计算速度,且并行和计算效率分别为84.6%和48.3%。 展开更多
关键词 神威太湖之光 宇宙学 多体模拟 并行优化 可扩展性
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部