期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
GROMACS在鲲鹏920平台的性能分析及运行优化
1
作者 原惠峰 陆腾 +4 位作者 朱延超 晏臣 马英晋 刘倩 金钟 《数据与计算发展前沿(中英文)》 CSCD 2024年第4期182-193,共12页
【应用背景】ARM众核架构处理器以其高性能、高并行性及低功耗的特点,在分子动力学、流体及天气模拟等领域扮演着越来越重要的作用。【局限】然而,分子动力学模拟软件运行时不同维度的任务分解策略(如粒子作用、时空域分解等)、多样化... 【应用背景】ARM众核架构处理器以其高性能、高并行性及低功耗的特点,在分子动力学、流体及天气模拟等领域扮演着越来越重要的作用。【局限】然而,分子动力学模拟软件运行时不同维度的任务分解策略(如粒子作用、时空域分解等)、多样化的并行策略导致负载特征多样而与众核处理器基于高度并行的计算资源所产生的算力这一特点难以很好地匹配,进而导致各计算单元运行时效率低的问题已成为了限制运行时性能提升的重要瓶颈之一。【方法】针对这一问题,以华为技术有限公司自主研发ARM架构鲲鹏920处理器和GROMACS软件为研究对象,通过对鲲鹏920处理器结构特点和算力特征、GROMACS软件任务分解、并行执行过程进行深入分析,提出运行时并行参数优化策略,以更好地适配软件的算力需求和硬件的算力特点,提升了软件计算性能。【结果】通过系统分析性能瓶颈并实践优化策略,相比优化前取得了16.9%的加速效果。【结论】此研究成果可为分子动力学模拟在众核计算环境下的性能优化、国产高性能计算系统及分子动力学模拟专用机等的研发提供一定的参考依据。 展开更多
关键词 分子动力学 GROMACS 鲲鹏920 性能优化
下载PDF
基于鲲鹏处理器的WRF移植与评估
2
作者 陈晔峰 晏臣 +2 位作者 陈锋 安卫士 何明扬 《数据与计算发展前沿》 CSCD 2024年第3期150-161,共12页
【目的】开展WRF模式在鲲鹏处理平台上的应用评估,为国产芯片在气象行业开展广泛应用提供参考。【应用背景】近年来气象数值预报技术不断发展,超级计算机成为气象发展的主要支撑,研究国产芯片对气象信息化支撑技术,有助于促进国产芯片... 【目的】开展WRF模式在鲲鹏处理平台上的应用评估,为国产芯片在气象行业开展广泛应用提供参考。【应用背景】近年来气象数值预报技术不断发展,超级计算机成为气象发展的主要支撑,研究国产芯片对气象信息化支撑技术,有助于促进国产芯片在气象行业的广泛应用。【方法】基于ARM架构的鲲鹏920处理器从STREAM、HPL、HPCG 3个方面进行基准测试,以气象行业典型应用WRF为例,展示鲲鹏处理器在模式移植、计算效率和扩展性方面的良好性能。【结果】从测试结果来看,鲲鹏处理器表现出优秀的访存带宽、浮点计算性能以及高扩展性;鲲鹏处理器的移植过程较为简单,应用性能满足气象行业的时效性与扩展性要求,预报结果能做到与气象现有平台保持一致。【结论】鲲鹏处理器具备在气象行业广泛应用的基础。 展开更多
关键词 高性能计算 ARM架构 鲲鹏920 WRF应用 性能评估
下载PDF
基于ARM的硬件压缩算法在Spark中的性能研究
3
作者 朱常鹏 汤景仁 +3 位作者 梁昀 张小川 韩博 赵银亮 《计算机学报》 EI CAS CSCD 北大核心 2023年第12期2626-2650,共25页
鲲鹏920 CPU是2021年面世、全球第一款基于7纳米制造工艺的ARM 64位CPU,该CPU内置一个名为KAEzip的硬件加速引擎,其核心是一个硬件压缩算法,能通过硬件提升压缩与解压缩性能.相关研究表明,压缩算法的硬化与传统软件压缩算法相比具备明... 鲲鹏920 CPU是2021年面世、全球第一款基于7纳米制造工艺的ARM 64位CPU,该CPU内置一个名为KAEzip的硬件加速引擎,其核心是一个硬件压缩算法,能通过硬件提升压缩与解压缩性能.相关研究表明,压缩算法的硬化与传统软件压缩算法相比具备明显性能优势.但大数据领域中的基础性系统软件都无法识别和使用这类算法.因此研究评估硬件压缩算法在大数据环境下的性能,发现揭示制约这类算法性能的关键因素以及可能存在的缺陷具有重要意义.为此,本文首先提出一种基于“生产-消费”模型的Spark任务性能模型,形式化地表示多维资源、压缩算法和Spark任务性能之间的内在关系,从理论上分析揭示出Spark下影响压缩算法性能的关键因素.然后提出一种三层架构支持Spark识别使用硬件压缩算法.这种分层架构为进一步调优硬件压缩算法在Spark中的性能提供了灵活性,也能复用到其他大数据系统软件.在此基础上本文以KAEzip为实验对象,使用经典Spark基准测试程序全面评估它在Spark中的性能,结合性能模型分析挖掘制约KAEzip性能的关键因素与根源.对KAEzip的测试表明:(1)硬件压缩算法可有效提升Spark性能。比如,KAEzip比snappy有最多13.8%的压缩性能优势、最多7%的解压优势和最多5.7%的实际应用场景下的性能优势;(2)磁盘的数据传输率与硬件压缩算法性能之间的不匹配是制约硬件压缩算法性能的重要因素;(3)压缩算法在Spark中的运行机制更易导致CPU的数据处理能力与硬件压缩算法性能不匹配,也制约着硬件压缩算法的性能.测试结果也表明KAEzip在压缩小数据时会导致数据膨胀问题.为此,本文扩展三层架构分析揭示出导致该问题的根源,并结合压缩算法在Spark中的运行机制提出一种优化方法.硬件压缩算法作为压缩算法领域的新研究方向,本文的研究工作不仅可广泛用于优化内置于CPU中的硬件压缩算法在Spark下的性能,也有助于持续演化完善KAEzip和鲲鹏920 CPU. 展开更多
关键词 鲲鹏920 CPU KAEzip 大数据 SPARK 硬件压缩算法 根源分析
下载PDF
一类Stencil应用在众核NUMA架构的性能研究
4
作者 高凌云 勾文进 +3 位作者 刘夏真 袁武 张鉴 陆忠华 《数据与计算发展前沿》 CSCD 2023年第6期58-66,共9页
【应用背景】模板计算是CFD(计算流体动力学,Computational Fluid Dynamics)等科学计算的典型算法,其访存性能受到关注。NUMA架构因扩展性好,在以鲲鹏920处理器为代表的ARM架构上普遍被应用。【方法】使用性能分析工具和benchmark程序,... 【应用背景】模板计算是CFD(计算流体动力学,Computational Fluid Dynamics)等科学计算的典型算法,其访存性能受到关注。NUMA架构因扩展性好,在以鲲鹏920处理器为代表的ARM架构上普遍被应用。【方法】使用性能分析工具和benchmark程序,对鲲鹏平台的访存和通信子系统进行性能测试。针对典型stencil应用软件CCFD V3.0开展热点分析和性能测试,并建立Roofline模型。【结果】鲲鹏920处理器依托其众核NUMA架构,单节点浮点性能、内存带宽峰值,以及通信时延均优于Intel Xeon E5-2680v2与一款国产处理器。单节点时,CCFD V3.0在鲲鹏平台的运行速度约是Intel平台的2~3倍,是国产处理器的1.5~2倍。【结论】基于ARM架构的鲲鹏平台应用移植简单,其NUMA架构对模板计算一类访存密集性应用具有优势。 展开更多
关键词 STENCIL 鲲鹏920 性能评估 CFD
下载PDF
ARM处理器上的格点QCD计算与优化
5
作者 孙玮 毕玉江 程耀东 《计算机科学》 CSCD 北大核心 2023年第6期52-57,共6页
格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64... 格点量子色动力学(格点QCD)是高能物理领域中需要大规模并行计算的最主要应用之一,相关研究通常需要消耗大量计算资源,核心是求解大规模稀疏线性方程组。文中基于国产鲲鹏920 ARM处理器,研究了格点QCD的计算热点Dslash,并将其扩展到64个节点(6 144核),展示了格点QCD计算的线性扩展性。基于roofline性能分析模型,发现格点QCD是典型的内存限制应用,并通过将Dslash中的3×3复幺正矩阵根据对称性压缩,将其性能提升约22%。对于大规模稀疏线性方程的求解,在ARM处理器上探索了常用的Krylov子空间迭代算法BiCGStab,以及近年来发展起来的前沿的multigrid算法,发现即使考虑预处理时间,在实际物理计算中使用multigrid算法相比BiCGStab依然有几倍至一个数量级的加速。此外,还考虑了鲲鹏920处理器上的NEON向量化指令,发现将其用于multigrid计算时可以带来约20%的加速。因此,在ARM处理器上使用multigrid算法能极大地加速实际的物理研究。 展开更多
关键词 格点QCD ARM架构 多重网格算法 鲲鹏920 NEON向量化
下载PDF
WRF模式在ARM服务器上的移植及优化研究
6
作者 曹人之 魏天祥 《现代信息科技》 2023年第6期77-80,84,共5页
针对目前WRF模式迁移中存在的问题,提出具体迁移部署的方法。随后通过对美国东部地区降雨模拟,给出WRF模式在Intel X86和ARM架构上的计算性能的差异,通过NCL方法计算了结果的准确性。实验结果表明,WRF模式可被完整地迁移到ARM架构的超... 针对目前WRF模式迁移中存在的问题,提出具体迁移部署的方法。随后通过对美国东部地区降雨模拟,给出WRF模式在Intel X86和ARM架构上的计算性能的差异,通过NCL方法计算了结果的准确性。实验结果表明,WRF模式可被完整地迁移到ARM架构的超级计算机上。仿真结果显示,在并行运算下,WRF模式在ARM架构超算集群上耗时更短,且单节点运算中ARM可有效提高并行运算效率,具有一定的使用价值,为研究者提供参考。 展开更多
关键词 X86架构 ARM架构 鲲鹏920处理器 WRF模式 移植优化
下载PDF
基于采样尺度自适应的多尺度量子谐振子优化算法并行化 被引量:1
7
作者 焦育威 王鹏 辛罡 《计算机工程与科学》 CSCD 北大核心 2021年第7期1200-1209,共10页
多尺度量子谐振子优化算法MQHOA是基于量子波函数理论提出的元启发式算法,传统MQHOA寻优过程中不同个体的采样尺度不具有差异性,这种机制限制了解的多样性。针对适应度不同的采样个体,提出采样尺度自适应策略,将采样情况差的个体采样尺... 多尺度量子谐振子优化算法MQHOA是基于量子波函数理论提出的元启发式算法,传统MQHOA寻优过程中不同个体的采样尺度不具有差异性,这种机制限制了解的多样性。针对适应度不同的采样个体,提出采样尺度自适应策略,将采样情况差的个体采样尺度合理扩大,增加迭代过程中不同采样个体所使用采样尺度的多样性,并基于采样尺度的差异性提出并行化框架。选取7组测试函数将改进后的算法(MQHOA-PS)与MQHOA在华为鲲鹏920和AMD EPYC 7452处理器上进行测试实验,实验结果表明,改进后的算法寻优具有较高的精度和成功率,并且所需时间更短。 展开更多
关键词 多尺度 自适应 优化算法 并行计算 华为鲲鹏920 AMD EPYC 7452
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部