期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于OpenVPX标准的异构融合处理模块软硬件协同设计研究
1
作者 文敏华 石添介 田径 《弹箭与制导学报》 北大核心 2024年第3期103-108,共6页
随着计算机软硬件技术的持续进步,机载计算平台集成的任务功能日益增多,导致平台内部的计算需求在规模和复杂性上不断攀升。面对智能化应用的迅猛增长,传统的单一处理器架构已不足以应对多样化的复杂任务。为此,基于OpenVPX标准,定义并... 随着计算机软硬件技术的持续进步,机载计算平台集成的任务功能日益增多,导致平台内部的计算需求在规模和复杂性上不断攀升。面对智能化应用的迅猛增长,传统的单一处理器架构已不足以应对多样化的复杂任务。为此,基于OpenVPX标准,定义并设计了一种符合硬件开放式架构的3U异构融合处理模块,以适应多种复杂任务的需求。文中还提出了一种异构计算资源池化技术,旨在实现多类型任务应用的快速部署和高效运行,同时降低通信延迟,显著提升计算平台的处理能力和适用性。最后进行了实验验证,结果表明与多CPU架构相比,文中所设计的异构融合处理模块在执行特定神经网络算法时,处理时间缩短了约4.8倍,证明了其在性能上的显著提升。该研究成果不仅展示了异构融合处理模块在机载智能计算应用中的显著性能优势,而且为航空计算平台的未来发展提供了创新的解决方案和技术支持。 展开更多
关键词 机载计算平台 OpenVPX 硬件开放式架构 异构融合处理 资源池化
下载PDF
基于NVIDIA Kepler的PIC方法并行 被引量:1
2
作者 文敏华 林新华 Simon Chong Wee See 《计算机工程与科学》 CSCD 北大核心 2013年第11期100-104,共5页
PIC方法是计算等离子体物理中广泛使用的一种计算方法。通常情况下需要使用大量的计算粒子以达到高的计算精度,这导致非常庞大的计算量。因而PIC方法的加速研究对于减少其时间成本非常有意义。设计了一个基于NVIDIA Kepler GPU的PIC算法... PIC方法是计算等离子体物理中广泛使用的一种计算方法。通常情况下需要使用大量的计算粒子以达到高的计算精度,这导致非常庞大的计算量。因而PIC方法的加速研究对于减少其时间成本非常有意义。设计了一个基于NVIDIA Kepler GPU的PIC算法,并使用CUDA在GPU上实现了该算法。在PIC方法中最耗时间的两个函数collision和mover被移植到GPU上。在实验中使用了NVIDIA新发布的Kepler K20GPU进行这两个函数的性能测试,相比于Intel Sandy Bridge E5-2650,最高获得了30倍的加速。 展开更多
关键词 PIC方法 CUDA NVIDIA KEPLER
下载PDF
动态网格的DSMC方法在GPU上的并行
3
作者 文敏华 林新华 Simon Chong Wee See 《计算机科学与探索》 CSCD 2013年第5期472-479,共8页
直接模拟蒙特卡罗方法(direct simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理;另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应... 直接模拟蒙特卡罗方法(direct simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理;另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应的碰撞网格,能有效解决前一个缺点;针对后一个缺点,使用统一计算架构(compute unified device architecture,CUDA)编写并行程序,将基于动态网格的DSMC方法移植到图形处理器(graphic processing unit,GPU)上以减少计算时间。在并行实现中,GPU负责绝大部分的计算,而CPU只负责初始化、结果输出等少量工作。使用一个二维超音速横掠平板问题作为算例,验证了并行程序的正确性。对于不同规模的算例,在NVIDIA Fermi C2050之上均获得了10倍以上的加速比;对于相同算例,NVIDIA最新发布的Kepler K20上的速度约为FermiC2050上的1.3~1.6倍。 展开更多
关键词 统一计算架构(CUDA) 图形处理器(GPU) 直接模拟蒙特卡罗方法(DSMC) 动态网格DSMC 并行模拟
下载PDF
多核中Cache一致性延迟分析
4
作者 文敏华 强凯 《信息通信》 2016年第3期7-8,共2页
文章分析了一致性处理过程,一致性延迟与目录存储的位置有关,通过改变目录存储位置改变目录延迟。最后,对扁平式目录一致性延迟进行了分析。
关键词 多核 CACHE 一致性 延迟
下载PDF
一种Cache一致性优化策略
5
作者 文敏华 颜丰琳 《信息系统工程》 2016年第4期104-104,106,共2页
本文提出了减少Cache一致性处理延迟的一种优化策略:目录的临近转发。目录的临近转发根据目录维持的片上节点之间的链路段数表,来选择拥有所需数据块的最近Cache去转发请求,从而减少目录到拥有者和拥有者到请求者的延迟。
关键词 CACHE 多核 一致性 目录
下载PDF
利用Stencil建模及评估Intel IMCI vgather指令 被引量:1
6
作者 林新华 王一超 +3 位作者 秦强 李硕 文敏华 松岡聡 《计算机工程与科学》 CSCD 北大核心 2016年第9期1741-1747,共7页
Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgathe... Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgather的性能建模可以帮助用户深入地掌握和理解Xeon Phi协处理器的性能特性。在实验方法上,本文方法与现存的通过程序段内嵌入汇编代码进行数据统计不同,使用PAPI等性能分析工具直接收集硬件计数器的统计结果,作为模型的实验数据。本文的性能模型基于AGI事件次数和根据VPU_DATA_READ次数估算得出的vgather所导致的平均延迟构建而成。该模型能够对Xeon Phi应用代码中由vgather所导致的总延迟进行预测。最终,为了验证模型预测的准确性,将该模型应用在三维7点stencil应用代码上,预测结果显示,vgather耗时占计算总耗时的约40%。再将该结果与利用intrinsics指令去除vgather后的计算耗时进行了对比验证,结果显示模型预测准确。基于上述结论,采用硬件计数器的统计结果在Xeon Phi协处理器上针对vgather构建了性能模型。同时,通过与其他平台的vgather对比,认为该模型也可以应用在同样具备vgather的Intel CPU处理器平台上。 展开更多
关键词 性能建模 vgather XEON PHI 硬件计数器
下载PDF
基于MPC8640D处理系统的技术研究 被引量:8
7
作者 汤艳飞 文敏华 《航空计算技术》 2012年第1期120-122,共3页
结合多年嵌入式处理的设计经验,借鉴国外高性能嵌入式计算机的设计原则,提出基于MPC8640D的新一代处理系统的设计与实现方法,其特点是:高集成度,双核的高处理速度,高速外部串行总线接口,大容量存储器。基于该设计的处理器模块已经开始... 结合多年嵌入式处理的设计经验,借鉴国外高性能嵌入式计算机的设计原则,提出基于MPC8640D的新一代处理系统的设计与实现方法,其特点是:高集成度,双核的高处理速度,高速外部串行总线接口,大容量存储器。基于该设计的处理器模块已经开始用于机载电子设备中。 展开更多
关键词 嵌入式处理 可配置性 实时系统 BIT
下载PDF
一种Buck开关变换器的建模方法和仿真验证 被引量:3
8
作者 强凯 文敏华 +1 位作者 张锐 周青 《信息通信》 2016年第3期53-55,共3页
Buck开关变换器在当今电子领域应用越来越广泛,IC器件在流片投产之前的建模及仿真验证越来越受到行业重视和认可。本文首先分析了Buck变换器的拓扑结构和工作原理,然后应用VHDL-AMS语言在Systemvision仿真环境下对Buck开关变换器进行建... Buck开关变换器在当今电子领域应用越来越广泛,IC器件在流片投产之前的建模及仿真验证越来越受到行业重视和认可。本文首先分析了Buck变换器的拓扑结构和工作原理,然后应用VHDL-AMS语言在Systemvision仿真环境下对Buck开关变换器进行建模与仿真,验证了模型的正确性和有效性,同时也给出了一种运用拓扑结构和数模混合语言(VHDL-AMS)建模的方法。 展开更多
关键词 建模 仿真验证 BUCK VHDL-AMS
下载PDF
LVDS串行传输总线的一种应用 被引量:1
9
作者 汤艳飞 文敏华 《航空计算技术》 2012年第3期123-124,129,共3页
描述了一种LVDS传输端点的设计方案。从芯片的选型、系统结构、原理设计、底层实现、软件驱动等方面进行了介绍。方案采用串行信号传输数据,减少了以往并行信号系统的复杂度,而且大幅提高了传输带宽和效率,同时有效降低了系统设计的成本... 描述了一种LVDS传输端点的设计方案。从芯片的选型、系统结构、原理设计、底层实现、软件驱动等方面进行了介绍。方案采用串行信号传输数据,减少了以往并行信号系统的复杂度,而且大幅提高了传输带宽和效率,同时有效降低了系统设计的成本,提高了系统的可靠性。设计的每个通道最大支持传输速率为400 MHz,最大支持8通道数据同时传输。 展开更多
关键词 LVDS 串行传输 并/串转换 高速数字设计
下载PDF
基于HOST标准的硬件管理平台设计与实现
10
作者 文敏华 沈梦雨 赵洋洋 《航空计算技术》 2024年第3期117-120,共4页
基于HOST标准的硬件管理平台设计,从硬件管理平台的硬件架构设计、管理总线的选型分析、模块管理器设计、软件设计策略等方面介绍了设计方案。此外,对管理总线的选型进行对比分析和测试,针对目前嵌入式计算机环境,CAN总线优于其他总线... 基于HOST标准的硬件管理平台设计,从硬件管理平台的硬件架构设计、管理总线的选型分析、模块管理器设计、软件设计策略等方面介绍了设计方案。此外,对管理总线的选型进行对比分析和测试,针对目前嵌入式计算机环境,CAN总线优于其他总线来实现硬件管理。设计方案可有效解决嵌入式计算机的复杂性不断增加带来的可靠性、稳定性、维护性等问题,利用机箱管理器、模块管理器、系统管理总线等机制,可有效实现嵌入式计算机的健康信息监控、硬件状态管理、故障管理等功能。 展开更多
关键词 HOST标准 硬件系统管理 嵌入式计算机 整机级管理器
下载PDF
使用Stencil评估Intel AVX2 Vgather指令
11
作者 林新华 秦强 +2 位作者 李硕 文敏华 松岗聪 《计算机科学》 CSCD 北大核心 2017年第1期20-24,共5页
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方... 为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。 展开更多
关键词 AVX2 vgather指令 STENCIL 性能评估
下载PDF
CMP中Cache私有方式下副本容量的动态控制
12
作者 文敏华 《计算机光盘软件与应用》 2012年第10期39-40,共2页
CMP中二级Cache多采用分布式结构,其中有两种基本管理方式:共享方式和私有方式。共享方式能最大程度利用二级Cache容量空间但却有高的平均访问延迟;私有方式能提供低访问延迟,但由于数据块副本的存在减少了Cache有效容量,因而增加了Cach... CMP中二级Cache多采用分布式结构,其中有两种基本管理方式:共享方式和私有方式。共享方式能最大程度利用二级Cache容量空间但却有高的平均访问延迟;私有方式能提供低访问延迟,但由于数据块副本的存在减少了Cache有效容量,因而增加了Cache缺失率。本文提出了基于私有方式的副本动态控制策略,能根据实际应用程序的执行程序情况动态控制副本数据块的数量,从而提高二级Cache性能。 展开更多
关键词 CACHE 副本 动态控制
下载PDF
天体物理成团研究中的非规则访存优化 被引量:1
13
作者 郝赫 司雨蒙 +2 位作者 韦建文 文敏华 林新华 《计算机科学与探索》 CSCD 北大核心 2017年第1期80-90,共11页
HGGF(halo-based galaxy group finder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受... HGGF(halo-based galaxy group finder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受到非规则访存的严重影响,因此针对算法的结构和非规则访存模型,提出了数据预排序方法,并分析了该方法如何影响访存过程。在此基础上,利用数据对齐、循环分解进一步优化访存效率,利用负载均衡和互斥变量私有化的方法提高了Open MP的并行效率,最终将HGGF应用使用12线程加速11.6倍,同时取得了更好的可扩展性。主要有三点贡献:(1)分析了HGGF算法的非规则访存问题;(2)提出并分析了数据预排序方法;(3)使用数据对齐、循环分解、负载均衡、互斥变量私有化方法提高了HGGF应用的并行性能。 展开更多
关键词 天体物理成团 非规则访存优化 数据预排序 并行计算
下载PDF
网环步进码片上网络自适应路由算法设计
14
作者 肖翔 董渭清 文敏华 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第12期70-74,共5页
针对片上系统使用过多虚拟通道带来大量的缓存面积及能耗开销问题,提出了一种网环步进码(TSC)片上网络自适应路由算法.将网环网络中2个虚拟通道划分为按编码"0"或"1"数量递减或者递增的2个子网络,按TSC编码为网环... 针对片上系统使用过多虚拟通道带来大量的缓存面积及能耗开销问题,提出了一种网环步进码(TSC)片上网络自适应路由算法.将网环网络中2个虚拟通道划分为按编码"0"或"1"数量递减或者递增的2个子网络,按TSC编码为网环拓扑结构中的网络节点进行编码,每个节点与相邻节点有且仅有一位不同,由此可以减小网络开销,避免片上死锁.实验结果表明:在均匀传输模式下,算法可为94%的数据包提供自适应路由选择,并在不增加虚拟通道数量的前提下,提高路由算法在网络负载增大时的适应能力. 展开更多
关键词 自适应路由 二维网环 虚拟通道 步进码编码
下载PDF
面向高性能计算平台的一站式服务系统
15
作者 周婧 王一超 +2 位作者 韦建文 文敏华 林新华 《软件导刊》 2024年第1期108-114,共7页
在使用高性能计算服务时,用户需要经历多端协同、手动配置信息、人工诊断连接错误等一系列繁琐的步骤。为简化用户使用高性能计算服务的步骤,设计并实现了面向校级高性计算平台的一站式服务系统。该服务系统集成了用户日常登录与使用高... 在使用高性能计算服务时,用户需要经历多端协同、手动配置信息、人工诊断连接错误等一系列繁琐的步骤。为简化用户使用高性能计算服务的步骤,设计并实现了面向校级高性计算平台的一站式服务系统。该服务系统集成了用户日常登录与使用高性能计算集群所需的功能,内置终端模拟器,支持信息自动补全,并能够自动诊断连接错误。此外,该服务系统的客户端具有跨平台和高度可配置的特点,并支持现代化界面。测试与实际部署表明,该系统能够提供低时延的服务,并在大量并发用户的峰值工作负载下仍具有高吞吐量,极大提升了用户对高性能计算服务的使用体验。 展开更多
关键词 高性能计算 一站式服务 服务系统 跨平台 错误诊断
下载PDF
声子BTE应用的并行和优化研究 被引量:1
16
作者 文敏华 刘永志 +4 位作者 鲍华 胡跃 沈泳星 韦建文 林新华 《计算机科学与探索》 CSCD 北大核心 2020年第8期1288-1297,共10页
声子玻尔兹曼输运方程(BTE)可以有效地模拟介观尺度下的导热问题,相比于随机性方法,以有限体积法为代表的确定性方法求解声子BTE方程被认为更有希望解决工程实际问题。但是有限体积法求解BTE具有迭代步数多,迭代时间长的问题。为此提出... 声子玻尔兹曼输运方程(BTE)可以有效地模拟介观尺度下的导热问题,相比于随机性方法,以有限体积法为代表的确定性方法求解声子BTE方程被认为更有希望解决工程实际问题。但是有限体积法求解BTE具有迭代步数多,迭代时间长的问题。为此提出了声子BTE方程迭代求解部分在GPU上的并行加速方案,并设计适当的线程分配方式及数据存储格式,采用循环展开和内核融合等优化手段对迭代过程进行并行加速。此外,采用基于角方向的并行策略,使用MPI+CUDA、CUDA-Aware MPI和NCCL函数的方式实现了声子BTE求解多GPU并行版本。实验结果表明,相较于Intel Xeon Gold 6248上的串行版本,在单块V100 GPU上获得了最大31.5倍的加速。同时使用NCCL函数的GPU并行版本在8台DGX-2节点共计128块V100 GPU上最高达到了83%的并行效率,比MPI+CUDA版本提升57%。 展开更多
关键词 并行加速 玻尔兹曼输运方程(BTE) DGX-2 统一计算设备架构(CUDA)
下载PDF
基于DGX-2的湍流燃烧问题优化研究
17
作者 文敏华 汪申鹏 +3 位作者 韦建文 李林颖 张斌 林新华 《计算机科学》 CSCD 北大核心 2021年第12期43-48,共6页
湍流燃烧问题的数值模拟是航空发动机设计的关键工具。由于需要使用高精度计算模型求解NS方程,湍流燃烧的数值模拟需要庞大的计算量,而物理化学模型的引入则导致流场极为复杂,使得计算域内的负载平衡问题成为大规模并行计算的瓶颈。为... 湍流燃烧问题的数值模拟是航空发动机设计的关键工具。由于需要使用高精度计算模型求解NS方程,湍流燃烧的数值模拟需要庞大的计算量,而物理化学模型的引入则导致流场极为复杂,使得计算域内的负载平衡问题成为大规模并行计算的瓶颈。为此文中将湍流燃烧的数值模拟方法在单台具有强大计算能力的服务器——DGX-2上进行移植和优化,设计了通量计算的线程分配方式,并以Roofline模型为工具分析指导了实际的优化方向。此外,还设计了高效的数据通信方式,并结合DGX-2的高速互联实现了湍流燃烧数值模拟方法的多GPU并行版本。实验结果表明,相较于双路Intel Xeon 6248 CPU 40核心的并行版本,迭代过程的计算部分在单块V100上获得了8.1倍的性能提升,在DGX-2共16块V100上达到了66.1倍的加速,优于CPU并行版本所能达到的最高性能。 展开更多
关键词 湍流燃烧 NS方程 DGX-2 CUDA
下载PDF
近失速形态下冰脊分离非定常流的IDDES和模态分析 被引量:2
18
作者 谭雪 张辰 +2 位作者 徐文浩 王福新 文敏华 《上海交通大学学报》 EI CAS CSCD 北大核心 2021年第11期1333-1342,共10页
采用改进延迟脱体涡模拟(IDDES)方法,对近失速条件下溢流冰脊诱导的剪切层振荡现象进行高分辨率模拟,描述高雷诺数下冰脊分离流大尺度分离的流场演化特征.研究表明,近失速形态下,冰脊和下翼面尾缘同时诱导出剪切流动,冰脊诱导的剪切层... 采用改进延迟脱体涡模拟(IDDES)方法,对近失速条件下溢流冰脊诱导的剪切层振荡现象进行高分辨率模拟,描述高雷诺数下冰脊分离流大尺度分离的流场演化特征.研究表明,近失速形态下,冰脊和下翼面尾缘同时诱导出剪切流动,冰脊诱导的剪切层并未再附到壁面,与下翼面上洗流动相互干扰,形成大尺度低能态结构.结合频谱分析进一步发现,剪切层内的压力脉动存在两种典型的脉动频率,与Kelvin-Helmholtz不稳定性相关,具体表现为涡配对和涡脱落.基于正交分解得到的压力脉动主导模态为剪切层之间的大尺度相干结构.主导模态的时间系数与升力系数的功率密度谱峰值保持一致,这说明尾缘区大尺度相干结构与升力波动具有相关性. 展开更多
关键词 溢流冰脊 剪切层振荡 数值模拟 频谱分析 模态分析
下载PDF
神威太湖之光上OpenFOAM的移植与优化 被引量:13
19
作者 孟德龙 文敏华 +1 位作者 韦建文 林新华 《计算机科学》 CSCD 北大核心 2017年第10期64-70,共7页
神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,... 神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R)Xeon(R)CPU E5-2695v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。 展开更多
关键词 计算流体力学 OPENFOAM 异构多核处理器 神威超级计算机
下载PDF
基于Singularity的分子动力学软件Quantum Espresso容器部署与测试 被引量:1
20
作者 文敏华 胡广超 王一超 《软件导刊》 2021年第12期78-82,共5页
为测试超级计算机上基于Singularity容器技术的部署方法对应用软件部署流程和性能的影响,分别基于Singularity容器技术和源码直接编译两种方式部署基准测试程序和开源分子动力学软件QuantumEspresso,并通过通用x86、国产ARM两种超级计... 为测试超级计算机上基于Singularity容器技术的部署方法对应用软件部署流程和性能的影响,分别基于Singularity容器技术和源码直接编译两种方式部署基准测试程序和开源分子动力学软件QuantumEspresso,并通过通用x86、国产ARM两种超级计算机平台进行测试,测试算例涵盖不同并行规模和计算模式,对两种部署方式的计算性能进行比较。实验结果表明,在x86计算平台上使用Singularity容器技术成功部署Quantum Espresso后,其技术经验可以较为轻易地迁移到国产ARM计算平台上。在两种计算平台上,相较于直接编译,基于Singularity容器技术的部署方式性能损失约为1%~3%。对于分子动力学软件QuantumEspresso,容器安装具有良好的可移植性,不论是传统x86平台还是国产ARM平台,容器安装带来的性能损失均微乎其微。 展开更多
关键词 SINGULARITY QuantumEspresso 性能测试 分子动力学 高性能计算
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部