针对大规模数据输入输出的应用场景,提出了一种基于层次存储格式HDF5(Hierarchical Data Format 5)的多层次并行IO(Input/Output)方案。该并行IO方案分为节点间和节点内两层:节点间以节点为单位IO数据并允许节点内部协同或独立工作,根...针对大规模数据输入输出的应用场景,提出了一种基于层次存储格式HDF5(Hierarchical Data Format 5)的多层次并行IO(Input/Output)方案。该并行IO方案分为节点间和节点内两层:节点间以节点为单位IO数据并允许节点内部协同或独立工作,根据节点内部的工作方式分别提出了多层次并行IO算法和多层次哨兵并行IO算法,以有效提升IO效率并避免输出文件冗余。考虑异构计算和纯CPU计算两个典型应用场景,分别在曙光平台和Intel平台进行最大核数为4096、最大数据量为256G的多组实验。结果表明,多层次并行IO算法IO效率提高了1.97~25.87倍,多层次哨兵并行IO算法IO效率提高了6.53~9.36倍,且输出文件数量减少到多区并行IO算法的1/4和1/32。展开更多
计算流体动力学(computational fluid dynamics,CFD)是高性能计算重要应用领域之一,其计算涉及大量数据访问.在大规模并行计算情况下,串行I/O的性能与计算能力不匹配,I/O成为性能瓶颈.并行I/O是解决这一问题的主要途径之一.针对一个真...计算流体动力学(computational fluid dynamics,CFD)是高性能计算重要应用领域之一,其计算涉及大量数据访问.在大规模并行计算情况下,串行I/O的性能与计算能力不匹配,I/O成为性能瓶颈.并行I/O是解决这一问题的主要途径之一.针对一个真实多区结构网格CFD并行程序HOSTA(high-order simulator for aerodynamics),基于HDF5(hierarchical data format v5)数据存储格式及其并行I/O编程接口,实现了其主要数据的并行I/O.在一套有6个I/O服务器结点的高性能计算机系统上,采用实际CFD算例进行了性能测试.对一个三角翼算例,并行I/O相对于串行I/O的性能加速比达到21.27,最高获得5.81GBps的I/O吞吐率,并使程序整体性能提高10%以上;对一个网格规模更大的简单翼型算例,并行I/O最高获得了6.72GBps的I/O吞吐率.展开更多
大型有限元软件需要处理和维护结构复杂、数量庞大的数据集合。通过研究层次文件格式Hierarchical Data Format(HDF5)及其在有限元软件数据存储格式中的应用,对有限元数据进行抽象归类并采用HDF5的C++接口进行存取实现。测试表明,由于H...大型有限元软件需要处理和维护结构复杂、数量庞大的数据集合。通过研究层次文件格式Hierarchical Data Format(HDF5)及其在有限元软件数据存储格式中的应用,对有限元数据进行抽象归类并采用HDF5的C++接口进行存取实现。测试表明,由于HDF5具有自述性、通用性、灵活性及扩展性,该存储格式表现出较常规存储方案更高的效率,尤其在大规模有限元数据存取中具有显著优越性,为有限元软件开发提供了一种新的数据存储及管理方案。展开更多
核反应堆计算软件需要处理和维护结构复杂且规模庞大的数据集合,为满足软件对海量数据进行存储和处理的需求,深入研究了分层数据存储格式HDF5 (Hierarchical Data Format v5)的数据存储模型、I/O方法和编程接口,并根据典型的核反应堆组...核反应堆计算软件需要处理和维护结构复杂且规模庞大的数据集合,为满足软件对海量数据进行存储和处理的需求,深入研究了分层数据存储格式HDF5 (Hierarchical Data Format v5)的数据存储模型、I/O方法和编程接口,并根据典型的核反应堆组件中子学计算、堆芯中子学计算和堆芯热工水力计算等软件数据存储和处理的需求,将HDF5数据格式成功应用到相应软件中,设计并实现了基于HDF5数据格式的组件参数库KYMRES (KYlin-2 Main RESults databank)、堆芯参数库COMRES (COrca-3D Main RESults databank)、子通道参数库THMRES (Thermal-Hydraulic subchannel Main RESults databank),为核反应堆数值计算软件开发提供了一种新的数据存储和管理方案。展开更多
目前,世界上最大的单口径射电望远镜FAST (Five-hundred-meter Aperture Spherical radio Telescope)处于调试期,采集的数据面临着加载效率上的瓶颈,给后续的数据处理效率带来了挑战。本文结合科学数据存储格式HDF5(Hierarchical Data F...目前,世界上最大的单口径射电望远镜FAST (Five-hundred-meter Aperture Spherical radio Telescope)处于调试期,采集的数据面临着加载效率上的瓶颈,给后续的数据处理效率带来了挑战。本文结合科学数据存储格式HDF5(Hierarchical Data Format Release 5)和数据降维,提出一种适合大多数FAST望远镜数据处理场景的存储优化方法。通过优化,硬盘中的数据从二进制表格模型转换为按类型分布的多个数据集。实验结果表明本文提出的方法能够显著提高FAST望远镜的数据加载效率。展开更多
HDF5(Hierarchical Data Format,HDF)数据具有自我描述、跨平台、支持平行读写的优势,被世界气象组织列为气象数据通用存储格式。Fortran是气象工作者的主要编程语言,文章将介绍如何用Fortran语言对HDF5数据接口的二次开发,实现HDF5数...HDF5(Hierarchical Data Format,HDF)数据具有自我描述、跨平台、支持平行读写的优势,被世界气象组织列为气象数据通用存储格式。Fortran是气象工作者的主要编程语言,文章将介绍如何用Fortran语言对HDF5数据接口的二次开发,实现HDF5数据接口高效封装,让读写HDF5变得简单易行。展开更多
文摘针对大规模数据输入输出的应用场景,提出了一种基于层次存储格式HDF5(Hierarchical Data Format 5)的多层次并行IO(Input/Output)方案。该并行IO方案分为节点间和节点内两层:节点间以节点为单位IO数据并允许节点内部协同或独立工作,根据节点内部的工作方式分别提出了多层次并行IO算法和多层次哨兵并行IO算法,以有效提升IO效率并避免输出文件冗余。考虑异构计算和纯CPU计算两个典型应用场景,分别在曙光平台和Intel平台进行最大核数为4096、最大数据量为256G的多组实验。结果表明,多层次并行IO算法IO效率提高了1.97~25.87倍,多层次哨兵并行IO算法IO效率提高了6.53~9.36倍,且输出文件数量减少到多区并行IO算法的1/4和1/32。
文摘计算流体动力学(computational fluid dynamics,CFD)是高性能计算重要应用领域之一,其计算涉及大量数据访问.在大规模并行计算情况下,串行I/O的性能与计算能力不匹配,I/O成为性能瓶颈.并行I/O是解决这一问题的主要途径之一.针对一个真实多区结构网格CFD并行程序HOSTA(high-order simulator for aerodynamics),基于HDF5(hierarchical data format v5)数据存储格式及其并行I/O编程接口,实现了其主要数据的并行I/O.在一套有6个I/O服务器结点的高性能计算机系统上,采用实际CFD算例进行了性能测试.对一个三角翼算例,并行I/O相对于串行I/O的性能加速比达到21.27,最高获得5.81GBps的I/O吞吐率,并使程序整体性能提高10%以上;对一个网格规模更大的简单翼型算例,并行I/O最高获得了6.72GBps的I/O吞吐率.
文摘大型有限元软件需要处理和维护结构复杂、数量庞大的数据集合。通过研究层次文件格式Hierarchical Data Format(HDF5)及其在有限元软件数据存储格式中的应用,对有限元数据进行抽象归类并采用HDF5的C++接口进行存取实现。测试表明,由于HDF5具有自述性、通用性、灵活性及扩展性,该存储格式表现出较常规存储方案更高的效率,尤其在大规模有限元数据存取中具有显著优越性,为有限元软件开发提供了一种新的数据存储及管理方案。
文摘核反应堆计算软件需要处理和维护结构复杂且规模庞大的数据集合,为满足软件对海量数据进行存储和处理的需求,深入研究了分层数据存储格式HDF5 (Hierarchical Data Format v5)的数据存储模型、I/O方法和编程接口,并根据典型的核反应堆组件中子学计算、堆芯中子学计算和堆芯热工水力计算等软件数据存储和处理的需求,将HDF5数据格式成功应用到相应软件中,设计并实现了基于HDF5数据格式的组件参数库KYMRES (KYlin-2 Main RESults databank)、堆芯参数库COMRES (COrca-3D Main RESults databank)、子通道参数库THMRES (Thermal-Hydraulic subchannel Main RESults databank),为核反应堆数值计算软件开发提供了一种新的数据存储和管理方案。
文摘目前,世界上最大的单口径射电望远镜FAST (Five-hundred-meter Aperture Spherical radio Telescope)处于调试期,采集的数据面临着加载效率上的瓶颈,给后续的数据处理效率带来了挑战。本文结合科学数据存储格式HDF5(Hierarchical Data Format Release 5)和数据降维,提出一种适合大多数FAST望远镜数据处理场景的存储优化方法。通过优化,硬盘中的数据从二进制表格模型转换为按类型分布的多个数据集。实验结果表明本文提出的方法能够显著提高FAST望远镜的数据加载效率。
文摘HDF5(Hierarchical Data Format,HDF)数据具有自我描述、跨平台、支持平行读写的优势,被世界气象组织列为气象数据通用存储格式。Fortran是气象工作者的主要编程语言,文章将介绍如何用Fortran语言对HDF5数据接口的二次开发,实现HDF5数据接口高效封装,让读写HDF5变得简单易行。