针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积...针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。展开更多
【应用背景】快速射电暴(Fast Radio Burst,FRB)搜寻是500米口径球面射电望远镜(FAST)的重要科学目标之一,其计算复杂度高,数据量大,当前算法GPU利用率偏低,数据处理需较多的人工介入操作。【目的】在不修改算法实现的前提下,实现进程级...【应用背景】快速射电暴(Fast Radio Burst,FRB)搜寻是500米口径球面射电望远镜(FAST)的重要科学目标之一,其计算复杂度高,数据量大,当前算法GPU利用率偏低,数据处理需较多的人工介入操作。【目的】在不修改算法实现的前提下,实现进程级GPU并行优化,提高GPU整体资源利用率,简化算法运行调度,支持利用自动化脚本驱动计算过程。【方法】利用容器化封装FRB搜寻算法,结合GPU聚合技术实现多个FRB搜寻计算容器的多进程并行,支持GPU闲时复用。通过容器化封装屏蔽了GPU调用、依赖库管理等技术细节,减少人工介入操作。【结果】算法实验结果表明,在不修改原始算法、不增加GPU资源的前提下,将单GPU绑定6个计算进程,并行优化可实现FRB搜寻算法的加速比达到5.3,并行效率达到0.88,取得良好的并行效果。【结论】基于容器化封装及进程级GPU聚合的并行优化,可实现GPU利用率及计算效率的提升,有效支持自动化处理。该方法还具有良好的通用性,可适用于类似应用的并行优化。展开更多
海洋数据同化是一种同时利用海洋观测资料和海洋数值模式对海洋数据进行修正的有效方法,经过处理的海洋数据更加接近海洋的真实情况.在高分辨率下,基于中国科学院大气物理研究所(Institute of Atmospheric Physics,Chinese Academy of S...海洋数据同化是一种同时利用海洋观测资料和海洋数值模式对海洋数据进行修正的有效方法,经过处理的海洋数据更加接近海洋的真实情况.在高分辨率下,基于中国科学院大气物理研究所(Institute of Atmospheric Physics,Chinese Academy of Sciences,IAP)和大气科学和地球流体力学数值模拟国家重点实验室(State Key Laboratory Modelling for Atmospheric Sciences and Geophysical Fluid Dynamics,LASG)发展的LASG/IAP气候系统海洋模式(LASG/IAP climate ocean model,LICOM)的同化并行程序往往涉及大量的文件读取、通信和计算,以往的研究虽然对这些方面进行了优化,但是由于优化只是停留在上层算法层面,没有考虑底层的文件系统以及超算集群的架构,因此优化的效果不太明显.针对以往研究存在的问题,进一步将海洋数据同化的数据特性、计算特性与所使用的超算平台的架构特性相结合,在此基础上结合时间局部性和空间局部性,提出了基于计算拓扑图的负载均衡策略、基于Lustre文件存储架构和超算集群特性的并行优化策略,以及计算、读取通信、写回3层重叠策略.最后,使用高分辨率数据集,在天河2号超算集群上对所提算法进行了测试.相比于现有算法,所提的算法在4 000核下对总体同化性能上提升了18倍.另外,还在曙光7 000超算集群上开展了测试.在4 000块DCU加速卡上,相比于已有算法,所提算法提升总体计算性能8倍左右.展开更多
文摘针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。
文摘【应用背景】快速射电暴(Fast Radio Burst,FRB)搜寻是500米口径球面射电望远镜(FAST)的重要科学目标之一,其计算复杂度高,数据量大,当前算法GPU利用率偏低,数据处理需较多的人工介入操作。【目的】在不修改算法实现的前提下,实现进程级GPU并行优化,提高GPU整体资源利用率,简化算法运行调度,支持利用自动化脚本驱动计算过程。【方法】利用容器化封装FRB搜寻算法,结合GPU聚合技术实现多个FRB搜寻计算容器的多进程并行,支持GPU闲时复用。通过容器化封装屏蔽了GPU调用、依赖库管理等技术细节,减少人工介入操作。【结果】算法实验结果表明,在不修改原始算法、不增加GPU资源的前提下,将单GPU绑定6个计算进程,并行优化可实现FRB搜寻算法的加速比达到5.3,并行效率达到0.88,取得良好的并行效果。【结论】基于容器化封装及进程级GPU聚合的并行优化,可实现GPU利用率及计算效率的提升,有效支持自动化处理。该方法还具有良好的通用性,可适用于类似应用的并行优化。
文摘海洋数据同化是一种同时利用海洋观测资料和海洋数值模式对海洋数据进行修正的有效方法,经过处理的海洋数据更加接近海洋的真实情况.在高分辨率下,基于中国科学院大气物理研究所(Institute of Atmospheric Physics,Chinese Academy of Sciences,IAP)和大气科学和地球流体力学数值模拟国家重点实验室(State Key Laboratory Modelling for Atmospheric Sciences and Geophysical Fluid Dynamics,LASG)发展的LASG/IAP气候系统海洋模式(LASG/IAP climate ocean model,LICOM)的同化并行程序往往涉及大量的文件读取、通信和计算,以往的研究虽然对这些方面进行了优化,但是由于优化只是停留在上层算法层面,没有考虑底层的文件系统以及超算集群的架构,因此优化的效果不太明显.针对以往研究存在的问题,进一步将海洋数据同化的数据特性、计算特性与所使用的超算平台的架构特性相结合,在此基础上结合时间局部性和空间局部性,提出了基于计算拓扑图的负载均衡策略、基于Lustre文件存储架构和超算集群特性的并行优化策略,以及计算、读取通信、写回3层重叠策略.最后,使用高分辨率数据集,在天河2号超算集群上对所提算法进行了测试.相比于现有算法,所提的算法在4 000核下对总体同化性能上提升了18倍.另外,还在曙光7 000超算集群上开展了测试.在4 000块DCU加速卡上,相比于已有算法,所提算法提升总体计算性能8倍左右.