期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
面向国产异构众核系统的Parallel C语言设计与实现 被引量:10
1
作者 何王全 刘勇 +2 位作者 方燕飞 魏迪 漆锋滨 《软件学报》 EI CSCD 北大核心 2017年第4期764-785,共22页
异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、... 异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能够有效地描述国产众核系统的异构并行性.与其他众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据结果表明:Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用. 展开更多
关键词 异构众核 编程模型 并行语言 PARALLEL C 编译器 消息传递
下载PDF
异构众核系统及其编程模型与性能优化技术研究综述 被引量:13
2
作者 巨涛 朱正东 董小社 《电子学报》 EI CAS CSCD 北大核心 2015年第1期111-119,共9页
异构众核系统已成为当前高性能计算领域重要的发展趋势.针对异构众核系统,从架构、编程、所支持的应用三方面分析对比当前不同异构系统的特点,揭示了异构系统的发展趋势及异构系统相对于传统多核并行系统的优势;然后从编程模型和性能优... 异构众核系统已成为当前高性能计算领域重要的发展趋势.针对异构众核系统,从架构、编程、所支持的应用三方面分析对比当前不同异构系统的特点,揭示了异构系统的发展趋势及异构系统相对于传统多核并行系统的优势;然后从编程模型和性能优化方面分析了异构系统存在的问题和面临的挑战,以及国内外研究现状,结合当前研究存在的问题和难点,探讨了该领域进一步深入的研究方向;同时对两种典型的异构众核系统CPU+GPU和CPU+MIC进行不同应用类型的Benchmark测试,验证了两种异构系统不同的应用特点,为用户选择具体异构系统提供参考,在此基础上提出将两种众核处理器(GPU和MIC)结合在一个计算节点内构成新型混合异构系统;该新型混合异构系统可以利用两种众核处理器不同的处理优势,协同处理具有不同应用特点的复杂应用,同时分析了在该混合异构系统下必须要研究和解决的关键问题;最后对异构众核系统面临的挑战和进一步的研究方向进行了总结和展望. 展开更多
关键词 异构众核系统 高性能计算 异构计算 编程模型 性能优化
下载PDF
面向异构众核从核的数学函数库访存优化方法 被引量:6
3
作者 许瑾晨 郭绍忠 +1 位作者 黄永忠 王磊 《计算机科学》 CSCD 北大核心 2014年第6期12-17,共6页
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种... 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。 展开更多
关键词 异构众核 数学函数库 访存优化 指令调度 局部数据存储空间
下载PDF
一种基于国产异构众核处理器的C++智能源码转换框架 被引量:3
4
作者 俞茂学 贾东宁 +2 位作者 魏志强 许佳立 马广浩 《计算机工程与科学》 CSCD 北大核心 2021年第6期997-1005,共9页
国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节。围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径。针对国产运算核心... 国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节。围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径。针对国产运算核心不支持C++编译的现状,基于开源的ANTLR语言翻译工具,提出了一种面向异构众核处理器的智能化C++语言向C语言转换的辅助框架。该框架聚焦面向对象语言的关键特征,基于抽象语法树,实现了基类和继承类、函数定义、基于标签法的模板实例化以及部分STL库的C语言转换,建立了待转换代码的自动化标注体系,极大地提高了C++代码的转换和移植效率。通过对可衡量的并行计算基准应用BableStream进行自动转换和移植测试,证实了该转换框架的有效性。 展开更多
关键词 异构众核 源码转换 OpenACC 并行计算 ANTLR C++
下载PDF
面向国产异构众核处理器SW26010的BFS优化方法
5
作者 袁欣辉 林蓉芬 +2 位作者 魏迪 尹万旺 徐金秀 《计算机科学》 CSCD 北大核心 2020年第8期98-104,共7页
近年来,人们越来越关注计算机对数据密集型课题的处理能力。宽度优先搜索(Breadth First Search,BFS)是一种典型的数据密集型课题,被广泛应用于多种图算法。Graph 500 Benchmark以BFS搜索为核心算法,已经成为评价计算机处理大数据能力... 近年来,人们越来越关注计算机对数据密集型课题的处理能力。宽度优先搜索(Breadth First Search,BFS)是一种典型的数据密集型课题,被广泛应用于多种图算法。Graph 500 Benchmark以BFS搜索为核心算法,已经成为评价计算机处理大数据能力的基准。神威太湖之光超级计算机从2016年6月至2017年11月连续4次荣登Top 500榜单榜首,其处理器SW26010是首款由我国自主研制的异构众核处理器。文中研究了如何利用SW26010的体系结构特点加速BFS算法的问题,在SW26010上实现了基于单个核组的方向优化的融合BFS算法,使用字节图(bytemap)释放内层循环依赖性,利用异步DMA隐藏计算与便签存储器的访问开销,利用异构架构协同运算并对图做预处理。最终,以Graph 500作为基准测试程序处理scale为22的图,SW26010处理器单核组BFS的性能达到457.54MTEPS。 展开更多
关键词 SW26010 神威太湖之光 Graph 500 数据密集 异构众核 宽度优先搜索
下载PDF
CUDA到异构众核架构的线程映射模型
6
作者 余勇 庞建民 +1 位作者 单征 刘晓楠 《计算机工程》 CAS CSCD 2012年第9期282-284,287,共4页
统一计算设备架构(CUDA)程序移植到其他异构众核架构时的线程数不匹配。为此,提出一种层次化的线程映射模型。在第1个映射层次上,将CUDA主机端线程和设备端线程分别映射到目标平台的主核和从核阵列上,在第2个映射层次上,采用线程循环的... 统一计算设备架构(CUDA)程序移植到其他异构众核架构时的线程数不匹配。为此,提出一种层次化的线程映射模型。在第1个映射层次上,将CUDA主机端线程和设备端线程分别映射到目标平台的主核和从核阵列上,在第2个映射层次上,采用线程循环的方法消除协作线程阵列(CTA)中线程间同步操作,将整个CTA映射到从核阵列的一个从核上。实验结果表明,该模型能使CUDA程序在其他异构众核系统上得到有效运行。 展开更多
关键词 代码移植 图形处理器 统一计算设备架构 异构众核架构 流式多处理器 线程循环
下载PDF
一种面向异构众核处理器的并行编译框架 被引量:8
7
作者 李雁冰 赵荣彩 +3 位作者 韩林 赵捷 徐金龙 李颖颖 《软件学报》 EI CSCD 北大核心 2019年第4期981-1001,共21页
异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主... 异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主要包括4个模块:任务划分模块用来识别适合进行加速计算的程序段,实现了嵌套循环的多维并行识别方法;数据布局模块完成数据在主存和SPM之间的布局,实现了数组边界分析和指针范围分析;传输优化模块实现了数据传输合并、传输外提、打包传输、数组转置等多种数据传输优化方法;收益评估模块在构建代价模型的基础上实现了一种动静结合的收益评估方法.并且,基于SW26010处理器,对该编译框架进行了实现,测试结果表明,该编译框架能够实现一些程序以面向异构众核结构的并行变换,且获得较好的加速效果. 展开更多
关键词 异构众核处理器 SW26010 并行编译 数据传输优化 OpenACC
下载PDF
面向异构众核架构的块Gauss-Seidel/Jacobi预条件算法
8
作者 吴立垒 陈荣亮 +4 位作者 罗力 闫争争 廖子菊 迟利华 刘杰 《计算机学报》 EI CSCD 北大核心 2019年第11期2447-2460,共14页
Gauss-Seidel算法作为线性方程组的求解器,在并行计算领域具有广泛应用,而面向异构众核架构开发其细粒度并行性一直是具有挑战性的问题.针对非结构网格问题,基于代数分块并行思路提出了面向异构众核架构的块Gauss-Seidel/Jacobi算法,将... Gauss-Seidel算法作为线性方程组的求解器,在并行计算领域具有广泛应用,而面向异构众核架构开发其细粒度并行性一直是具有挑战性的问题.针对非结构网格问题,基于代数分块并行思路提出了面向异构众核架构的块Gauss-Seidel/Jacobi算法,将其作为区域分解算法的子区域求解器.面向神威太湖之光超级计算机的异构众核架构,设计并实现了该算法.为充分利用神威太湖之光国产SW26010芯片中每个CPE拥有的高速LDM(Local Data Memory),缓解通信瓶颈,设计了多行块通信打包、计算与通信重叠性能优化策略和丢弃非关键元素的低通信复杂性数值优化方法.数值实验结果显示,相较于串行Gauss-Seidel算法,优化后的块Gauss-Seidel/Jacobi算法预处理过程加速比最高可达到4.16倍.以1040核的测试数据为基准,在处理器核数达到33280时,块Gauss-Seidel/Jacobi预条件算法的并行效率达到61%. 展开更多
关键词 非结构网格 异构众核架构 区域分解算法 块Gauss-Seidel/Jacobi算法 神威太湖之光
下载PDF
面向新一代国产异构众核处理器的数据流计算系统
9
作者 肖谦 赵美佳 +5 位作者 李名凡 沈莉 陈俊仕 周文浩 王飞 安虹 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2405-2417,共13页
如今,科学研究已从计算科学时代进入数据科学时代.从海量数据中发现规律和突破科学发展瓶颈是数据科学范式的主要目标.与此同时,高性能计算机(HPC)也越来越重视智能算力,在传统高性能计算方法的基础上融合人工智能算法(HPC+AI),更有利... 如今,科学研究已从计算科学时代进入数据科学时代.从海量数据中发现规律和突破科学发展瓶颈是数据科学范式的主要目标.与此同时,高性能计算机(HPC)也越来越重视智能算力,在传统高性能计算方法的基础上融合人工智能算法(HPC+AI),更有利于在数据科学时代解决实际问题,并能充分发挥高性能计算机的智能算力.不过,在国产HPC系统——特别是面向由新一代国产异构众核处理器sw26010pro构建的HPC系统——上支撑HPC+AI领域应用,则面临着诸多挑战.提出了一种面向国产异构众核处理器的数据流计算系统swFLOWpro,支持使用TensorFlow接口构建数据流程序,实现对用户透明的众核加速,并实现了面向全处理器视角的两级并行策略.经测试,系统针对典型核心计算,单核组众核加速比最高可达545倍、典型模型众核加速比最高可达346倍,全片6核组并行执行ResNet50模型训练,对比单核组加速比达到4.96倍,并行效率82.6%.实验表明,swFLOWpro能够支持以深度学习为代表的数据流程序在国产异构众核处理器上的高效运行. 展开更多
关键词 数据流 深度学习 异构众核 swFLOWpro系统 高性能计算
下载PDF
申威异构众核处理器架构下结构瞬态有限元并行算法
10
作者 喻高远 楼云锋 +1 位作者 李俊杰 金先龙 《振动与冲击》 EI CSCD 北大核心 2023年第6期152-158,共7页
根据国产申威异构众核分布式存储计算机的体系结构特点,提出了一种结构瞬态有限元分层并行计算方法,对于提高国产申威异构众核分布式存储并行计算机下大型、超大型复杂结构系统的瞬态并行求解效率具有重要意义。该方法在分层通信和Newma... 根据国产申威异构众核分布式存储计算机的体系结构特点,提出了一种结构瞬态有限元分层并行计算方法,对于提高国产申威异构众核分布式存储并行计算机下大型、超大型复杂结构系统的瞬态并行求解效率具有重要意义。该方法在分层通信和Newmark-HHT算法的基础上构建了大规模复杂结构系统的瞬态并行求解体系,不仅实现了计算过程中大量数据的分布式存储,显著改善了数据的内存访存效率;而且实现了计算过程的两层并行,有效改善了通信效率。因此,该计算方法能够充分利用国产申威异构众核分布式存储并行计算机的体系结构特点提升结构瞬态大规模并行计算效率。最后通过典型数值算例验证了该方法的正确性和有效性,并将其应用于某高层建筑,实现其上千万自由度、数万核的结构瞬态并行计算。 展开更多
关键词 异构众核 分布式存储 分层通信 大规模瞬态分析 并行计算
下载PDF
基于申威异构众核处理器架构的模态并行算法
11
作者 喻高远 马志强 +1 位作者 李俊杰 金先龙 《振动与冲击》 EI CSCD 北大核心 2022年第3期224-230,共7页
根据国产申威异构众核处理器架构特点,提出了一种结构有限元模态分层通信并行计算方法,对于提高国产申威异构众核分布式存储并行计算机下重大装备系统级模态分析的并行效率具有重要意义。该方法在分层通信策略和加速子空间迭代法的基础... 根据国产申威异构众核处理器架构特点,提出了一种结构有限元模态分层通信并行计算方法,对于提高国产申威异构众核分布式存储并行计算机下重大装备系统级模态分析的并行效率具有重要意义。该方法在分层通信策略和加速子空间迭代法的基础上构建了大规模模态分析并行计算体系,不仅实现了计算过程和数据通信的分层,有效提高了通信效率;而且实现了计算数据的分布式存储,显著改善了数据访存效率。将并行计算体系应用于某超深钻机制动系统主体结构和某跨江隧道,实现了上千万自由度、数万核的模态分析并行计算;结合算例对该算法的正确性和有效性进行了评估。结果表明,该算法能够充分利用国产申威异构众核分布式存储并行计算机的体系结构特点提高重大装备系统级模态并行计算效率。 展开更多
关键词 异构众核 分布式存储 分层通信 大规模模态分析 并行计算
下载PDF
面向国产异构众核架构的CFD非结构网格计算并行优化方法 被引量:1
12
作者 陈鑫 李芳 +5 位作者 丁海昕 孙唯哲 刘鑫 陈德训 叶跃进 何香 《计算机科学》 CSCD 北大核心 2022年第6期99-107,共9页
神威太湖之光在2016-2018年度全球超算top500榜单中排名第一,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。由于CFD非结构网格计算存在拓扑关系复杂、离散访存问题严重、存在强相关的线化方程求解等问题,导致CF... 神威太湖之光在2016-2018年度全球超算top500榜单中排名第一,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。由于CFD非结构网格计算存在拓扑关系复杂、离散访存问题严重、存在强相关的线化方程求解等问题,导致CFD非结构网格计算一直是国产众核超级计算机移植与优化的难题。为充分发挥国产异构众核架构的计算效能,首先,提出了一种数据重构模型,提高了数据的局部性和可并行性,使得数据结构更加适应众核架构的特点;然后,针对非结构网格数据存放的无序性导致的离散访存问题,提出了一种基于信息关系预存的离散访存优化方法,将离散访存转化为连续访存;最后,对于存在强相关的线化方程求解问题,引入了从核阵列流水线并行的思想,实现了众核并行。优化后CFD非结构网格计算的整体性能相比原始版本提升了4.19倍,相比通用CPU提升了1.2倍,并扩展到62.4万计算核心的并行规模,能保持64.5%的并行效率。 展开更多
关键词 计算流体力学 异构众核 神威超级计算机 非结构网格 并行计算
下载PDF
面向申威异构众核处理器的矩阵乘分块参数模型
13
作者 陶小涵 庞建民 +2 位作者 朱雨 王博漾 徐金龙 《信息工程大学学报》 2023年第1期65-71,共7页
针对矩阵乘计算的编译优化,解决了由于申威异构众核处理器复杂体系结构及存储层次导致的程序优化难问题,过程中循环分块参数对于程序的优化效果极为重要。基于申威最新一代SW26010-Pro异构众核处理器提出了矩阵乘计算分块参数模型,旨在... 针对矩阵乘计算的编译优化,解决了由于申威异构众核处理器复杂体系结构及存储层次导致的程序优化难问题,过程中循环分块参数对于程序的优化效果极为重要。基于申威最新一代SW26010-Pro异构众核处理器提出了矩阵乘计算分块参数模型,旨在为矩阵乘计算编译优化的计算分解提供分析模型支撑。模型通过对申威处理器上的存储空间及数据传输过程进行分析,能够确定最优循环分块参数,并对数据传输时间及程序执行时间做出预测。测试证明模型能够在存储空间限制条件下得到最优循环分块参数,且程序执行时间预测平均准确率达到了96.87%。 展开更多
关键词 异构众核处理器 矩阵乘计算 分块参数 分析模型
下载PDF
面向磁流体动力学方程组的异构众核全隐求解器研究 被引量:1
14
作者 刘芳芳 陈道琨 +1 位作者 杨超 赵玉文 《数值计算与计算机应用》 2019年第1期34-50,共17页
磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但... 磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但都是在同构的超级计算机而不是目前主流的异构众核系统上进行计算.论文面向国产神威"太湖之光"超级计算机,开展面向磁流体动力学方程组的异构众核全隐求解器研究.针对Newton-Krylov这类全隐求解器,提出了面向申威26010众核处理器的异构众核并行算法,并对其核心函数开展了众核并行和优化.对核心函数稀疏矩阵向量乘采用Matrix Free的方法来提升性能,对稀疏三角求解采用基于几何信息的异构众核并行算法,针对其访存密集的特点提出了存储格式、数据读取与计算依赖分离、核间寄存器通信等多种优化方法,对非线性残差计算等stencil类计算及10多个向量函数进行了异构众核并行,该异构众核并行算法可被其它应用软件重用.论文采用二维磁场重联问题进行测试,实验结果表明16进程时加速比可达13.6倍,能够支持高分辨率长时间模拟,并准确捕捉磁场重联现象.另外整体并行扩展性已经达到53万核,强可扩展性并行效率达到了33.8%,弱可扩展性并行效率达到了80.7%. 展开更多
关键词 二维磁场重联 磁流体动力学 异构众核 全隐求解器 神威太湖之光 申威26010处理器
原文传递
面向国产申威26010众核处理器的SpMV实现与优化 被引量:12
15
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 SpMV 申威26010处理器 异构众核并行 自适应优化
下载PDF
快速多极子方法在申威众核处理器上的实现和优化 被引量:3
16
作者 王武 王舒扬 +1 位作者 姜金荣 孟虹松 《计算机工程与科学》 CSCD 北大核心 2019年第7期1161-1167,共7页
快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数... 快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)系统地进行了性能优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例,优化后代码的计算速度约为主核上运行的原始代码的400倍,每个核组上的浮点性能达到250GFLOPS,即理论峰值性能的32.5%。 展开更多
关键词 快速多极子方法 异构众核处理器 N体问题 性能优化
下载PDF
基于申威众核处理器的1、2级BLAS函数优化研究 被引量:5
17
作者 孙家栋 孙乔 +1 位作者 邓攀 杨超 《计算机系统应用》 2017年第11期101-108,共8页
BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1... BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1、2级函数的并行实现,并充分利用平台特性对它们进行深度的性能调优,归纳总结程序在申威平台上的并行实现与优化技巧.申威26010 CPU采用了异构众核架构,众多计算核心提供的大规模并行处理能力,使单块芯片具有3 TFLOPS的双精度浮点计算性能.实验结果显示BLAS-1、2级函数相对于Goto BLAS参考实现版的平均加速比分别高达11.x和6.x,对于每一优化手段,均有明显的性能加速. 展开更多
关键词 BLAS 异构众核 任务并行 simd向量化
下载PDF
基于申威众核处理器的圣维南求解程序的并行与优化 被引量:1
18
作者 丁哲昭 储根深 +1 位作者 胡长军 李扬 《计算机工程与科学》 CSCD 北大核心 2021年第5期820-829,共10页
圣维南方程组可用于描述明渠非恒定流的汇流过程,在大规模水文模拟软件中,求该方程组的数值解是制约程序运行时间的最大瓶颈。通过分析串行程序结构及其计算热点,挖掘计算密集型程序中单步模拟循环计算段和指令排列等的可并行性,针对“... 圣维南方程组可用于描述明渠非恒定流的汇流过程,在大规模水文模拟软件中,求该方程组的数值解是制约程序运行时间的最大瓶颈。通过分析串行程序结构及其计算热点,挖掘计算密集型程序中单步模拟循环计算段和指令排列等的可并行性,针对“神威·太湖之光”超级计算机的异构众核架构设计主从核异步并行方案,基于MPI和athread库对求解程序进行移植、并行和加速,采用SIMD技术将从核计算段向量化,使用双缓冲等策略对通信瓶颈进行优化。测试表明,计算热点函数的性能较优化前平均可提高3倍以上,在百万控制单元规模内,众核级优化后的并行程序加速比可保持近线性增长,在神威多结点上具有很好的可扩展性。 展开更多
关键词 并行计算 异构众核 圣维南方程 数值模拟
下载PDF
基于国产众核架构CESM中有限差分计算优化 被引量:3
19
作者 陈宏博 钱雪忠 +2 位作者 甘霖 徐敬蘅 刘徐 《计算机应用研究》 CSCD 北大核心 2021年第2期501-505,共5页
针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不... 针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不高等不足,缓解了申威26010处理器在有限差分法求解过程的通信瓶颈。对CESM中以有限差分法为核心计算的两个函数,在申威26010众核处理器上的测试结果表明,提出算法及优化策略拥有21.2倍的性能提升。 展开更多
关键词 通用地球系统模型 并行计算 异构众核处理器 有限差分算法 高性能计算
下载PDF
面向申威众核处理器的LZMA并行算法设计与优化 被引量:3
20
作者 李秉政 黄高阳 许瑾晨 《计算机科学与探索》 CSCD 北大核心 2020年第9期1501-1509,共9页
随着高性能计算和科学计算应用的发展,高性能计算集群系统传输、存储和处理的数据规模呈现爆炸式增长。对大规模数据进行高效的压缩,减少数据存储所需空间和传输所需的通信带宽,是提升高性能计算集群系统性能的关键之一。无损压缩算法中... 随着高性能计算和科学计算应用的发展,高性能计算集群系统传输、存储和处理的数据规模呈现爆炸式增长。对大规模数据进行高效的压缩,减少数据存储所需空间和传输所需的通信带宽,是提升高性能计算集群系统性能的关键之一。无损压缩算法中,LZMA算法具有较高的压缩率,但串行版本的LZMA算法压缩速率很慢。采用多核架构的处理器对无损压缩算法进行并行化,是提升压缩速率的一个研究方向。设计并实现了面向申威26010异构众核处理器并行化LZMA算法。结合申威异构众核处理器的特点,对LZMA算法存储空间需求、访存特性、热点函数等进行分析,基于Athread接口实现LZMA算法从核多线程并行,并对LDM地址空间进行细粒度的布局与优化以获得更好的缓存性能,实现DMA双缓冲的循环滑动窗口算法。测试结果表明,相较主核串行版本算法,并行LZMA算法在Silesia语料库基准测试集和大规模数据集中分别获得了4.1倍和5.3倍的最大加速比,获得了较好的加速效果。 展开更多
关键词 并行计算 异构众核处理器 LZMA 压缩算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部