期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向国产申威26010众核处理器的SpMV实现与优化
被引量:
12
1
作者
刘芳芳
杨超
+2 位作者
袁欣辉
吴长茂
敖玉龙
《软件学报》
EI
CSCD
北大核心
2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB...
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.
展开更多
关键词
稀疏矩阵向量乘
SpMV
申威
26010
处理器
异构众核并行
自适应优化
下载PDF
职称材料
申威26010众核处理器上一维FFT实现与优化
被引量:
2
2
作者
赵玉文
敖玉龙
+3 位作者
杨超
刘芳芳
尹万旺
林蓉芬
《软件学报》
EI
CSCD
北大核心
2020年第10期3184-3196,共13页
根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓...
根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%.
展开更多
关键词
申威
26010
处理器
一维FFT
两层分解
Cooley-Tukey
众核并行
下载PDF
职称材料
一种面向申威26010处理器的分布式传递锁机制
3
作者
李明亮
庞建民
岳峰
《计算机科学》
CSCD
北大核心
2022年第10期52-58,共7页
在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈...
在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈锁竞争情况下会产生大量的锁操作开销,影响了并行程序的性能。针对这一问题,提出了一种分布式传递锁机制HDT-LOCK。首先,提出并实现了基于众核上便签存储器和主存的混合分布锁来避免访存拥塞;其次,设计了基于寄存器通信和单指令多数据指令(Single-instruction Multiple-data Instruction)的锁传递机制,以进一步提高HDT-LOCK机制的吞吐量。实验结果表明,与原锁机制相比,所提HDT-LOCK机制避免了访存拥塞,并且可扩展性更佳。此外,锁传递机制使HDT-LOCK的吞吐量提升最高可达5.6倍。
展开更多
关键词
申威
26010
处理器
混合分布锁
锁传递
单指令多数据指令
寄存器通信
下载PDF
职称材料
基于申威26010处理器的扩展函数库实现与优化
被引量:
10
4
作者
曹代
郭绍忠
张辛
《计算机工程》
CAS
CSCD
北大核心
2017年第1期61-66,71,共7页
Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和...
Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和对数函数研究一种高效向量化算法,并对其进行实现与优化,使其支持函数高精度和高性能计算,并且满足浮点运算的要求。测试结果表明,该算法精度达到申威26010处理器上特定应用的要求,与Intel VML数学库相比,各函数的平均加速比均达到1.1以上。
展开更多
关键词
浮点运算
数学函数
申威
26010
处理器
数据分段
指令调度
下载PDF
职称材料
面向新一代神威超级计算机平台的大气动力学问题全隐式求解器研究
被引量:
2
5
作者
陈道琨
刘芳芳
杨超
《数值计算与计算机应用》
2023年第2期198-213,共16页
大气动力学问题的数值模拟在气象预报等领域具有广泛的应用.相关数值模拟依赖超级计算机平台实现高精度高分辨率的气象预报,隐式求解不受稳定性条件限制,相比显式求解更有优势.面向新的超级计算机架构特征研究隐式大气动力学问题中一系...
大气动力学问题的数值模拟在气象预报等领域具有广泛的应用.相关数值模拟依赖超级计算机平台实现高精度高分辨率的气象预报,隐式求解不受稳定性条件限制,相比显式求解更有优势.面向新的超级计算机架构特征研究隐式大气动力学问题中一系列算子操作的并行和优化方法是非常有必要的.本文在规则递推关系的理论框架下对大气动力学问题预条件阶段的稀疏三角回代求解以及ILU矩阵分解操作的特征进行了总结,并结合申威26010Pro处理器的架构特点,对现有结构化稀疏三角线性方程组问题的并行算法进行了推广,设计了一套面向单向规则递推关系的算法框架,解决了预条件阶段各类算子的并行加速问题.本文还面向申威26010Pro处理器对大气动力学问题的模板计算等算子进行了移植和优化.实验结果显示,本文的算法框架对预条件阶段的算子能够实现26-33倍不等的加速效果,对模板计算等算子的优化相比串行计算有10-152倍的加速比.在新的神威超级计算机上最大测试到1700多万核心,浮点性能达到20.5PFlop/s.在大规模测试条件下的强(弱)可扩展性维持在56.81%(41.87%)以上.
展开更多
关键词
大气动力学数值模拟
规则递推关系
异构并行计算
申威26010pro处理器
结构化问题
原文传递
面向磁流体动力学方程组的异构众核全隐求解器研究
被引量:
1
6
作者
刘芳芳
陈道琨
+1 位作者
杨超
赵玉文
《数值计算与计算机应用》
2019年第1期34-50,共17页
磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但...
磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但都是在同构的超级计算机而不是目前主流的异构众核系统上进行计算.论文面向国产神威"太湖之光"超级计算机,开展面向磁流体动力学方程组的异构众核全隐求解器研究.针对Newton-Krylov这类全隐求解器,提出了面向申威26010众核处理器的异构众核并行算法,并对其核心函数开展了众核并行和优化.对核心函数稀疏矩阵向量乘采用Matrix Free的方法来提升性能,对稀疏三角求解采用基于几何信息的异构众核并行算法,针对其访存密集的特点提出了存储格式、数据读取与计算依赖分离、核间寄存器通信等多种优化方法,对非线性残差计算等stencil类计算及10多个向量函数进行了异构众核并行,该异构众核并行算法可被其它应用软件重用.论文采用二维磁场重联问题进行测试,实验结果表明16进程时加速比可达13.6倍,能够支持高分辨率长时间模拟,并准确捕捉磁场重联现象.另外整体并行扩展性已经达到53万核,强可扩展性并行效率达到了33.8%,弱可扩展性并行效率达到了80.7%.
展开更多
关键词
二维磁场重联
磁流体动力学
异构众核
全隐求解器
神威太湖之光
申威
26010
处理器
原文传递
题名
面向国产申威26010众核处理器的SpMV实现与优化
被引量:
12
1
作者
刘芳芳
杨超
袁欣辉
吴长茂
敖玉龙
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院大学
计算机科学国家重点实验室(中国科学院软件研究所)
北京大学数学科学学院
国家并行计算机工程技术研究中心
出处
《软件学报》
EI
CSCD
北大核心
2018年第12期3921-3932,共12页
基金
国家重点研发计划(2016YFB0200603)
国家自然科学基金(91530323)~~
文摘
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.
关键词
稀疏矩阵向量乘
SpMV
申威
26010
处理器
异构众核并行
自适应优化
Keywords
sparse matrix-vector multiplication
SpMV
Sunway
26010
pro
cessor
heterogeneous many-core
adaptive optimization
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
申威26010众核处理器上一维FFT实现与优化
被引量:
2
2
作者
赵玉文
敖玉龙
杨超
刘芳芳
尹万旺
林蓉芬
机构
中国科学院软件研究所并行软件与计算科学实验室
北京大学数学科学学院
计算机科学国家重点实验室(中国科学院软件研究所)
中国科学院大学
国家并行计算机工程技术研究中心
出处
《软件学报》
EI
CSCD
北大核心
2020年第10期3184-3196,共13页
基金
国家重点研发计划(2016YFB0200603)
北京市自然科学基金(JQ18001)。
文摘
根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%.
关键词
申威
26010
处理器
一维FFT
两层分解
Cooley-Tukey
众核并行
Keywords
Sunway
26010
pro
cessor
1-D FFT
two-layer decomposition
Cooley-Tukey
multi-core parallel
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种面向申威26010处理器的分布式传递锁机制
3
作者
李明亮
庞建民
岳峰
机构
数学工程与先进计算国家重点实验室(信息工程大学)
出处
《计算机科学》
CSCD
北大核心
2022年第10期52-58,共7页
基金
国家自然科学基金(61472447,61802433,61802435)。
文摘
在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈锁竞争情况下会产生大量的锁操作开销,影响了并行程序的性能。针对这一问题,提出了一种分布式传递锁机制HDT-LOCK。首先,提出并实现了基于众核上便签存储器和主存的混合分布锁来避免访存拥塞;其次,设计了基于寄存器通信和单指令多数据指令(Single-instruction Multiple-data Instruction)的锁传递机制,以进一步提高HDT-LOCK机制的吞吐量。实验结果表明,与原锁机制相比,所提HDT-LOCK机制避免了访存拥塞,并且可扩展性更佳。此外,锁传递机制使HDT-LOCK的吞吐量提升最高可达5.6倍。
关键词
申威
26010
处理器
混合分布锁
锁传递
单指令多数据指令
寄存器通信
Keywords
SW
26010
pro
cessor
Hybrid distributed lock
Inter-core passing
Single-instruction multiple-data instruction
Register communication
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于申威26010处理器的扩展函数库实现与优化
被引量:
10
4
作者
曹代
郭绍忠
张辛
机构
数学工程与先进计算国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第1期61-66,71,共7页
基金
国家"863"计划项目(2009AA012201)
文摘
Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和对数函数研究一种高效向量化算法,并对其进行实现与优化,使其支持函数高精度和高性能计算,并且满足浮点运算的要求。测试结果表明,该算法精度达到申威26010处理器上特定应用的要求,与Intel VML数学库相比,各函数的平均加速比均达到1.1以上。
关键词
浮点运算
数学函数
申威
26010
处理器
数据分段
指令调度
Keywords
floating-point calculation
mathematical function
SW
26010
pro
cessor
data segmentation
instruction scheduling
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向新一代神威超级计算机平台的大气动力学问题全隐式求解器研究
被引量:
2
5
作者
陈道琨
刘芳芳
杨超
机构
中国科学院大学
中国科学院软件研究所并行软件与计算科学实验室
中国科学院软件研究所计算机科学国家重点实验室
北京大学数学科学学院
出处
《数值计算与计算机应用》
2023年第2期198-213,共16页
基金
国家重点研发计划高性能计算重点专项(2020YFB0204601)资助。
文摘
大气动力学问题的数值模拟在气象预报等领域具有广泛的应用.相关数值模拟依赖超级计算机平台实现高精度高分辨率的气象预报,隐式求解不受稳定性条件限制,相比显式求解更有优势.面向新的超级计算机架构特征研究隐式大气动力学问题中一系列算子操作的并行和优化方法是非常有必要的.本文在规则递推关系的理论框架下对大气动力学问题预条件阶段的稀疏三角回代求解以及ILU矩阵分解操作的特征进行了总结,并结合申威26010Pro处理器的架构特点,对现有结构化稀疏三角线性方程组问题的并行算法进行了推广,设计了一套面向单向规则递推关系的算法框架,解决了预条件阶段各类算子的并行加速问题.本文还面向申威26010Pro处理器对大气动力学问题的模板计算等算子进行了移植和优化.实验结果显示,本文的算法框架对预条件阶段的算子能够实现26-33倍不等的加速效果,对模板计算等算子的优化相比串行计算有10-152倍的加速比.在新的神威超级计算机上最大测试到1700多万核心,浮点性能达到20.5PFlop/s.在大规模测试条件下的强(弱)可扩展性维持在56.81%(41.87%)以上.
关键词
大气动力学数值模拟
规则递推关系
异构并行计算
申威26010pro处理器
结构化问题
Keywords
Atmospheric modeling
Uniform recurrence relation
Heterogeneous computation
SW
26010
pro
pro
cessor
Structured-grid
pro
blem
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
面向磁流体动力学方程组的异构众核全隐求解器研究
被引量:
1
6
作者
刘芳芳
陈道琨
杨超
赵玉文
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院大学
北京大学数学科学学院
出处
《数值计算与计算机应用》
2019年第1期34-50,共17页
基金
国家重点研发计划高性能计算重点专项(2016YFB0200603)
国家自然科学基金(91530323)资助
文摘
磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但都是在同构的超级计算机而不是目前主流的异构众核系统上进行计算.论文面向国产神威"太湖之光"超级计算机,开展面向磁流体动力学方程组的异构众核全隐求解器研究.针对Newton-Krylov这类全隐求解器,提出了面向申威26010众核处理器的异构众核并行算法,并对其核心函数开展了众核并行和优化.对核心函数稀疏矩阵向量乘采用Matrix Free的方法来提升性能,对稀疏三角求解采用基于几何信息的异构众核并行算法,针对其访存密集的特点提出了存储格式、数据读取与计算依赖分离、核间寄存器通信等多种优化方法,对非线性残差计算等stencil类计算及10多个向量函数进行了异构众核并行,该异构众核并行算法可被其它应用软件重用.论文采用二维磁场重联问题进行测试,实验结果表明16进程时加速比可达13.6倍,能够支持高分辨率长时间模拟,并准确捕捉磁场重联现象.另外整体并行扩展性已经达到53万核,强可扩展性并行效率达到了33.8%,弱可扩展性并行效率达到了80.7%.
关键词
二维磁场重联
磁流体动力学
异构众核
全隐求解器
神威太湖之光
申威
26010
处理器
Keywords
2D Magnetic reconnection
Magnetohydrodynamics
heterogeous manycore computing
Sunway TaihuLight
SW
26010
分类号
O361.3 [理学—流体力学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
面向国产申威26010众核处理器的SpMV实现与优化
刘芳芳
杨超
袁欣辉
吴长茂
敖玉龙
《软件学报》
EI
CSCD
北大核心
2018
12
下载PDF
职称材料
2
申威26010众核处理器上一维FFT实现与优化
赵玉文
敖玉龙
杨超
刘芳芳
尹万旺
林蓉芬
《软件学报》
EI
CSCD
北大核心
2020
2
下载PDF
职称材料
3
一种面向申威26010处理器的分布式传递锁机制
李明亮
庞建民
岳峰
《计算机科学》
CSCD
北大核心
2022
0
下载PDF
职称材料
4
基于申威26010处理器的扩展函数库实现与优化
曹代
郭绍忠
张辛
《计算机工程》
CAS
CSCD
北大核心
2017
10
下载PDF
职称材料
5
面向新一代神威超级计算机平台的大气动力学问题全隐式求解器研究
陈道琨
刘芳芳
杨超
《数值计算与计算机应用》
2023
2
原文传递
6
面向磁流体动力学方程组的异构众核全隐求解器研究
刘芳芳
陈道琨
杨超
赵玉文
《数值计算与计算机应用》
2019
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部