期刊文献+
共找到285篇文章
< 1 2 15 >
每页显示 20 50 100
天气预报模型WRF中复杂Stencil性能优化
1
作者 邸健强 袁良 +1 位作者 张云泉 张思佳 《计算机科学》 CSCD 北大核心 2024年第4期56-66,共11页
天气研究与预报模式(WRF)是一种应用广泛的中尺度数值天气预报系统,在大气研究和业务预报领域发挥着重要作用。Stencil计算是科学工程应用中一类常见的嵌套循环计算模式,WRF中对大气动力学和热力学方程的数值求解引出了大量空间网格上... 天气研究与预报模式(WRF)是一种应用广泛的中尺度数值天气预报系统,在大气研究和业务预报领域发挥着重要作用。Stencil计算是科学工程应用中一类常见的嵌套循环计算模式,WRF中对大气动力学和热力学方程的数值求解引出了大量空间网格上的复杂Stencil计算,存在多维度、多变量、物理模型边界特殊性、物理和动力学过程的复杂性等模型特征。文中深入剖析了WRF中典型的Stencil计算模式,识别抽象出典型Stencil循环中存在的“中间变量”概念,围绕其设计实现了3种优化方案,即中间变量计算合并、中间变量降维存储以及中间变量提取,有效提高了数据局部性,改善了数据重用率和空间复用率,降低了冗余计算和访存开销。结果表明,经优化方案重构的WRF 4.2典型Stencil热点函数在Intel CPU和Hygon CPU上均可获得良好的性能加速,最高加速比达21.3%和17.8%。 展开更多
关键词 WRF stencil计算 中间变量 优化方案 数据局部性 热点函数 性能加速
下载PDF
面向Stencil计算的自动混合精度优化 被引量:2
2
作者 宋广辉 郭绍忠 +3 位作者 赵捷 陶小涵 李飞 许瑾晨 《软件学报》 EI CSCD 北大核心 2023年第12期5704-5723,共20页
混合精度在深度学习和精度调整与优化方面取得了许多进展,广泛研究表明,面向Stencil计算的混合精度优化也是一个很有挑战性的方向.同时,多面体模型在自动并行化领域取得的一系列研究成果表明,该模型为循环嵌套提供很好的数学抽象,可以... 混合精度在深度学习和精度调整与优化方面取得了许多进展,广泛研究表明,面向Stencil计算的混合精度优化也是一个很有挑战性的方向.同时,多面体模型在自动并行化领域取得的一系列研究成果表明,该模型为循环嵌套提供很好的数学抽象,可以在其基础上进行一系列的循环变换.基于多面体编译技术设计并实现了一个面向Stencil计算的自动混合精度优化器,通过在中间表示层进行迭代空间划分、数据流分析和调度树转换,首次实现了源到源的面向Stencil计算的混合精度优化代码自动生成.实验表明,经过自动混合精度优化之后的代码,在减少精度冗余的基础上能够充分发挥其并行潜力,提升程序性能.以高精度计算为基准,在x86平台上最大加速比是1.76,几何平均加速比是1.15;在新一代国产申威平台上最大加速比是1.64,几何平均加速比是1.20. 展开更多
关键词 自动混合精度 stencil计算 多面体模型 循环嵌套 调度树
下载PDF
一类Stencil应用在众核NUMA架构的性能研究
3
作者 高凌云 勾文进 +3 位作者 刘夏真 袁武 张鉴 陆忠华 《数据与计算发展前沿》 CSCD 2023年第6期58-66,共9页
【应用背景】模板计算是CFD(计算流体动力学,Computational Fluid Dynamics)等科学计算的典型算法,其访存性能受到关注。NUMA架构因扩展性好,在以鲲鹏920处理器为代表的ARM架构上普遍被应用。【方法】使用性能分析工具和benchmark程序,... 【应用背景】模板计算是CFD(计算流体动力学,Computational Fluid Dynamics)等科学计算的典型算法,其访存性能受到关注。NUMA架构因扩展性好,在以鲲鹏920处理器为代表的ARM架构上普遍被应用。【方法】使用性能分析工具和benchmark程序,对鲲鹏平台的访存和通信子系统进行性能测试。针对典型stencil应用软件CCFD V3.0开展热点分析和性能测试,并建立Roofline模型。【结果】鲲鹏920处理器依托其众核NUMA架构,单节点浮点性能、内存带宽峰值,以及通信时延均优于Intel Xeon E5-2680v2与一款国产处理器。单节点时,CCFD V3.0在鲲鹏平台的运行速度约是Intel平台的2~3倍,是国产处理器的1.5~2倍。【结论】基于ARM架构的鲲鹏平台应用移植简单,其NUMA架构对模板计算一类访存密集性应用具有优势。 展开更多
关键词 stencil 鲲鹏920 性能评估 CFD
下载PDF
A Posteriori Stabilized Sixth-Order Finite Volume Scheme with Adaptive Stencil Construction:Basics for the 1D Steady-State Hyperbolic Equations
4
作者 Gaspar J.Machado Stéphane Clain Raphaël Loubère 《Communications on Applied Mathematics and Computation》 2023年第2期751-775,共25页
We propose an adaptive stencil construction for high-order accurate finite volume schemes a posteriori stabilized devoted to solve one-dimensional steady-state hyperbolic equations.High accuracy(up to the sixth-order ... We propose an adaptive stencil construction for high-order accurate finite volume schemes a posteriori stabilized devoted to solve one-dimensional steady-state hyperbolic equations.High accuracy(up to the sixth-order presently)is achieved,thanks to polynomial recon-structions while stability is provided with an a posteriori MOOD method which controls the cell polynomial degree for eliminating non-physical oscillations in the vicinity of dis-continuities.We supplemented this scheme with a stencil construction allowing to reduce even further the numerical dissipation.The stencil is shifted away from troubles(shocks,discontinuities,etc.)leading to less oscillating polynomial reconstructions.Experimented on linear,Burgers',and Euler equations,we demonstrate that the adaptive stencil technique manages to retrieve smooth solutions with optimal order of accuracy but also irregular ones without spurious oscillations.Moreover,we numerically show that the approach allows to reduce the dissipation still maintaining the essentially non-oscillatory behavior. 展开更多
关键词 Finite volume MOOD Adaptive stencil Steady-state solution Euler equations High order
下载PDF
高阶精度非线性加权格式权函数研究综述
5
作者 毛枚良 白进维 +2 位作者 闵耀兵 马燕凯 江定武 《空气动力学学报》 CSCD 北大核心 2024年第6期1-14,I0001,共15页
在简述用于捕捉间断的非线性格式发展历程的基础上,依托五阶精度WENO格式,介绍了非线性加权格式在候选模板集选取、光滑度指标计算方法及其与非线性权的函数关系等方面做出的努力。对于非等宽候选模板集的情况,给出了保证非线性加权格... 在简述用于捕捉间断的非线性格式发展历程的基础上,依托五阶精度WENO格式,介绍了非线性加权格式在候选模板集选取、光滑度指标计算方法及其与非线性权的函数关系等方面做出的努力。对于非等宽候选模板集的情况,给出了保证非线性加权格式精度的非线性权的量阶关系,强调了光滑度指标计算方法对格式精度和效率的重要性,提出了进一步开展多宽度模板集非线性加权格式研究的建议。 展开更多
关键词 高阶精度非线性格式 非线性加权方法 极值点降阶问题 非等宽候选模板集 计算流体力学
下载PDF
模板运算代码的自动生成与调优框架
6
作者 刘金硕 文尧 《计算机工程》 CAS CSCD 北大核心 2024年第6期35-47,共13页
针对现有模板代码生成方法不支持多图形处理器(GPU)、调优不充分等问题,提出一种由领域专用语言(DSL)描述的模板代码的自动生成与调优框架。在代码自动生成阶段,该框架能够自动解析上层提供的描述语言,构建计算图进而生成模板运算的统... 针对现有模板代码生成方法不支持多图形处理器(GPU)、调优不充分等问题,提出一种由领域专用语言(DSL)描述的模板代码的自动生成与调优框架。在代码自动生成阶段,该框架能够自动解析上层提供的描述语言,构建计算图进而生成模板运算的统一计算设备架构(CUDA)核函数,同时根据单GPU或多GPU环境生成不同的主机端代码。在代码调优阶段,根据不同的GPU型号确定候选参数范围,动态调用生成的CUDA核函数以确定最优参数。在多GPU的情况下,自动生成的主机端代码能够使用计算与通信重叠的方法进行边界数据交换。在4种不同的GPU与7、13、19、27点模板运算中,该框架能找到最优的参数配置。实验结果表明,对于Tesla V100-SXM2,以调优过的参数进行模板运算,该框架在单精度4种模板运算下的每秒万亿次浮点运算数(TFLOPs)分别为1.230、1.680、1.120、1.480,在双精度下分别为0.690、1.010、0.480、1.470,平均性能达到手工优化代码的98%,并且描述更简单,支持多GPU扩展。 展开更多
关键词 模板运算 统一计算设备架构 计算图 领域专用语言 代码生成 自动调优
下载PDF
采用重组模板的权重优化WENO-Z格式
7
作者 柴得林 王强 +1 位作者 易贤 刘宇 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期187-197,共11页
针对精确模拟含激波等复杂流动结构的流场对高精度格式的低耗散低色散要求,基于5阶有限差分WENO-Z格式,提出一种模板重组技术。在计算WENO非线性权时,引入一个由3点模板重新组合的4点模板,优化原格式中各模板的权重分配,进而提出了两种... 针对精确模拟含激波等复杂流动结构的流场对高精度格式的低耗散低色散要求,基于5阶有限差分WENO-Z格式,提出一种模板重组技术。在计算WENO非线性权时,引入一个由3点模板重新组合的4点模板,优化原格式中各模板的权重分配,进而提出了两种改进WENO-Z格式。采用近似色散关系分析方法对改进前后格式色散与耗散特性进行了对比与分析。分析表明:两种改进格式耗散有不同程度的降低。数值实验表明:改进格式具有更优越的激波捕捉性能,对小尺度流场结构具有更高的分辨率。 展开更多
关键词 模板重组 权重 WENO格式
下载PDF
Poisson方程有限差分逼近的两种保对称Stencil消元格式
8
作者 李厚彪 刘兴平 +2 位作者 谷同祥 黄廷祝 李红 《计算物理》 EI CSCD 北大核心 2010年第3期335-341,共7页
针对已有Stencil差分格式的非对称性,提出两种保对称的Stencil边界消元策略,获得一组具有对称正定性的差分方程.此方程系数矩阵比经典的五点差分Jacobi矩阵条件数减少了7/9,并且特征值更加聚集.理论分析和数值试验皆表明其优于已有的非... 针对已有Stencil差分格式的非对称性,提出两种保对称的Stencil边界消元策略,获得一组具有对称正定性的差分方程.此方程系数矩阵比经典的五点差分Jacobi矩阵条件数减少了7/9,并且特征值更加聚集.理论分析和数值试验皆表明其优于已有的非对称格式,具有更广的使用价值. 展开更多
关键词 POISSON方程 stencil消元 差分 对称
下载PDF
使用Stencil评估Intel AVX2 Vgather指令
9
作者 林新华 秦强 +2 位作者 李硕 文敏华 松岗聪 《计算机科学》 CSCD 北大核心 2017年第1期20-24,共5页
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方... 为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。 展开更多
关键词 AVX2 vgather指令 stencil 性能评估
下载PDF
求解双曲守恒律的修正模板近似的五阶WENO格式
10
作者 郭城 王亚辉 《计算力学学报》 CAS CSCD 北大核心 2024年第3期564-571,共8页
针对经典的五阶加权本质无振荡(WENO)格式在间断附近耗散过大以及临界点不能保精度的问题,本文提出了一种新的修正模板近似方法。改进了经典五阶WENO-JS格式中各候选子模板上数值通量的二阶多项式逼近,通过加入三次修正项使模板逼近达... 针对经典的五阶加权本质无振荡(WENO)格式在间断附近耗散过大以及临界点不能保精度的问题,本文提出了一种新的修正模板近似方法。改进了经典五阶WENO-JS格式中各候选子模板上数值通量的二阶多项式逼近,通过加入三次修正项使模板逼近达到四阶精度,并且通过引入可调函数φ使得新的格式具有ENO性质,理论分析新的格式具有保精度特性,通过一系列数值算例说明了新格式的高效性。 展开更多
关键词 双曲守恒律 WENO 修正模板 非线性权
下载PDF
The Nature of Inertia Explained Using the Field Theory
11
作者 Branko Kovac 《Journal of High Energy Physics, Gravitation and Cosmology》 CAS 2024年第2期726-748,共23页
Analysis of free fall and acceleration of the mass on the Earth shows that using abstract entities such as absolute space or inertial space to explain mass dynamics leads to the violation of the principle of action an... Analysis of free fall and acceleration of the mass on the Earth shows that using abstract entities such as absolute space or inertial space to explain mass dynamics leads to the violation of the principle of action and reaction. Many scientists including Newton, Mach, and Einstein recognized that inertial force has no reaction that originates on mass. Einstein calls the lack of reaction to the inertial force a serious criticism of the space-time continuum concept. Presented is the hypothesis that the inertial force develops in an interaction of two masses via the force field. The inertial force created by such a field has reaction force. The dynamic gravitational field predicted is strong enough to be detected in the laboratory. This article describes the laboratory experiment which can prove or disprove the hypothesis of the dynamic gravitational field. The inertial force, calculated using the equation for the dynamic gravitational field, agrees with the behavior of inertial force observed in the experiments on the Earth. The movement of the planets in our solar system calculated using that equation is the same as that calculated using Newton’s method. The space properties calculated by the candidate equation explain the aberration of light and the results of light propagation experiments. The dynamic gravitational field can explain the discrepancy between the observed velocity of stars in the galaxy and those predicted by Newton’s theory of gravitation without the need for the dark matter hypothesis. 展开更多
关键词 GRAVITATION Gravitational Fields non-standard Theories of Gravity INERTIA
下载PDF
微型电声器件贴装工艺及应用
12
作者 陈春年 《电子工艺技术》 2024年第2期59-62,共4页
由于微型电声器件制作的过程特殊性及工艺难点,对产品质量管控、SMT环境及装联工艺带来了挑战。为解决此问题,通过技术攻关、工艺研究,总结出了一套微型电声器件装联工艺,提升了产品质量,满足了客户要求。
关键词 PCB 钢网 助焊剂 可靠性
下载PDF
面向SW26010处理器的三维Stencil自适应分块参数算法 被引量:2
13
作者 朱雨 庞建民 +2 位作者 徐金龙 陶小涵 王军 《计算机科学》 CSCD 北大核心 2021年第6期10-18,共9页
Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术。针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的问题,引入时间分块,提出了面向SW26010处理器的三维Stencil自... Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术。针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的问题,引入时间分块,提出了面向SW26010处理器的三维Stencil自适应分块参数算法。通过建立性能分析模型,结合硬件计算能力及存储容量等限制因素,文中系统地分析了分块参数对模型性能的影响,判断性能瓶颈,指导分块参数的优化方向。基于性能分析模型,自适应分块参数算法可给出预测性能最优时的分块参数,有利于三维Stencil在SW26010处理器上的快速优化部署。选取了三维7点和三维27点Stencil算例进行实验。与未使用时间分块的三维Stencil优化相比,以上两个算例在自适应选择的分块参数下可以达到1.47和1.29的加速比,且实际最优分块参数与理论最佳分块参数一致,这验证了所提性能分析模型及自适应分块参数算法的有效性。 展开更多
关键词 三维stencil计算 SW26010 分块大小 性能分析模型
下载PDF
基于空间密铺的并行Stencil算法 被引量:3
14
作者 郭鹏 袁良 +1 位作者 张云泉 黄珊 《计算机科学与探索》 CSCD 北大核心 2019年第2期181-194,共14页
Stencil计算是一种科学和工程应用中常见的循环模式,而分块技术是一种提高数据局部性和并行性的强大转换方法。与以往直接对整个迭代空间进行分块的分块技术不同,提出了一种新的两层密铺分块的并行算法。首先,利用不同分块密铺数据空间... Stencil计算是一种科学和工程应用中常见的循环模式,而分块技术是一种提高数据局部性和并行性的强大转换方法。与以往直接对整个迭代空间进行分块的分块技术不同,提出了一种新的两层密铺分块的并行算法。首先,利用不同分块密铺数据空间;然后,所有分块沿时间维度扩展密铺迭代空间。该算法有以下优点:(1)最大化并发执行;(2)无冗余计算;(3)简洁的循环条件;(4)适应Stencil不同的尺寸、形状、阶数和边界条件。实验结果表明,对于3D27p Stencil,非周期边界的性能比Pluto高12%,周期边界的性能比Pochoir最高提升40%。 展开更多
关键词 stencil计算 空间密铺 分块方法
下载PDF
模版涂鸦的创作逻辑和社会功能
15
作者 董敖 《丝网印刷》 2024年第17期44-46,共3页
基于模版涂鸦技术的特殊性,分析其技术特征和创作路径,结合涂鸦案例提出此种艺术行为是为社会边缘群体发声的替代性实践,模版涂鸦特有的的复数性、间接性、符号性,让艺术表达更加广泛、深刻、直接。
关键词 模版涂鸦 版画 技术 艺术实践
下载PDF
LGA焊接工艺研究
16
作者 杨绪瑶 《电子质量》 2024年第3期87-91,共5页
随着电子制造业的发展,栅格阵列封装(LGA)封装越来越多地应用在各种电子产品上。由于其扁平式、无预上焊料的结构,非常容易造成焊接后焊点空洞过大,进而影响其焊接的可靠性。LGA焊点空洞在所有贴装类型元件中相对较难控制,如何减少LGA... 随着电子制造业的发展,栅格阵列封装(LGA)封装越来越多地应用在各种电子产品上。由于其扁平式、无预上焊料的结构,非常容易造成焊接后焊点空洞过大,进而影响其焊接的可靠性。LGA焊点空洞在所有贴装类型元件中相对较难控制,如何减少LGA焊接空洞成为当前表面贴装(SMT)行业的难题之一。主要从采用不同锡膏、不同钢网开孔和不同回流焊接曲线等3个方面,探讨了不同的工艺手段对焊接空洞的影响,以及如何优化焊接工艺以减少LGA元件的空洞。 展开更多
关键词 栅格阵列封装 钢网开孔 炉温曲线 空洞 焊接工艺
下载PDF
新赛道 新商机 新希望——变化中的网版与新赛道网版(十二)
17
作者 熊祥玉 杨虎祥 《丝网印刷》 2024年第16期17-21,共5页
随着电路组装密度的不断提高和再流焊接技术的广泛应用,以及绿色组装、绿色网版印刷概念的兴起,SMT技术对焊膏也不断有新的要求,作为网版印刷技术中的漏版也具有了新的变化,激光切割的钢版或P1漏版以及以电化学方法生成的电铸钢(镍)版... 随着电路组装密度的不断提高和再流焊接技术的广泛应用,以及绿色组装、绿色网版印刷概念的兴起,SMT技术对焊膏也不断有新的要求,作为网版印刷技术中的漏版也具有了新的变化,激光切割的钢版或P1漏版以及以电化学方法生成的电铸钢(镍)版应时而出。 展开更多
关键词 SMT技术 漏版 焊膏 镂空版印刷
下载PDF
一种基于空间密铺的星型Stencil并行算法
18
作者 曹杭 袁良 +4 位作者 黄珊 张云泉 徐勇军 陆鹏起 张广婷 《计算机研究与发展》 EI CSCD 北大核心 2020年第12期2621-2634,共14页
Stencil计算(模板计算)是科学工程应用中一类常见的嵌套循环算法.分块方法是提高数据局部性和并行性的高效优化技术之一,目前已有大量针对分块方法的探索,但现有工作往往对不同Stencil形状都采用同一处理方法.首先在空间层面引出“自然... Stencil计算(模板计算)是科学工程应用中一类常见的嵌套循环算法.分块方法是提高数据局部性和并行性的高效优化技术之一,目前已有大量针对分块方法的探索,但现有工作往往对不同Stencil形状都采用同一处理方法.首先在空间层面引出“自然块”的概念来区分星型Stencil和盒型Stencil的特征,然后提出一个新的针对星型Stencil的2层密铺方案,此方案中自然块和它的后继块可以密铺数据空间区域,这些分块沿着时间维度扩展,能够密铺整个迭代空间.此外,针对星型Stencil设计了一个新颖的“2次更新”优化技术,改善了核内数据重用模式.理论分析表明:此方案相比现有方法有更低的缓存复杂度,实验结果证实了此方案的有效性. 展开更多
关键词 stencil计算 密铺 星型stencil 盒型stencil 自然块
下载PDF
红黑Gauss-Seidel Stencil并行性和局部性优化
19
作者 纪璎芮 袁良 张云泉 《计算机科学》 CSCD 北大核心 2022年第5期363-370,共8页
Stencil(模版计算)是一类常见的循环嵌套计算模式,被广泛应用于计算电磁、天气模拟、地球物理、海洋模拟等许多科学和工程模拟应用中。随着现代处理器体系结构的发展,多核和多层存储层次不断加深,研究并行性和局部性成为了提高程序运行... Stencil(模版计算)是一类常见的循环嵌套计算模式,被广泛应用于计算电磁、天气模拟、地球物理、海洋模拟等许多科学和工程模拟应用中。随着现代处理器体系结构的发展,多核和多层存储层次不断加深,研究并行性和局部性成为了提高程序运行速度的主要途径。分块是开发数据局部性和程序并行性的主要技术之一,目前,针对Stencil已提出了大量高效分块和向量化方法,但大多局限于具有较高并行度的Jacobi类型的Stencil。Gauss-Seidel Stencil具有更优的收敛速度,被广泛应用于多重网格的计算中。这类Stencil的数据依赖更为复杂,文中面向红黑排序的Gauss-Seidel Stencil设计了一种并行分块和向量化算法,提升了Gauss-Seidel Stencil的数据局部性、中粒度多核并行性以及核内细粒度并行性。实验结果证实了本文方案的有效性。 展开更多
关键词 stencil计算 分块 GAUSS-SEIDEL
下载PDF
热传导方程有限差分逼近的数学Stencil及其新型迭代格式
20
作者 张守慧 王文洽 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第6期24-31,共8页
将Stencil应用于偏微分方程有限元差分逼近过程,以两类差分格式为基础建立了求解热传导方程的两种新型迭代算法.此两种算法与经典的Jacobi方法同样具有并行的性质,但比Jacobi方法收敛快.给出的算例说明方法的适用性.
关键词 热传导方程 有限差分逼近 迭代法 数学stencil 并行性
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部