期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
LUNF——基于节点失效特征的机群作业调度策略 被引量:4
1
作者 武林平 孟丹 +2 位作者 梁毅 涂碧波 王磊 《计算机研究与发展》 EI CSCD 北大核心 2005年第6期1000-1005,共6页
良好的可扩展性使得人们可通过扩大机群系统的规模来达到所需要的计算能力,但随着机群系统节点数目的增多,节点失效对机群系统性能的影响已经成为大规模机群系统使用过程中一个不可回避的问题.机群作业调度作为机群操作系统软件的重要... 良好的可扩展性使得人们可通过扩大机群系统的规模来达到所需要的计算能力,但随着机群系统节点数目的增多,节点失效对机群系统性能的影响已经成为大规模机群系统使用过程中一个不可回避的问题.机群作业调度作为机群操作系统软件的重要组成部分,完成高效资源管理与合理作业调度,机群作业调度系统功能上可分为作业选取策略和节点分配策略两部分.结合机群系统节点失效的特征,提出了正常运行时间最长节点优先(longestuptimenodefirst,LUNF)的节点分配策略.仿真结果表明,相对于节点随机分配策略,LUNF策略的作业平均响应时间与作业平均slowdown降低10%左右. 展开更多
关键词 机群系统 节点失效 作业调度 节点分配 LUNF
下载PDF
系统噪音影响的量化分析 被引量:4
2
作者 武林平 魏勇 +1 位作者 徐小文 刘旭 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1146-1152,共7页
尽管系统噪音对单个进程的影响有限,但对于大规模并行程序性能的影响不容忽视.提出一种基于并行程序计算-通信特征的噪音影响定量评估方法FWQ-MPI,并给出噪音影响的4个量化指标.选取求解稀疏线性代数方程组的3种迭代方法作为研究对象... 尽管系统噪音对单个进程的影响有限,但对于大规模并行程序性能的影响不容忽视.提出一种基于并行程序计算-通信特征的噪音影响定量评估方法FWQ-MPI,并给出噪音影响的4个量化指标.选取求解稀疏线性代数方程组的3种迭代方法作为研究对象,抽取迭代方法的计算、同步通信特征形成微测试程序;在实际系统上的测试数据明确了系统噪音对并行程序性能的影响机理,并得到系统噪音对并行程序性能影响的若干规律:1)BSP并行程序运行过程中,系统噪音量比例不大,约为2%~6%;2)但系统噪音对BSP并行程序的性能有着较大的影响(当并行规模在1024,2048,4096时,噪音影响比例约为30%~70%);3)其影响随着并行程序规模的扩大而增加,随着2次同步通信间隔内计算量的增加而降低;4)系统噪音的影响主要体现在BSP并行程序的“实际计算通信时间比”要远小于“理想计算通信时间比”. 展开更多
关键词 系统噪音 系统噪音影响 量化分析 负载平衡 数值模拟 并行程序
下载PDF
大规模计算系统故障特征及容错机制分析 被引量:3
3
作者 武林平 罗红兵 刘勇鹏 《计算机工程与科学》 CSCD 北大核心 2009年第A01期237-240,共4页
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系... 本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。 展开更多
关键词 大规模计算系统 故障 容错 断点续算
下载PDF
MPI并行程序中通信等待问题的诊断方法及其应用 被引量:1
4
作者 武林平 景翠萍 +1 位作者 刘旭 田鸿运 《国防科技大学学报》 EI CAS CSCD 北大核心 2020年第2期47-54,共8页
随着并行规模的扩大,现有通信等待问题的诊断方法存在内存开销大、测量时间开销大等问题。通过对现有通信等待问题诊断方法的深入分析,同时考虑测量开销可控的实际需求,建立基于热点函数的通信等待问题诊断模型。基于上述模型,总结出一... 随着并行规模的扩大,现有通信等待问题的诊断方法存在内存开销大、测量时间开销大等问题。通过对现有通信等待问题诊断方法的深入分析,同时考虑测量开销可控的实际需求,建立基于热点函数的通信等待问题诊断模型。基于上述模型,总结出一种更精简、更实用的通信等待问题诊断方法。将该诊断方法分别应用到二维LARED集成、LARED-S、LAP3D等大规模MPI并行程序的通信等待问题诊断过程,应用效果表明本诊断方法可精确定位导致通信等待问题的关键代码段,给出的优化方案及性能提升空间对于后续的程序改进具有参考价值,其中根据诊断结果优化后的LARED-S程序性能提升32%,通信等待时间减少44%。 展开更多
关键词 通信等待 MPI并行程序 负载平衡 性能诊断
下载PDF
迭代方法中基于渐近规模的通信与计算比分析 被引量:6
5
作者 徐小文 莫则尧 武林平 《计算机学报》 EI CSCD 北大核心 2013年第4期782-789,共8页
迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法.大量实际应用表明,迭代方法通常具有较高的通信与计算比,只有在粗粒度并行下才能取得较好的并行可扩展性能.而实际应用大规模计算的需求和当前多核/众核体系结构的发展... 迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法.大量实际应用表明,迭代方法通常具有较高的通信与计算比,只有在粗粒度并行下才能取得较好的并行可扩展性能.而实际应用大规模计算的需求和当前多核/众核体系结构的发展趋势要求迭代方法具备细粒度并行可扩展能力.文中引入渐近规模,即满足加速条件的计算规模下界,来反映并行迭代方法适应细粒度并行的能力,并由此刻画通信与计算比.基于矩阵的稀疏模式及其通信模式、机器的通信参数和迭代方法的基本运算,给出了渐近规模的理论预测公式.在一台包含128个双路4核计算节点的并行机上,分别基于纯进程并行(MPI)和进程/线程混合并行(MPI/OpenMP),以实际应用中3种常用迭代方法Jacobi、CG、BiCGSTAB为例,分析其渐近规模.并行可扩展性测试表明了渐近规模用于刻画迭代方法通信与计算比的准确性.对于纯进程情形,给出了渐近规模的理论预测与实际测试的对比,表明了理论预测结果的正确性.最后,基于这些结果,从迭代方法的算法设计和并行实现等方面讨论了面向未来更大规模的计算系统,降低通信与计算比的途径. 展开更多
关键词 迭代方法 通信与计算比 并行可扩展 渐近规模 多核 众核体系结构
下载PDF
科学计算应用程序单核指令级优化研究 被引量:4
6
作者 罗红兵 张晓霞 +1 位作者 王伟 武林平 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1263-1269,共7页
尽管高性能计算机性能提升越来越快,但科学计算应用程序获得同步的性能提升是很困难的.提高科学计算应用程序的执行性能,需要依照高性能计算机体系结构的特点进行针对性的优化,其中单核指令级优化是科学计算应用程序性能优化的重要方面... 尽管高性能计算机性能提升越来越快,但科学计算应用程序获得同步的性能提升是很困难的.提高科学计算应用程序的执行性能,需要依照高性能计算机体系结构的特点进行针对性的优化,其中单核指令级优化是科学计算应用程序性能优化的重要方面之一.以基于JASMIN(J adaptive structured meshes applications infrastructure)框架实现的Euler程序为例,探讨了科学计算应用程序在Intel Xeon微处理器平台上的具体性能问题和指令级并行性能优化方法,并较大幅度地优化了Euler程序的单核性能.程序优化后,二维和三维两个物理模型计算的总运行时间比优化前减少了21%~34%,核心模块Gas1dapproxy的执行时间缩短了50%以上.性能优化实验表明:流水线效率已成为影响科学计算类实际应用程序计算效率的重要因素,需要通过降低计算语句的依赖度、减少长延迟计算数量等方法予以改进. 展开更多
关键词 性能分析 性能优化 XEON 指令级优化 科学计算程序
下载PDF
基于JASMIN框架多物理耦合程序的性能优化及分析 被引量:6
7
作者 任健 武林平 申卫东 《计算物理》 CSCD 北大核心 2015年第4期431-436,共6页
基于并行应用支撑软件框架JASMIN的辐射流体与粒子输运耦合程序RHSn2D,采用最小邦元固定处理器数目的并行策略,计算实际模型的并行规模扩展至8 192核,并行效率约为16%.集成程序时间分析,验证软件框架底层MPI并行环境聚合通信对于并行优... 基于并行应用支撑软件框架JASMIN的辐射流体与粒子输运耦合程序RHSn2D,采用最小邦元固定处理器数目的并行策略,计算实际模型的并行规模扩展至8 192核,并行效率约为16%.集成程序时间分析,验证软件框架底层MPI并行环境聚合通信对于并行优化算法(尤其是辐射流体计算时间)的影响. 展开更多
关键词 多物理耦合 并行计算 性能优化 RHSn2D程序 并行软件支撑框架JASMIN
下载PDF
高性能计算中处理器功耗特征的评测与分析 被引量:1
8
作者 刘勇鹏 卢凯 +2 位作者 刘勇燕 武林平 陈娟 《计算机工程与科学》 CSCD 北大核心 2009年第11期102-105,共4页
高性能计算系统的系统结构和应用模式与单机系统或商用机群服务器系统都有很大的不同,掌握功耗特征是提高能效的前提。本文将支撑功耗管理的低功耗技术分为动态资源休眠和动态速率调节两类,并就处理器的这两类机制在高性能计算中的应用... 高性能计算系统的系统结构和应用模式与单机系统或商用机群服务器系统都有很大的不同,掌握功耗特征是提高能效的前提。本文将支撑功耗管理的低功耗技术分为动态资源休眠和动态速率调节两类,并就处理器的这两类机制在高性能计算中的应用进行评测,验证了功耗管理在高性能计算中的有效性,量化分析了处理器功耗特征,指出了当前管理方案的不足及改进设想,对进一步能耗优化有重要的指导意义。 展开更多
关键词 高性能计算 功耗管理 处理器 动态资源休眠 动态速率调节
下载PDF
SSTD:基于栈帧分析的可扩展并行程序调试工具
9
作者 蒋杰 方力 +2 位作者 卢凯 刘杰 武林平 《计算机工程与科学》 CSCD 北大核心 2013年第4期8-13,共6页
设计了一个基于栈帧分析的可扩展并行调试工具SSTD,在并行程序异常退出时获取进程栈帧信息,辅助用户快速定位程序故障,提高调试效率。详细讨论了SSTD系统架构以及可扩展通信结构、进程等价类划分等关键技术。
关键词 并行调试 栈帧分析 可扩展
下载PDF
超级计算机作业运行稳定性分析
10
作者 罗红兵 曹小林 +2 位作者 曹立强 武林平 莫则尧 《计算机工程与科学》 CSCD 北大核心 2009年第11期91-93,105,共4页
通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系... 通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系统故障而中止。考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时。最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议。 展开更多
关键词 超级计算机 并行作业 稳定性
下载PDF
基于硬件事件的并行程序指令级性能模型与应用
11
作者 罗红兵 武林平 《计算机工程与科学》 CSCD 北大核心 2013年第11期175-181,共7页
当前,应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势,许多实际应用程序的性能通常只能达到机器峰值性能的5%~10%,甚至更低,如何优化并行应用成为高性能计算领域关注的焦点.从如何利用硬件事件进行程序指令级优化入... 当前,应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势,许多实际应用程序的性能通常只能达到机器峰值性能的5%~10%,甚至更低,如何优化并行应用成为高性能计算领域关注的焦点.从如何利用硬件事件进行程序指令级优化入手,提出一种基于硬件事件的性能模型,揭示出程序性能与程序特征、微处理器特征的关系.基于该性能模型,在Intel Xeon微处理器平台上对Euler等程序进行优化,gas1dapproxy等性能热点模块的执行时间可以缩短12%~61%.性能优化实验表明:使用该性能模型可以降低用户进行指令级并行性能优化的难度,指导用户选择正确的性能优化方向. 展开更多
关键词 性能分析 性能优化 性能模型 指令级并行
下载PDF
面向大规模集群的并行I/O用户层配置优化策略 被引量:5
12
作者 田鸿运 武林平 +3 位作者 董勇 景翠萍 罗红兵 莫则尧 《国防科技大学学报》 EI CAS CSCD 北大核心 2020年第2期23-30,共8页
影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性... 影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性能特征测试分析方法。基于该方法,在某国产超级计算集群上开展了一系列I/O测试分析来刻画系统的I/O性能特征,进而指导并行应用程序的I/O配置优化。基于优化后的配置参数,在两类典型的并行I/O场景中,针对某类生产应用程序,8192进程下的重启动数据写操作时间下降了15%,4096核的程序作业加载时间从10 min缩短到了5 s。 展开更多
关键词 并行I/O优化策略 LUSTRE文件系统 大规模集群 传输数据量 条带数
下载PDF
一种面向构件化并行应用程序的性能骨架分析方法 被引量:1
13
作者 傅天豪 田鸿运 +4 位作者 金煜阳 杨章 翟季冬 武林平 徐小文 《计算机科学》 CSCD 北大核心 2021年第6期1-9,共9页
性能骨架分析技术通过刻画并行应用程序的程序结构,为并行应用程序性能建模提供输入,是大规模并行应用程序性能分析、性能优化的基础。文中针对数值模拟领域中的一类构件化并行应用程序,在面向通用程序二进制文件的动静态结构分析技术... 性能骨架分析技术通过刻画并行应用程序的程序结构,为并行应用程序性能建模提供输入,是大规模并行应用程序性能分析、性能优化的基础。文中针对数值模拟领域中的一类构件化并行应用程序,在面向通用程序二进制文件的动静态结构分析技术的基础上,提出并实现了一种基于"构件-循环-调用"关系树(Component-Loop-Call-Tree, CLCT)的程序结构自动化生成方法,在此基础上,研制了一种面向构件化并行应用程序的性能骨架分析工具(CLCT SkeleTon Analysis Toolkit, CLCT-STAT)。该方法可以自动识别构件化应用程序中构件类成员函数符号,生成以构件为最小单位的并行应用程序性能骨架。在多个构件化并行应用程序上的测试表明,相比分析建模手动生成性能骨架的方法,所提方法不仅能提供更丰富的程序结构信息,还可以节约人工分析的时间成本。 展开更多
关键词 并行计算构件 性能骨架 “构件-循环-调用”关系树 CLCT-STAT
下载PDF
检查点系统中进程地址空间的优化存储策略
14
作者 李艳红 孟丹 +1 位作者 周应超 武林平 《计算机工程与应用》 CSCD 北大核心 2005年第29期94-96,113,共4页
机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升。节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大量的作业无法完成。检查点系统为节点提供了较好的容错性能,因此成为机群操作系统... 机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升。节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大量的作业无法完成。检查点系统为节点提供了较好的容错性能,因此成为机群操作系统软件的重要组成部分。进程的地址空间是检查点系统需要记录的一部分重要内容,对它的存储效率直接影响检查点操作的性能。论文提出了两种检查点系统中进程地址空间的优化存储策略。其中组合式检查点文件写策略解决了并发写机制在应用内存接近物理内存时的性能突降问题,A-O(Access-Order)进程地址空间存储策略调整传统地址空间的存储顺序,使大内存应用的检查点操作性能得到了大幅度提升。在实验中,A-O进程地址空间存储策略最高可以将传统的存储策略的时间开销缩减至原来的50%。 展开更多
关键词 机群系统 节点失效 检查点系统 存储策略
下载PDF
基于作业记账日志的并行作业特征分析工具JobCAT
15
作者 田鸿运 刘旭 +2 位作者 武林平 罗红兵 莫则尧 《国防科技大学学报》 EI CAS CSCD 北大核心 2022年第5期63-70,共8页
并行作业特征分析是负载分析的重要基础。作业记账日志是开展作业特征分析的重要数据源。由于作业记账日志中没有记录应用名称,现有工具无法按应用名称开展作业特征分析。提出基于关键字模糊匹配的作业记账日志标记方法,设计通用的作业... 并行作业特征分析是负载分析的重要基础。作业记账日志是开展作业特征分析的重要数据源。由于作业记账日志中没有记录应用名称,现有工具无法按应用名称开展作业特征分析。提出基于关键字模糊匹配的作业记账日志标记方法,设计通用的作业数据模型和柔性可扩展软件架构,集成实现并行作业特征分析工具JobCAT。通过某超级计算机系统百万量级作业记账日志数据测试验证,JobCAT的作业记账日志标记率大于95%。JobCAT支持7个插件、29项统计报表,可一键生成应用的作业特征分析报告,对负载分析研究具有实用价值。 展开更多
关键词 负载分析 作业记账日志 作业特征分析工具 超级计算机
下载PDF
大规模计算系统的主动故障管理方法 被引量:5
16
作者 武林平 罗红兵 +1 位作者 艾志玮 沈岳 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第S1期20-24,共5页
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的... 为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量. 展开更多
关键词 大规模计算系统 中国国家网格 故障隔离 主动故障管理
原文传递
集群系统运行状态监控软件设计 被引量:2
17
作者 武林平 张晓霞 +1 位作者 王伟 罗红兵 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S1期148-152,共5页
结合现有监控方法,设计并实现了一种针对集群系统关键部件的多层次、集中式监控软件.该软件的监控状态参数丰富,涵盖了部件的物理状态、节点的负载状态、节点的事件信息状态和数字电路逻辑状态这4大类运行状态;其状态数据使用数据库集... 结合现有监控方法,设计并实现了一种针对集群系统关键部件的多层次、集中式监控软件.该软件的监控状态参数丰富,涵盖了部件的物理状态、节点的负载状态、节点的事件信息状态和数字电路逻辑状态这4大类运行状态;其状态数据使用数据库集中存储,便于历史数据的检索与分析;状态数据具有统一时钟,能够再现集群系统历史某时刻的运行时场景.在实际系统上的运行结果表明:基于该软件实现的故障在线自动处理机制能够提高系统运行稳定性及作业的成功率. 展开更多
关键词 集群系统 稳定性 资源管理 状态监控 故障在线自动处理
原文传递
提高集群系统稳定性的自动化管理方法 被引量:1
18
作者 魏勇 邢莉 +1 位作者 武林平 罗红兵 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S1期144-147,共4页
为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;... 为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率. 展开更多
关键词 故障自动管理 中国国家网格 集群系统 稳定性 主动容错
原文传递
基于预算的资源管理模型
19
作者 罗红兵 王伟 +1 位作者 张晓霞 武林平 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S1期125-129,共5页
针对现有批作业系统中的资源管理方式在资源使用公平性和合理性、作业服务质量(QoS)与实际需求存在较大差距的问题,提出一种基于经济学原理的资源管理模型——BB-RAM模型.模型通过预算机制来实现对计算资源管理和使用的宏观控制,最终达... 针对现有批作业系统中的资源管理方式在资源使用公平性和合理性、作业服务质量(QoS)与实际需求存在较大差距的问题,提出一种基于经济学原理的资源管理模型——BB-RAM模型.模型通过预算机制来实现对计算资源管理和使用的宏观控制,最终达到资源使用最优化和保证作业服务质量的目的.基于实际作业流的仿真结果表明该模型的作业调度的作业延误率、效益值等QoS指标,以及平均响应时间等传统评价指标都优于传统调度策略. 展开更多
关键词 高性能计算机 资源管理 并行作业调度 经济模型 预算机制
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部