期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
FTRP:a new fault tolerance framework using process replication and prefetching for high-performance computing
1
作者 Wei HU Guang-ming LIU Yan-huang JIANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2018年第10期1273-1290,共18页
As the scale of supercomputers rapidly grows, the reliability problem dominates the system availability. Existing fault tolerance mechanisms, such as periodic checkpointing and process redundancy, cannot effectively f... As the scale of supercomputers rapidly grows, the reliability problem dominates the system availability. Existing fault tolerance mechanisms, such as periodic checkpointing and process redundancy, cannot effectively fix this problem. To address this issue, we present a new fault tolerance framework using process replication and prefetching (FTRP), combining the benefits of proactive and reactive mechanisms. FTRP incorporates a novel cost model and a new proactive fault tolerance mechanism to improve the application execution efficiency. The novel cost model, called the 'work-most' (WM) model, makes runtime decisions to adaptively choose an action from a set of fault tolerance mechanisms based on failure prediction results and application status. Similar to program locality, we observe the failure locality phenomenon in supercomputers for the first time. In the new proactive fault tolerance mechanism, process replication with process prefetching is proposed based on the failure locality, significantly avoiding losses caused by the failures regardless of whether they have been predicted. Simulations with real failure traces demonstrate that the FTRP framework outperforms existing fault tolerance mechanisms with up to 10% improvement in application efficiency for common failure prediction accuracy, and is effective for petascale systems and beyond. 展开更多
关键词 high-performance computing PROACTIVE fault tolerance Failure LOCALITY PROCESS REPLICATION PROCESS PREFETCHING
原文传递
Software approaches for resilience of high performance computing systems:a survey
2
作者 Jie JIA Yi LIU +2 位作者 Guozhen ZHANG Yulin GAO Depei QIAN 《Frontiers of Computer Science》 SCIE EI CSCD 2023年第4期43-56,共14页
With the scaling up of high-performance computing systems in recent years,their reliability has been descending continuously.Therefore,system resilience has been regarded as one of the critical challenges for large-sc... With the scaling up of high-performance computing systems in recent years,their reliability has been descending continuously.Therefore,system resilience has been regarded as one of the critical challenges for large-scale HPC systems.Various techniques and systems have been proposed to ensure the correct execution and completion of parallel programs.This paper provides a comprehensive survey of existing software resilience approaches.Firstly,a classification of software resilience approaches is presented;then we introduce major approaches and techniques,including checkpointing,replication,soft error resilience,algorithmbased fault tolerance,fault detection and prediction.In addition,challenges exposed by system-scale and heterogeneous architecture are also discussed. 展开更多
关键词 RESILIENCE high-performance computing fault tolerance CHALLENGE
原文传递
云计算环境下舰船控制系统大数据有效存储方法 被引量:1
3
作者 王颖 《舰船科学技术》 北大核心 2023年第13期170-173,共4页
船舶控制系统大数据存储节点数量较多,节点分布不均,影响负载均衡性,导致数据存储过程中存在安全性与容错性差等问题,为此研究云计算环境下舰船控制系统大数据有效存储方法。构建云计算环境下船舶控制系统大数据存储架构,利用分布式大... 船舶控制系统大数据存储节点数量较多,节点分布不均,影响负载均衡性,导致数据存储过程中存在安全性与容错性差等问题,为此研究云计算环境下舰船控制系统大数据有效存储方法。构建云计算环境下船舶控制系统大数据存储架构,利用分布式大数据存储层中的管理引擎采集舰船控制系统数据;通过MapReduce分布式并行模型将所采集的数据划分至分布式数据库内;针对分布式数据库内的数据,采用安全容错存储算法将待存储的数据均匀地划分至相应的硬件层中计算机服务器节点内,完成舰船控制系统数据有效存储。实验结果显示该方法能够实现不同存储节点负载均衡,且具有较好的大数据存储性能。 展开更多
关键词 云计算环境 舰船控制系统 大数据存储 MAPREDUCE 分布式并行化 安全容错
下载PDF
一种利用并行复算实现的OpenMP容错机制 被引量:7
4
作者 富弘毅 丁滟 +1 位作者 宋伟 杨学军 《软件学报》 EI CSCD 北大核心 2012年第2期411-427,共17页
基于并行复算的故障恢复技术,将故障恢复的计算任务分配至未发生故障的结点上并行执行,从而显著缩短复算时间,有效降低故障恢复开销,提高并行程序容错性能.基于该故障恢复技术,提出了一种针对OpenMP并行程序的容错机制PR-OMP,有效解决... 基于并行复算的故障恢复技术,将故障恢复的计算任务分配至未发生故障的结点上并行执行,从而显著缩短复算时间,有效降低故障恢复开销,提高并行程序容错性能.基于该故障恢复技术,提出了一种针对OpenMP并行程序的容错机制PR-OMP,有效解决了分段复算、复算负载重分布等问题;此外,还扩展了传统编译数据流分析技术,提出了针对OpenMP并行程序的数据流分析技术,并基于该技术计算状态保存开销进行优化.设计实现了用于支持PR-OMP的编译工具GiFT-OMP,并通过实验证明了PR-OMP机制及其支持工具的有效性,评估并分析了其性能和可扩展性. 展开更多
关键词 容错 OPENMP 并行复算 数据流分析
下载PDF
大规模MPI并行计算的可扩展三模冗余容错机制 被引量:13
5
作者 王之元 杨学军 周云 《软件学报》 EI CSCD 北大核心 2012年第4期1022-1035,共14页
随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并... 随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并行计算的可扩展性.因此,在高性能计算需求不断增长的今天,可扩展容错机制的设计显得尤为迫切和重要.以三模冗余(triple modular redundancy,简称TMR)为典型案例,描述了传统TMR在大规模MPI并行计算上的实现方法,分析了该机制所面临的实际问题,进而指出传统TMR制约了并行计算的扩展.根据该技术所面临的问题,设计了可扩展三模冗余(scalable triple modular redundancy,简称STMR),并进一步验证了其有效性和可扩展性.该机制不仅能够处理Checkpoint/Restart针对的fail-stop故障,还能够解决绝大部分硬件不能直接感知的数据错误.最后,借用BlueGene/L的系统参数进行模拟,预测当系统规模增大时,在分别采用TMR和STMR的情况下并行计算可扩展性的变化,结果进一步验证了STMR是可扩展的容错机制. 展开更多
关键词 容错机制 可扩展性 三模冗余 大规模并行计算 MPI
下载PDF
并行复算:一种面向高性能计算的新的容错方法 被引量:2
6
作者 王攀峰 杜云飞 +2 位作者 富弘毅 杨学军 周海芳 《计算机科学》 CSCD 北大核心 2009年第3期21-25,共5页
Checkpointing是高性能计算领域最常用的容错技术。但是,当处理器数目变大时,这种技术的性能迅速恶化。提出一种在并行计算中容忍单进程故障的新方法:并行复算。这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力... Checkpointing是高性能计算领域最常用的容错技术。但是,当处理器数目变大时,这种技术的性能迅速恶化。提出一种在并行计算中容忍单进程故障的新方法:并行复算。这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力实现低开销的容错。还提出这种方法的一个优化方法,将并行复算与checkpoint技术相结合,以进一步减小容错开销,并通过举例说明如何开发一个基于并行复算以及其优化方法的并行程序。最后通过实验对该方法进行评估。结果显示,当处理器数目变大时,并行复算的开销低于checkpointing,其优化方法能提供优于并行复算的性能。 展开更多
关键词 高性能计算 容错 并行复算
下载PDF
并行数字地形分析的容错算法研究 被引量:3
7
作者 宋效东 刘学军 +3 位作者 汤国安 窦万峰 江岭 杨坤 《地理与地理信息科学》 CSCD 北大核心 2013年第2期1-5,共5页
在高性能地学计算系统中,任务计算失败将会导致严重的后果,因此高性能地学计算必须具有可靠性保障。软件容错模型是提高并行计算容错能力的一种有效方法。针对传统基于检查点/回滚的容错策略存在资源浪费的不足,以并行地形分析为研究对... 在高性能地学计算系统中,任务计算失败将会导致严重的后果,因此高性能地学计算必须具有可靠性保障。软件容错模型是提高并行计算容错能力的一种有效方法。针对传统基于检查点/回滚的容错策略存在资源浪费的不足,以并行地形分析为研究对象,基于软件容错模型提出一种基于邻域型算法的容错策略——N-ABFT(Neigh-boring-Algorithm Based Fault-Tolerant)。针对邻域型地形因子,该容错策略为并行程序划分出的各数据块增加冗余的校验行或校验列。最后,结合N-ABFT算法,提出一种容错调度算法,有效地提高了系统容错能力,降低了错误检测开销。 展开更多
关键词 并行计算 DEM 软件容错
下载PDF
云计算环境下的容错并行Skyline查询算法研究 被引量:4
8
作者 王媛 王意洁 +1 位作者 邓瑞鹏 裴晓强 《计算机科学与探索》 CSCD 2011年第9期804-814,共11页
云计算为分布并行Skyline查询提供强大存储能力和计算能力的同时,其大规模数据中心固有的故障频发特性给可靠Skyline查询处理带来极大挑战。现有研究致力于提高Skyline算法的响应时间、渐进性、负载均衡等各项性能,不能保证故障情况下... 云计算为分布并行Skyline查询提供强大存储能力和计算能力的同时,其大规模数据中心固有的故障频发特性给可靠Skyline查询处理带来极大挑战。现有研究致力于提高Skyline算法的响应时间、渐进性、负载均衡等各项性能,不能保证故障情况下查询继续正确执行。为此,提出一种容错并行Skyline查询算法(fault-tolerant parallel Skyline,FTPS)。该算法通过故障监测和任务迁移,使得能够在查询过程中及时发现故障,并将故障节点的计算任务迁移到副本节点,保证查询的正确执行。理论分析和实验证明,FTPS算法能够在不影响正常Skyline查询处理性能的情况下获取较好的容错处理性能。 展开更多
关键词 SKYLINE查询 分布并行计算 云计算 数据中心 容错
下载PDF
波分复用光传输网中波长路由算法的研究进展 被引量:6
9
作者 许胤龙 陈国良 万颖瑜 《计算机学报》 EI CSCD 北大核心 2003年第11期1409-1423,共15页
光纤正迅速成为主干通信网的标准传介媒质 .随着光学器件的发展 ,使得信号在传输过程中 ,除了在源、汇节点需要光电转换外 ,中间节点可保持光传输 ,这种通信网络叫光传送网 .光传送网中的波分复用技术是将整个光纤的带宽分成多个信道 ,... 光纤正迅速成为主干通信网的标准传介媒质 .随着光学器件的发展 ,使得信号在传输过程中 ,除了在源、汇节点需要光电转换外 ,中间节点可保持光传输 ,这种通信网络叫光传送网 .光传送网中的波分复用技术是将整个光纤的带宽分成多个信道 ,不同的信道可使用不同的波长来同时进行信息传输 ,从而增加了整个网络的带宽 .在光传送网中 ,实现一个通信请求需要建立一条通信路径 ,并为该通信路径所经过的每条链上分配一个波长 ,即所谓波长路由 .该文详细介绍了波分复用光传送网中波长路由算法的研究进展 ,内容包括波长分配算法、网络的信元阻塞率分析、容错和QoS波长路由、多播波长路由、最小化ADM数路由以及基于光或光电连接的并行机模型等 . 展开更多
关键词 通信网 波分复用光传输网 波长路由算法 波长分配算法 NP问题
下载PDF
消息传递界面PVM和MPI的现状与发展趋势 被引量:10
10
作者 秦忠国 姜弘道 《计算机研究与发展》 EI CSCD 北大核心 1998年第6期496-499,共4页
PVM和MPI是目前国际上最有影响的两种消息传递并行计算环境,两者都能在MPP和工作站网络上运行.由于设计背景和侧重点不同,使得这两种界面既有共同点,又各具特色.文中就性能和发展趋势对两者进行叙述和比较,可供并行程序... PVM和MPI是目前国际上最有影响的两种消息传递并行计算环境,两者都能在MPP和工作站网络上运行.由于设计背景和侧重点不同,使得这两种界面既有共同点,又各具特色.文中就性能和发展趋势对两者进行叙述和比较,可供并行程序开发者选择并行计算环境时参考. 展开更多
关键词 并行计算 消息传递界面 并行计算机 PVM MPI
下载PDF
并行计算机系统容错设计 被引量:3
11
作者 屈婉霞 蒋句平 +1 位作者 杨晓东 徐炜遐 《计算机工程与科学》 CSCD 2005年第9期69-70,84,共3页
容错设计是提高计算机系统可靠性的有效手段。本文提出了一种分布共享主存的并行计算机系统的容错结构,着重分析了结构采用的故障诊断机制,提出了系统中备份节点机配置的优化策略。
关键词 并行计算机系统 容错 可靠性 故障诊断
下载PDF
集群计算的多路径并发传输性能研究 被引量:3
12
作者 王文鼐 黄振华 +1 位作者 吴炜 王斌 《南京邮电大学学报(自然科学版)》 北大核心 2018年第6期48-53,共6页
聚合集群计算节点机的多接口用于多路径并发传输,引入多路传输控制协议(MPTCP)以提升开放消息传递接口(OpenMPI)的通信吞吐能力和并行计算性能,给出实验原型的组织结构及软硬件配置,重点分析传输路径宽带对称性与吞吐量的变化关系,以及... 聚合集群计算节点机的多接口用于多路径并发传输,引入多路传输控制协议(MPTCP)以提升开放消息传递接口(OpenMPI)的通信吞吐能力和并行计算性能,给出实验原型的组织结构及软硬件配置,重点分析传输路径宽带对称性与吞吐量的变化关系,以及不同传输控制协议栈的LIN-PACK基准测试的加速性能和单链路故障的自愈性能。结果表明,MPTCP双路并发的吞吐量较传统TCP提高89%,并行计算的最大加速比可达2. 63,并具备较好的故障自愈性能。 展开更多
关键词 并发传输 并行计算 多路传输控制协议 加速比 容错
下载PDF
基于动态任务划分的降级机制 被引量:9
13
作者 尤洪涛 姜小成 陈左宁 《微计算机信息》 北大核心 2006年第10X期72-75,共4页
随着超级计算机和集群以及网格的高速发展,它们的规模越来越大,随之而来的是对容错能力的要求越来越高。本文介绍了一种新的容错措施——降级,以丢弃故障进程的方式来保证作业的正常运行,从而达到容错的目的。同时,讨论了在大规模并行... 随着超级计算机和集群以及网格的高速发展,它们的规模越来越大,随之而来的是对容错能力的要求越来越高。本文介绍了一种新的容错措施——降级,以丢弃故障进程的方式来保证作业的正常运行,从而达到容错的目的。同时,讨论了在大规模并行环境下降级机制的扩展。 展开更多
关键词 容错 降级 高可用性 大规模并行计算机 维度交换算法
下载PDF
基于动态冗余机制的数据并行型计算网格模型 被引量:3
14
作者 陈庆奎 那丽春 《通信学报》 EI CSCD 北大核心 2005年第12期110-116,共7页
在由多个普通计算机机群构成的网格环境下,为了解决大规模数据并行型计算加速比问题、容错问题和动态负载均衡问题,提出了一个基于动态冗余机制的数据并行型网格模型。给出了由多个计算机机群组成的数据并行型计算网格等一系列形式化定... 在由多个普通计算机机群构成的网格环境下,为了解决大规模数据并行型计算加速比问题、容错问题和动态负载均衡问题,提出了一个基于动态冗余机制的数据并行型网格模型。给出了由多个计算机机群组成的数据并行型计算网格等一系列形式化定义。利用逻辑计算机机群、机群逻辑环、计算节点逻辑环和m-冗余策略,研究了动态冗余、动态负载均衡技术。根据这些技术,描述了网格环境下的数据并行型计算过程。理论分析和实践表明,该模型有效地解决了大规模数据并行型计算所需的负载均衡、容错和资源优化问题。该模型适合基于网格的数据并行型计算。 展开更多
关键词 网格 数据并行型计算 大规模并行算法 动态冗余 容错
下载PDF
大规模并行计算机系统硬件故障容错技术综述 被引量:6
15
作者 富弘毅 杨学军 《计算机工程与科学》 CSCD 北大核心 2010年第10期38-43,53,共7页
计算机系统的容错是一个不容忽视的问题。近年来,随着系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都很突出。本文首先介绍了计... 计算机系统的容错是一个不容忽视的问题。近年来,随着系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都很突出。本文首先介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,然后回顾了近些年来一些具有代表性的硬件故障检测技术和硬件故障恢复技术,其中重点介绍了针对大规模并行计算机系统提出的容错方法。本文还介绍了我们在先前的研究工作中提出的一种优化的故障恢复技术,称为容错并行算法。最后,总结了一些可能的研究方向。 展开更多
关键词 大规模并行计算 容错技术 可靠性
下载PDF
云计算下MapReduce多组容错机制架构的分析与研究 被引量:6
16
作者 张治斌 李燕歌 《微电子学与计算机》 CSCD 北大核心 2014年第1期52-55,59,共5页
提出了MapReduce多组容错机制,在传统的Hadoop MapReduce架构上进行改进,即在同机柜中的TaskTracker节点之间增加了多组关系,这样可以缩短发现失效节点的时间,同时减轻JobTracker节点的负荷,减低了带宽使用率,减少网络拥塞.通过实验证明... 提出了MapReduce多组容错机制,在传统的Hadoop MapReduce架构上进行改进,即在同机柜中的TaskTracker节点之间增加了多组关系,这样可以缩短发现失效节点的时间,同时减轻JobTracker节点的负荷,减低了带宽使用率,减少网络拥塞.通过实验证明,MapReduce多组容错机制提高了MapReduce的工作效率. 展开更多
关键词 云计算 MapReduce并行编程模型 多组容错机制
下载PDF
基于CPCI热切换技术实现高可用适度并行系统 被引量:3
17
作者 熊庭刚 马中 《计算机工程与设计》 CSCD 北大核心 2005年第9期2400-2403,2406,共5页
为了满足应用对性能、可靠性和成本的严格要求,适度并行计算机系统必须具有很高的系统可用度。CPCI总线热切换规范作为一个工业标准,为实现高可用的适度并行计算机系统提供了良好的基础。提出了一种基于热切换技术实现高可用适度并行计... 为了满足应用对性能、可靠性和成本的严格要求,适度并行计算机系统必须具有很高的系统可用度。CPCI总线热切换规范作为一个工业标准,为实现高可用的适度并行计算机系统提供了良好的基础。提出了一种基于热切换技术实现高可用适度并行计算机系统的体系结构。运用该结构设计的适度并行计算机系统能够实现高效的容错并行计算,系统的可用性服务机制具有标准结构,较好地满足了应用的要求。 展开更多
关键词 适度并行计算机系统 可用性 容错技术 COMPACTPCI 热切换
下载PDF
基于PC机群波动方程叠前深度偏移的并行计算策略 被引量:3
18
作者 潘宏勋 方伍宝 《吉林大学学报(地球科学版)》 EI CAS CSCD 北大核心 2008年第4期708-712,共5页
基于波动方程的叠前深度偏移技术是解决复杂地质地貌地区地震成像的一种非常有效的手段,但是在实际应用中面临着数据量巨大和计算量巨大的双重困难。以PC机集群为硬件环境,以MPI消息传递并行编程环境为并行程序设计平台,研究设计出请求... 基于波动方程的叠前深度偏移技术是解决复杂地质地貌地区地震成像的一种非常有效的手段,但是在实际应用中面临着数据量巨大和计算量巨大的双重困难。以PC机集群为硬件环境,以MPI消息传递并行编程环境为并行程序设计平台,研究设计出请求分配作业的主从模式来实现波动方程叠前深度偏移的并行计算,从而解决了动态负载均衡难题,采用的作业登记与分析技术解决了容错处理问题。理论模型数据和实际地震资料测试结果表明:程序运行稳定,并行效率高。对我国东部地区某三维地震数据进行了处理,用请求分配作业的主从模式比平均分配作业的主从模式节省了23.68%的时间。 展开更多
关键词 叠前深度偏移 并行计算 请求分配作业的主从模式 动态负载均衡 容错处理
下载PDF
一种基于PVM的交错一致检查点算法 被引量:1
19
作者 章勤 杨中志 张继顺 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第2期114-116,共3页
研究了一种基于PVM的交错一致检查点算法 .该算法对系统资源的占用率小 ,冻结时间短 .尤其当计算节点具有多个处理器时 ,进行检查点操作不会由于对存储器的争用而导致用户进程的冻结 ,提高了检查点算法的效率 .同时 ,该算法的IPC机制是... 研究了一种基于PVM的交错一致检查点算法 .该算法对系统资源的占用率小 ,冻结时间短 .尤其当计算节点具有多个处理器时 ,进行检查点操作不会由于对存储器的争用而导致用户进程的冻结 ,提高了检查点算法的效率 .同时 ,该算法的IPC机制是基于PVM的消息传递机制 。 展开更多
关键词 并行计算 PVM 冻结时间 交错一致检查点算法 IPC机制 容错技术 消息传递机制
下载PDF
k元n立方网络的k圈排除问题的递归算法 被引量:2
20
作者 杨玉星 王世英 《计算机应用》 CSCD 北大核心 2013年第9期2401-2403,2409,共4页
为了度量以k元n立方网络为底层网络拓扑的并行计算机系统的容错能力,通过构造k元n立方网络中使得所有的k元1立方子网都发生故障的最小节点集合的方法,提出求解其k元1立方子网排除点割集的一种递归算法;证明了要使k元n立方网络中所有k元... 为了度量以k元n立方网络为底层网络拓扑的并行计算机系统的容错能力,通过构造k元n立方网络中使得所有的k元1立方子网都发生故障的最小节点集合的方法,提出求解其k元1立方子网排除点割集的一种递归算法;证明了要使k元n立方网络中所有k元1立方子网都发生故障至少需要破坏掉kn-1个节点。结果表明,在不超过kn-1-1个节点被破坏的情况下,以k元n立方网络为底层拓扑构建的并行计算机系统中依然存在无故障的k元1立方子网。 展开更多
关键词 并行计算机系统 互联网络 容错 k元n立方 节点故障 可靠性
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部