期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
共用数据导向的分布式系统失效恢复缺陷检测 被引量:1
1
作者 高钰 王栋 +2 位作者 戴千旺 窦文生 魏峻 《软件学报》 EI CSCD 北大核心 2023年第12期5578-5596,共19页
分布式系统的可靠性和可用性至关重要.然而,不正确的失效恢复机制及其实现会引发失效恢复缺陷,威胁分布式系统的可靠性和可用性.只有发生在特定时机的节点失效才会触发失效恢复缺陷,因此,检测分布式系统中的失效恢复缺陷具有挑战性.提... 分布式系统的可靠性和可用性至关重要.然而,不正确的失效恢复机制及其实现会引发失效恢复缺陷,威胁分布式系统的可靠性和可用性.只有发生在特定时机的节点失效才会触发失效恢复缺陷,因此,检测分布式系统中的失效恢复缺陷具有挑战性.提出了一种新方法Deminer来自动检测分布式系统中的失效恢复缺陷.在大规模分布式系统中观察到,同一份数据(即共用数据)可能被一组I/O写操作存储到不同位置(如不同的存储路径或节点).而打断这样一组共用数据写操作执行的节点失效更容易触发失效恢复缺陷.因此,Deminer以共用数据的使用为指导,通过自动识别和注入这类容易引发故障的节点失效来检测失效恢复缺陷.首先,Deminer追踪目标系统的一次正确执行中关键数据的使用.然后,Deminer基于执行轨迹识别使用共用数据的I/O写操作对,并预测容易引发错误的节点失效注入点.最后,Deminer通过测试预测的节点失效注入点以及检查故障征兆来暴露和确认失效恢复缺陷.实现了Deminer原型工具,并在4个流行的开源分布式系统ZooKeeper、HBase、YARN和HDFS的最新版本上进行了验证.实验结果表明Deminer方法能够有效检测分布式系统中的失效恢复缺陷.Deminer已经检测到6个失效恢复缺陷. 展开更多
关键词 失效恢复缺陷 缺陷检测 故障注入 失效恢复 分布式系统
下载PDF
分布式网络故障检测及恢复技术研究 被引量:8
2
作者 来晓 冯冬芹 褚健 《计算机工程与应用》 CSCD 北大核心 2010年第24期73-76,共4页
IEC62439系列协议专为高可用性工业自动化网络所设计,它们各具特点,着重分析IEC62439-6DRP(分布式冗余协议)的通信机理以及故障检测与恢复机制。根据DRP环形网络循环周期、网络交换设备数量、报文处理时间等一系列参数,提出了一种关于... IEC62439系列协议专为高可用性工业自动化网络所设计,它们各具特点,着重分析IEC62439-6DRP(分布式冗余协议)的通信机理以及故障检测与恢复机制。根据DRP环形网络循环周期、网络交换设备数量、报文处理时间等一系列参数,提出了一种关于故障检测至恢复所需时间的算法。经测试平台的验证,DRP网络能迅速地检测出节点和链路的故障,并能在短时间内恢复网络的通信功能,满足现代工业网络对网络高可用性的要求。 展开更多
关键词 分布式 分布式冗余协议(DRP) 故障检测 故障恢复 高可用性
下载PDF
分布式系统故障卷回恢复技术研究与实践 被引量:3
3
作者 文梅 李宏亮 +3 位作者 张春元 范金鹏 吴涛 王志英 《计算机工程与科学》 CSCD 2000年第5期52-55,共4页
对时间要求苛刻的系统对可靠性的要求愈来愈高 ,尤其是在一些至关重要的领域如国防、航天技术等。
关键词 故障恢复 卷回 故障检测 分布式计算机系统
下载PDF
基于灰色预测的分布式系统动态故障检测服务 被引量:2
4
作者 田东 毛太平 吴长泽 《计算机工程与设计》 CSCD 北大核心 2007年第24期5915-5918,共4页
针对已有故障检测服务不能有效满足分布式系统需求问题,设计了一种适用于分布式系统的动态故障检测服务。根据分布式系统的特点,在定义分布式系统模型的基础上,提出了动态故障检测服务架构。结合心跳策略和灰色预测方法,设计了一种动态... 针对已有故障检测服务不能有效满足分布式系统需求问题,设计了一种适用于分布式系统的动态故障检测服务。根据分布式系统的特点,在定义分布式系统模型的基础上,提出了动态故障检测服务架构。结合心跳策略和灰色预测方法,设计了一种动态心跳机制,并给出了预测模型和动态预测策略,提出了基于该动态心跳机制的分布式系统的故障检测算法。最后,仿真实验验证了该算法的正确性和有效性。 展开更多
关键词 分布式系统 故障检测 服务 灰色预测 心跳机制
下载PDF
工厂供电系统中的故障检测与自动恢复机制研究
5
作者 申晓波 《产业科技创新》 2023年第6期57-59,共3页
本文致力于研究工厂供电系统中的故障检测与自动恢复机制。首先详细阐述了供电系统中可能发生的各种故障类型及其原因,然后介绍了一种新的、有效的故障检测方法。接着,对自动恢复机制进行了深入研究,讨论了其在实际操作中的重要性和潜... 本文致力于研究工厂供电系统中的故障检测与自动恢复机制。首先详细阐述了供电系统中可能发生的各种故障类型及其原因,然后介绍了一种新的、有效的故障检测方法。接着,对自动恢复机制进行了深入研究,讨论了其在实际操作中的重要性和潜在挑战。 展开更多
关键词 工厂供电系统 故障检测 自动恢复机制 稳定性 可靠性
下载PDF
一种验证分布式协议活性属性容错机制的模型检测方法 被引量:2
6
作者 陆超逸 聂长海 张成志 《计算机学报》 EI CAS CSCD 北大核心 2021年第8期1714-1731,共18页
云计算是一种通过网络以服务的方式向用户提供按需收费的计算资源的模式,目前企业逐渐将业务部署、数据处理转移到云计算平台上进行。因为可扩展性、性能等各方面需求,所以云平台部署在分布式系统上。由于分布式系统采用大量的商品机通... 云计算是一种通过网络以服务的方式向用户提供按需收费的计算资源的模式,目前企业逐渐将业务部署、数据处理转移到云计算平台上进行。因为可扩展性、性能等各方面需求,所以云平台部署在分布式系统上。由于分布式系统采用大量的商品机通过复杂的结构进行搭建,因此分布式系统中组件发生故障是无法避免的。为了提高分布式系统的可靠性,技术人员在开发分布式系统时为其设计了容错机制。为了保证容错机制在分布式系统发生故障时能真正有效地工作,故障注入是检验容错机制的方法之一,通过人为地向系统中注入特定的故障,观察系统的行为并检验容错机制是否正确工作。由于分布式系统的并发特性,传统软件测试方法无法对其进行完全测试,近年来越来越多地使用模型检测技术来对分布式系统进行验证。现有的模型检测技术注重对分布式系统的安全性属性和活性属性的检测,忽略了对容错机制尤其是活性属性容错机制的检测,所以如何验证系统的活性属性容错机制是目前面临的挑战。采用抽象模型检测方法会引入模型与实际系统不匹配的问题。同时,采用实现级模型检测方法会加剧模型检测中的状态空间爆炸问题。本文提出了一个实现级模型检测工具LTMC(Liveness Properties Fault Tolerance Model Checker),结合故障注入技术对分布式协议的安全性属性与活性属性及其容错机制进行验证。同时,基于分布式系统节点的角色,本文提出了一种对等约减策略PRP(Peer Reduction Policy)对LTMC需要搜索的状态空间进行约减,缓解了状态空间爆炸问题。此外,LTMC通过引入逻辑时钟机制,优先搜索那些更有实际价值的事件执行路径。LTMC能够有目标地在待验证系统运行的特定时刻注入特定的故障,而不依赖于随机故障注入策略;当待验证系统发生改变时,只需要简单地对工具进行轻微的修改;LTMC可以系统地发现分布式协议中指定类型的所有Bug。在本文最后,我们将LTMC应用到ZooKeeper和Cassandra的几个协议中,并与深度优先搜索作对比,可以发现LTMC有3.7~594.4倍的状态空间约减率。 展开更多
关键词 分布式系统 模型检测 故障注入 活性属性 容错机制 对等约减策略
下载PDF
分布式实时系统中前向恢复技术的研究与实践 被引量:1
7
作者 文梅 李宏亮 +3 位作者 张春元 范金鹏 吴涛 王志英 《计算机工程与科学》 CSCD 1999年第5期28-31,共4页
随着许多领域对计算机系统的实时性能和可靠性要求的不断提高, 故障恢复技术显得尤为重要。本文论述了分布式实时系统中的前向恢复技术, 着重讨论了在实时、高可用的双工系统中的前向恢复技术。
关键词 故障恢复 前向恢复 故障 检测 分布式计算机
下载PDF
分布式系统中的故障处理 被引量:6
8
作者 王和平 《计算机工程与设计》 CSCD 北大核心 2005年第11期2879-2883,共5页
对一种实时分布式系统中的故障处理机制进行了研究,详细描述了该系统中故障管理的概念,故障定义、故障分类与级别,故障检测、故障滤波、故障确认、故障相关分析、故障定位、故障隔离,健康监控、故障管理的功能与实现。任何系统可按其需... 对一种实时分布式系统中的故障处理机制进行了研究,详细描述了该系统中故障管理的概念,故障定义、故障分类与级别,故障检测、故障滤波、故障确认、故障相关分析、故障定位、故障隔离,健康监控、故障管理的功能与实现。任何系统可按其需求选择其中介绍的一种或多种技术组合。 展开更多
关键词 分布式系统 健康监控 故障管理 故障检测机制 滤波 容错
下载PDF
基于Multi-agent的含分布式电源配电网故障处理方法 被引量:4
9
作者 席建新 郑涛 徐庆 《现代电力》 北大核心 2012年第6期33-37,共5页
针对分布式电源(DG)接入配电网后配电网故障情况变得更加复杂等问题,提出了一种基于多代理系统的配电网故障处理方法。系统采用分层分布式结构,由系统协调代理(SCA)、子站代理(SSA)和FTU代理(FTUA)组成。系统启动后,SCA将整个配电网划... 针对分布式电源(DG)接入配电网后配电网故障情况变得更加复杂等问题,提出了一种基于多代理系统的配电网故障处理方法。系统采用分层分布式结构,由系统协调代理(SCA)、子站代理(SSA)和FTU代理(FTUA)组成。系统启动后,SCA将整个配电网划分为若干个继电保护子区域,当配电线路发生故障时,FTUA基于闭锁式方向纵联原理将故障瞬时隔离,可以实现配电线路的全线速切,SSA以相对重要负荷切除量最小为供电恢复目标函数。通过各层Agent之间的合作和协调,该系统能够及时准确地完成故障检测、隔离和恢复。在JADE平台中设计并开发了多Agent系统(MAS),以1个双电源供电的手拉手配电网为例,通过对比含DG与不含DG时的故障恢复结果,验证了MAS能够保证开关动作的选择性,并且具有较高的可靠性。 展开更多
关键词 分布式电源 配电网 多代理系统 故障检测 故障隔离 故障恢复
下载PDF
一种容错的分布式服务器复制与更新协议
10
作者 熊莉 陈松 《电脑开发与应用》 2005年第8期16-18,共3页
针对分布式环境提出一种容错的文件数据复制与更新机制,其算法/协议建立在分布式算法理论的基础上,具有较强的容错性、故障恢复透明性和较高的效率,支持服务器同步和异步两种复制模式以及客户机启动与服务器启动两种工作方式。该机制可... 针对分布式环境提出一种容错的文件数据复制与更新机制,其算法/协议建立在分布式算法理论的基础上,具有较强的容错性、故障恢复透明性和较高的效率,支持服务器同步和异步两种复制模式以及客户机启动与服务器启动两种工作方式。该机制可广泛应用于Internet分布式文件系统、分布式数据库、WEB镜像服务器以及分布式软件分发、群集服务器等应用中。 展开更多
关键词 分布式服务器 协议 Internet 分布式文件系统 分布式数据库 分布式环境 镜像服务器 群集服务器 更新机制 数据复制 算法理论 故障恢复 工作方式 软件分发 容错性 透明性 客户机 WEB 应用 异步
下载PDF
HLA联邦执行的维护机制研究 被引量:2
11
作者 桑景瑞 柏彦奇 丁利军 《计算机仿真》 CSCD 2004年第7期78-81,共4页
HLA联邦执行是一个复杂而庞大的系统,其运行中的维护十分复杂。为了保障整个系统正确、稳定和高效地运行,RTI及所有联邦成员必须有一个完备和合理的联邦维护机制,但HLA仅提供了联邦维护的工具__管理对象模型MOM,并未对联邦维护机制及MO... HLA联邦执行是一个复杂而庞大的系统,其运行中的维护十分复杂。为了保障整个系统正确、稳定和高效地运行,RTI及所有联邦成员必须有一个完备和合理的联邦维护机制,但HLA仅提供了联邦维护的工具__管理对象模型MOM,并未对联邦维护机制及MOM的使用方式作出规定。该文旨在对MOM的使用进行探讨。文中深入分析了HLA管理对象模型(MOM)的概念、体系,MOM的工作机制,以及联邦执行中MOM维护功能的主要方面,包括联邦执行的信息获取、联邦执行的故障处理、系统运行的跟踪和监控等,并设计了用于仿真实验数据分析和回放的基于MOM的联邦数据收集的方法,为RTI及联邦的设计和开发提供了参考。 展开更多
关键词 HLA联邦执行 维护机制 高层体系结构 分布式仿真 管理对象模型 故障恢复 MOM
下载PDF
一种三模冗余容错服务器的容错机制 被引量:2
12
作者 郭浩翔 袁由光 《舰船电子工程》 2003年第1期22-24,34,共4页
论述了一种三模冗余容错服务器的体系结构及其容错机制,并对它的可用性进行了分析。
关键词 三模冗余 服务器 体系结构 容错机制 TMR 故障检测 系统恢复
下载PDF
云存储系统故障自动化处理关键技术
13
作者 程志远 《智能城市》 2016年第3期80-82,共3页
云存储系统在当前的社会中有越来越广泛的应用,本文主要对云存储系统的故障处理机制和自动化存储系统的相关技术进行了探究,在现有理论和技术的基础上,提出了提高云存储系统故障自动化处理效果的一些方法。在进行云存储系统故障自动化... 云存储系统在当前的社会中有越来越广泛的应用,本文主要对云存储系统的故障处理机制和自动化存储系统的相关技术进行了探究,在现有理论和技术的基础上,提出了提高云存储系统故障自动化处理效果的一些方法。在进行云存储系统故障自动化处理相关技术时,本文主要从三个方面进行了研究,分别是云存储系统的内部结构、故障处理的管理语言和故障自动化处理的实现方法。 展开更多
关键词 云存储 元数据管理 策略机制 故障检测 故障恢复
下载PDF
基于MPLS流量工程的故障管理实现方案
14
作者 韩晓钢 《电信快报(网络与通信)》 2011年第3期30-34,共5页
根据ITU-T(国际电信联盟远程通信标准化组织)的Y.1711、Y.1713标准,提出基于MPLS(多协议标签交换)流量工程的故障管理模块实现方案。主要介绍对节点故障、链路故障和超流量三类故障的管理。故障管理模块检测到节点错误和链路错误后,通... 根据ITU-T(国际电信联盟远程通信标准化组织)的Y.1711、Y.1713标准,提出基于MPLS(多协议标签交换)流量工程的故障管理模块实现方案。主要介绍对节点故障、链路故障和超流量三类故障的管理。故障管理模块检测到节点错误和链路错误后,通知链路管理程序采用保护切换或重路由的方法解决。检测到超流量时,通知链路管理程序进行流量均分或流量合并,防止LSP(标签交换路径)上流量过大造成拥塞或链路空闲资源浪费。采用这三种保护方式能在一定程度上防止故障发生,保护MPLS网络的正常运行。 展开更多
关键词 MPLS(多协议标签交换) 流量工程 LER(标签交换边缘路由器) LSR(标签交换核心路由器) LSP(标签交换路径) 故障检测 恢复机制 超流量
下载PDF
基于Fcn-Attention的硬盘故障预测方法
15
作者 张佳惠 《现代信息科技》 2021年第24期48-50,共3页
保证大型数据中心服务的可靠性越来越重要,硬盘是大型数据中心中故障率最高的组件。如果能够预测硬盘的故障情况就可以提前对数据进行保护和隔离,避免造成重大损失。然而当前的预测器不能同时有效地提取时间序列的长短期依赖关系,学习... 保证大型数据中心服务的可靠性越来越重要,硬盘是大型数据中心中故障率最高的组件。如果能够预测硬盘的故障情况就可以提前对数据进行保护和隔离,避免造成重大损失。然而当前的预测器不能同时有效地提取时间序列的长短期依赖关系,学习样本的有效特征。文章提出了基于注意机制的全卷积注意力模型,该模型能够解决长短期依赖问题,有效识别故障模式。最后在采集的SMART日志的数据集中证明了模型的有效性。 展开更多
关键词 硬盘故障预测 异常检测 注意力机制 卷积网络
下载PDF
基于鲁棒自适应UKF的分布式电动汽车状态估计 被引量:10
16
作者 张志达 郑玲 +2 位作者 吴行 乔旭强 李以农 《中国科学:技术科学》 EI CSCD 北大核心 2020年第11期1461-1473,共13页
准确的车辆状态参数是实现汽车主动安全和自动驾驶的关键.标准的无迹卡尔曼(UKF)算法,在观测噪声较大或噪声协方差不匹配时,会对车辆状态的估计精度产生严重影响.针对分布式电动汽车状态估计,提出一种基于故障检测机制的鲁棒自适应UKF算... 准确的车辆状态参数是实现汽车主动安全和自动驾驶的关键.标准的无迹卡尔曼(UKF)算法,在观测噪声较大或噪声协方差不匹配时,会对车辆状态的估计精度产生严重影响.针对分布式电动汽车状态估计,提出一种基于故障检测机制的鲁棒自适应UKF算法,该算法利用观测变量的残差向量识别系统是否存在故障,依据统计函数判断是否需要对观测噪声协方差和过程噪声协方差进行自适应调整,并基于权重因子更新协方差.设计了基于鲁棒自适应UKF的估计器,对车辆的纵向车速、侧向车速和质心侧偏角三个重要状态变量进行估计.最后利用CarSim和MATLAB/Simulink联合仿真对算法进行了验证.结果表明,所提出鲁棒自适应UKF算法能够明显降低三个状态变量的估计误差,在精确性和鲁棒性上均优于标准的UKF算法,为先进驾驶辅助系统以及自动驾驶的精确运动控制奠定了重要基础. 展开更多
关键词 电动汽车 分布式驱动 状态估计 鲁棒自适应UKF 故障检测机制
原文传递
一种智慧校园应用场景下的可自愈TDM-PON结构
17
作者 陈凌平 《喀什大学学报》 2020年第3期56-60,共5页
教育信息化已经步入了智慧校园这一新阶段,具有新的内涵和技术需求.为了探索满足智慧校园体系架构中网络层功能需求的技术路线,在分析智慧校园的特征、典型应用和现有关键技术的基础上,针对目前基于树状PON结构的一些限制,包括支持虚拟... 教育信息化已经步入了智慧校园这一新阶段,具有新的内涵和技术需求.为了探索满足智慧校园体系架构中网络层功能需求的技术路线,在分析智慧校园的特征、典型应用和现有关键技术的基础上,针对目前基于树状PON结构的一些限制,包括支持虚拟专用网络及提供全分布式故障检测和恢复能力,提出了一种基于简单自愈环的时分复用无源光网结构,并研究了该结构的自动保护倒换(APS)装置的具体实现方案. 展开更多
关键词 可自愈TDM-PON结构 智慧校园应用 自动保护倒换 全分布式故障检测和恢复机制
下载PDF
可靠性基础、质量管理与控制
18
《电子科技文摘》 2000年第11期3-3,共1页
Y2000-62355-169 0017870基于故障注入的可靠性=Session 5A:fault-injectionbased dependability[会,英]//Proceedings of the 1999Pacific Rim International Symposium on DependableComputing.—169~208(PC)本部分收入5篇论文。题名... Y2000-62355-169 0017870基于故障注入的可靠性=Session 5A:fault-injectionbased dependability[会,英]//Proceedings of the 1999Pacific Rim International Symposium on DependableComputing.—169~208(PC)本部分收入5篇论文。题名为:可靠的影视点播应用设计用的模拟故障注入,Networked Windows NT系统现场失效数据分析,评价错误检测机制用的物理与模拟故障注入,分布式数据库管理系统中的安全性保证成本,以及瞬态故障情况下的共用现有数据库管理系统(COST DBMS)健壮性试验评价。 展开更多
关键词 故障注入 可靠性研究 分布式数据库管理系统 应用设计 错误检测机制 数据分析 现场失效 影视点播 管理与控制 试验评价
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部