一种基于日志结合分析的集群系统失效预测方法被引量：1

A log co-analysis based failure prediction method for large-scale cluster systems

下载PDF

导出

摘要研究了大规模超级计算机群系统的失效预测。针对现有的单一分析系统日志的方法不仅需要复杂的分布式数据挖掘技术,而且失效预测的召回率普遍不高的问题,提出了一种通过将记载集群系统负载变化的作业日志同系统日志结合起来分析来进行失效预测的方法。该方法的原理如下:首先,通过对原始系统日志和作业日志进行预处理和过滤,分别得到细粒度的二维的事件序列和作业序列;然后从中抽取出在系统日志的失效事件发生前作业日志所表现出的三种典型失效征兆;最后,利用失效征兆进行失效预测。在真实的IBM Blue Gene/P系统的系统日志和作业日志上的实验结果表明,基于两种日志结合分析的方法能以较高的准确率和召回率实现细粒度的失效预测。 The failure prediction for large-scale cluster supercomputer was studied.Aiming at the prolem that the existing prediction method only analyzing the single system log needs complex data mining techniques while its prediction re-call rate is generally lower, this study presented an effective failure prediction method based on co-analysis of sys-tem logs and job logs that records the running workload information.The principle of the method is below：Firstly, the fine-grained two-dimensional event sequence and job sequence are produced through preprocessing and filtering of the two raw logs;Secondly, three failure symptoms are extracted from job logs before the occurrence of failure events;Finally, failure predictions are carried out by using these symptoms.The results of the experiments on real logs of the BlueGene/P system show that the proposed method can predict failures with a higher precision and a higher recall rate.

作者付晓毓任睿詹剑锋孙凝晖

机构地区计算机体系结构国家重点实验室中国科学院计算技术研究所中国科学院研究生院

出处《高技术通讯》 CAS CSCD 北大核心 2016年第6期519-527,共9页 Chinese High Technology Letters

基金 863计划(2015AA015308) 973计划(2014CB340402)资助项目

关键词大规模集群系统系统日志作业日志日志分析失效预测 large-scale cluster system system log job log log analysis failure prediction

分类号 TP338 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献1

1黄伟,陈昊,郭雅娟,姜海涛.基于集成分类的恶意应用检测方法[J].南京理工大学学报,2016,40(1):35-40. 被引量：8

引证文献1

1倪震,李千目,郭雅娟.面向电力大数据日志分析平台的异常监测集成预测算法[J].南京理工大学学报,2017,41(5):634-645. 被引量：8

二级引证文献8

1王长宝.网络环境下面向大数据的网络安全策略研究[J].信息与电脑,2018,30(3):185-186. 被引量：4
2程伟华,谭晶,徐明生,倪震.面向电力工控网络大数据的微聚集差分隐私保护方法[J].南京理工大学学报,2019,43(5):571-577. 被引量：10
3李琰,胡俊.一种针对访问控制系统的安全态势感知模型[J].软件导刊,2019,18(12):167-172.
4梅御东,陈旭,孙毓忠,牛逸翔,肖立,王海荣,冯百明.一种基于日志信息和CNN-text的软件系统异常检测方法[J].计算机学报,2020,43(2):366-380. 被引量：36
5卢丹,张中青,余晓鹏,李朋磊,米传民,许洁.电网运行风险管控可视化系统架构与功能研究[J].南京理工大学学报,2020,44(1):87-93. 被引量：19
6余铮,冯浩,查志勇.集成电力大数据日志分析模块的信息系统研究[J].计算机与数字工程,2020,48(3):571-574. 被引量：4
7费稼轩,裴培,张明,孙佳炜.电网工控网络攻击场景中的层次关联分析方法[J].南京理工大学学报,2020,44(6):715-723. 被引量：7
8周建国,戴华,杨庚,周倩,王俊.基于并列GRU分类模型的日志异常检测方法[J].南京理工大学学报,2022,46(2):198-204. 被引量：4

1曹政.基于Mahout框架的Hadoop平台作业日志分析平台设计与实现[J].软件,2015,36(11):43-47. 被引量：6
2魏治杰,郑从环.基于ELM神经网络软件在线失效预测[J].工业控制计算机,2015,28(5):115-117.
3王芳.以“作业日志”为媒促进师生共赢[J].信息教研周刊,2012(1):81-81.
4王鹏,孟丹,詹剑锋,涂碧波.数据密集型计算编程模型研究进展[J].计算机研究与发展,2010,47(11):1993-2002. 被引量：39
5卢旭,王慧强,吕晓,冯光升,林俊宇.非线性相关的失效数据联合聚类分析与预测[J].哈尔滨工业大学学报,2011,43(3):80-84. 被引量：2
6杨波,黄洪钟,郭夙昌.数据驱动的软件可靠性模型研究[J].中国科技论文在线,2007,2(10):768-774. 被引量：2
7孟德军.铁路局现在车查询分析系统的设计与实现[J].铁路计算机应用,2012,21(12):16-18.
8颜春宁.局部优化加权回归算法在电力设备失效预测中的应用[J].计算机测量与控制,2014,22(1):279-281.
9罗红兵,曹小林,曹立强,武林平,莫则尧.超级计算机作业运行稳定性分析[J].计算机工程与科学,2009,31(11):91-93.
10何旭东,李佳洪.微互连接头的蠕变数值模拟及失效寿命预测[J].机械工程师,2014(9):128-130.

高技术通讯

2016年第6期

浏览历史

内容加载中请稍等...

一种基于日志结合分析的集群系统失效预测方法被引量：1

同被引文献1

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于日志结合分析的集群系统失效预测方法 被引量：1

同被引文献1

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于日志结合分析的集群系统失效预测方法被引量：1