题名 基于服务依赖图的微服务系统故障根因定位方法
1
作者
张齐勋
贾统
杨勇
李影
机构
北京大学
北京大学
北京大学
北京大学
出处
《数据与计算发展前沿(中英文)》
CSCD
2024年第4期87-95,共9页
基金
国家重点研发计划(2021YFF0704202)。
文摘
【目的】为解决微服务架构中频繁出现的系统故障以及异常快速传播的问题,特别是由于服务粒度细、更新迭代频繁及服务依赖复杂性引起的诊断复杂性,本文提出了一种基于动态微服务依赖图的故障根因快速定位方法。【方法】本方法基于微服务的配置信息和日志数据,动态生成服务依赖图,有效捕获服务间的动态依赖变化。在故障发生时,利用服务依赖图和异常事件数据推断异常间的因果链,构造异常因果关系图。结合服务依赖的权重,通过服务依赖图中搜寻并排序可能的根因节点,以实现异常源头的精准定位。【结果】实验结果表明,本方法异常根因top 5平均定位精确率达到66%,优于现有其它同类方法。
关键词
微服务
服务依赖
异常因果关系
根因定位
Keywords
microservice
service dependency
anomaly causal relationship
root cause localization
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
题名 一种面向微服务的多维度根因定位算法
被引量:2
2
作者
施园
李杨
詹孟奇
机构
中国科学院信息工程研究所
中国科学院大学网络安全学院
出处
《信息网络安全》
CSCD
北大核心
2023年第3期73-83,共11页
基金
国家重点研发计划[2019YFB1005200,2019YFA1005201]。
文摘
伴随着Docker等虚拟化容器技术的逐渐成熟,因其可扩展性、灵活性等特点与微服务架构完美契合,工业界逐渐将微服务架构应用部署在基于容器的云环境下,并用Kubernetes等容器编排工具来管理应用的全生命周期。在这样复杂的微服务架构下,如何使用人工智能技术高效发现异常并且定位根因成为重中之重。首先,文章总结了在微服务系统环境下进行异常检测和根因定位所面临的主要挑战和现有的关键技术;然后,针对现有技术异常检测覆盖范围不全面的问题,文章提出了一种基于无监督学习的多维度的异常检测方法,在调用链Trace数据的基础上结合服务和机器资源利用数据进行综合分析,确保能够检测出服务响应时间异常的同时,也能够识别服务资源利用异常和环境异常;最后,在异常已知的情况下,为了减少根因定位时间,拓展定位范围和缩小粒度,文章提出了一种轻量的基于异常传播子图的方法,将服务接口和机器节点两种维度的数据统一到异常传播子图中进行根因定位。实验表明,文章所提方法与已有方法相比,定位时间更短,不仅拓宽了根因定位场景,而且准确率也有明显提升。
关键词
容器
微服务
Kubernetes
异常检测
根因定位
Keywords
container
microservices
Kubernetes
abnormal detection
root cause localization
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于特征学习的5G用户投诉根因定位方法
被引量:1
3
作者
岳烈骥
孙伟
侯普
吕程程
陈凯
机构
中国移动通信集团北京有限公司
中国信息通信研究院
出处
《信息通信技术》
2023年第3期75-79,共5页
文摘
5G网络的复杂性和业务的多样性,使得5G用户投诉的根因定位涉及终端、锚点、5G站点等多种因素,导致用户投诉的根因定位困难,处理效率低。文章基于特征学习的5G用户投诉根因定位,使用数据分析和特征工程算法,基于大量5G用户的历史投诉记录,结合业务经验和统计学准则,筛选出5G投诉相关的关键指标集合。针对每位5G用户的投诉,根据用户的经纬度地址,匹配出投诉关联的5G基站,并对关联基站提取出指标数据集合,使用孤立森林算法,筛选出关联基站的异常指标集合,最终结合专家经验规则,得出用户投诉的根因。
关键词
5G
投诉根因定位
数据分析
特征工程
孤立森林
Keywords
5G
Root Cause Location of Complaints
Data Analysis
Feature Engineering
Isolation Forest
分类号
TN929.5
[电子电信—通信与信息系统]
题名 “九因定位、九路择业”的大学生职业导航模式构建
被引量:1
4
作者
金绍荣
黄敏
机构
西南大学
重庆师范大学
出处
《现代教育管理》
CSSCI
北大核心
2015年第4期96-100,共5页
基金
中央高校基本科研业务费专项资金资助项目"‘情理’兼治范式下的高校学生管理伦理研究"(SWU1409306)
重庆社科规划青年项目"重庆新型职业农民培育的职教体系设计及运行保障研究"(2013QNJY30)
重庆社科规划青年项目"重庆市高校大学生政治信仰教育艺术探索研究"(2013QNMK07)
文摘
随着扩招政策的不断推进,我国高等教育已步入后大众化时代,由此而来,高校毕业生的就业形势也日趋严峻。为此,高校帮助大学生科学地进行职业发展规划显得尤其重要。"九因定位、九路择业"的大学生职业导航模式遵循"分类管理,因材施导"的原则,帮助大学生从"自我、行业、区域"三方面分析职业发展中的"九种"因素,并遵从"学业、专业、职业、事业、创业"五业相互演绎的关系,帮助大学生找寻科学的职业发展轨迹,指导他们正确地投放自己的职业生命,最大效用地实现人生价值。
关键词
职业导航
九因定位
九路择业
Keywords
occupational guidance
nine-reason-oriented
nine-employment-oriented
分类号
G649.21
[文化科学—高等教育学]
题名 面向数字化运营的无线网问题根因定位算法研究
被引量:1
5
作者
史文祥
赵伟
孟宁
郭云霄
卢伟荣
机构
中讯邮电咨询设计院有限公司
中国联通浙江分公司
中国联合网络通信集团有限公司
中国联通山西省分公司
出处
《邮电设计技术》
2022年第1期67-72,共6页
文摘
在中国联通数字化转型过程中,为了快速定位无线网络问题,在识别出质差小区后,基于CM、PM、MR等数据,制定无线网络问题根因定位算法,建立根因定位算法库。根据根因定位算法实现对质差小区的问题自动定位和分析,从而快速、准确地定位网络问题,确保用户感知,降低人工成本,提升一线工作效率。
关键词
无线网
网络优化
根因定位
Keywords
Wireless network
Network optimization
Root cause localization
分类号
TN929.5
[电子电信—通信与信息系统]
题名 基于时序分解的微服务调用链根因定位
6
作者
宋勇
韦强申
董昭阳
叶晓舟
欧阳晔
机构
北京大学
亚信科技(中国)有限公司
广州亚信技术有限公司
出处
《通信技术》
2022年第12期1603-1612,共10页
基金
羊城创新创业领军人才支持计划(2020010)。
文摘
近年来,微服务架构使用广泛,但由于微服务数量庞大且依赖关系复杂,且故障具有传播性,在快速检测故障的同时实现根因定位变得越来越有挑战性。基于此,提出了一种基于调用链时序分解的微服务根因定位的方法。首先计算调用链节点的时延性能并转化为多个时序数据,通过异常检测构造异常子图,其次利用随机游走算法对节点异常评分。采用公开数据实验分析表明,所提方法在异常集top1的精确度达到了84%,并与微服务根因分析经典方法进行了对比,较其中效果最好的MicroRCA精确度提升了97.6%。
关键词
微服务
根因定位
时序分解
随机游走
Keywords
microservice
root cause localization
time-series decomposition
random walk
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于改进PCA算法的振荡故障根因定位方法
被引量:6
7
作者
陈孟婷
付晓薇
李曦
机构
武汉科技大学计算机科学与技术学院
智能信息处理与实时工业系统湖北省重点实验室
华中科技大学人工智能与自动化学院
出处
《计算机应用与软件》
北大核心
2020年第11期35-40,68,共7页
基金
国家自然科学基金项目(61573162,61873323)
材料成形与模具技术国家重点实验室开放课题研究基金项目(P2018-016)
+2 种基金
湖北省自然科学基金项目(2017CFB506)
智能信息处理与实时工业系统湖北省重点实验室开放课题项目(2016znss02A,znxx2018ZD01)
大学生科技创新基金项目(18ZRB086)。
文摘
考虑到工业系统中对系统性能影响巨大的振荡故障,提出一种改进的主成分分析(Principal Component Analysis,PCA)方法来实现整个系统的故障根因定位。引入格兰杰因果检验理论扩展PCA方法实现振荡变量传播路径分析,从而确定故障根因。将该方法应用于固体氧化物燃料电池(SOFC)发电系统上。仿真结果表明,改进后的PCA方法能够准确地在线定位SOFC发电系统振荡源,具有很好的实用性,并为其他复杂工业系统的故障根因定位提供参考。
关键词
固体氧化物燃料电池
主成分分析
格兰杰因果检验
故障根因定位
Keywords
Solid oxide fuel cell
PCA
Granger causality test
Fault root cause location
分类号
TP206.3
[自动化与计算机技术—检测技术与自动化装置]
题名 PASER:加性多维KPI异常根因定位模型
8
作者
靖宇涵
何波
张凌昕
李天星
王敬宇
刘聪
机构
网络与交换技术国家重点实验室(北京邮电大学)
杭州东信北邮信息技术有限公司
中国移动通信有限公司研究院
出处
《软件学报》
EI
CSCD
北大核心
2022年第2期738-750,共13页
基金
国家自然科学基金(62071067)
教育部-中国移动科研基金(MCM20200202)
北京邮电大学-中国移动研究院联合创新中心。
文摘
利用多维属性关键性能指标(key performance indicators,KPI)的可加性特征,能够实现对大型互联网服务故障的根因定位.由一项或多项异常根因导致的KPI数据变化,会导致大量相关KPI数据值的变化.提出一种基于异常相似性评估和影响力因子的剪枝搜索异常定位模型(pruning search model based on anomaly similarity and effectiveness factor for root cause location,PASER),该模型以多维KPI异常传播模型为基础,提出了衡量候选集合成为根因可能性的异常潜在分数评估方案;基于影响力的逐层剪枝搜索算法,将异常根因的定位时间降低到了平均约5.3 s.此外,针对异常根因定位中所使用的时间序列预测算法的准确性和时效性也进行了对比实验,PASER模型在所使用的数据集上的定位表现达到了0.99的F-score.
关键词
智能运维
多维KPI
根因定位
剪枝搜索
Keywords
AIOps
multidimensional KPIs
root cause location
pruning search
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 微服务架构下的根因定位方法综述
被引量:1
9
作者
李思毅
马诗雨
崔丽月
张圣林
孙永谦
张玉志
机构
南开大学
出处
《数据与计算发展前沿》
CSCD
2022年第3期78-89,共12页
基金
国家重点研发计划(2021YFB0300104)
国家自然科学基金青年项目(61902200)
中国博士后科学基金面上项目(2019M651015)。
文摘
【目的】在大规模云平台中,当微服务系统关键性能指标发生异常,要求运维人员面对告警风暴和纷繁复杂的异常指标及时梳理背后的异常关联,对异常进行准确的根因定位和快速的恢复。【方法】本文详细介绍在微服务架构下构建故障传播图的方式以及基于图推理的根因定位技术。结合云平台上运维及高可用的能力建设经验,对现有的根因定位方法进行梳理、总结。【结果】基于图推理的根因定位方法在大型数据中心显著提高了云上系统稳定性、可靠性。【局限】该方法依赖稳定的监控基础设施以及准确的指标异常检测能力。【结论】随着数字化转型的深入,微服务架构下的根因定位技术对大规模云平台的稳定性保障将会起到越来越大的作用。
关键词
云原生
微服务
智能运维
根因定位
Keywords
cloud native
microservices
AIOps
root cause localization
分类号
TP393.02
[自动化与计算机技术—计算机应用技术]
题名 基于微服务调用链双向搜索的故障根因定位方法
被引量:1
10
作者
邹丹丹
丁建兵
王希栋
叶晓舟
欧阳晔
机构
亚信科技(中国)有限公司通信人工智能创新实验室
出处
《通信技术》
2022年第11期1515-1522,共8页
文摘
微服务系统具有分布式系统固有的复杂性和服务依赖性,当出现软硬件故障时,会造成雪崩效应。针对如何基于调用链定位根因来保障服务的安全性的问题,提出了一种基于调用链双向搜索的故障根因定位算法,通过结合自顶向下的故障信息统计和自底向上的分层级根因定位,准确输出Top K根因节点。基于所提算法的方案已在某省级运营商实际上线,其Top 3根因的准确率达到87%,平均定位耗时为15 s,有效提升了微服务系统运维工作的效率和准确率。
关键词
根因定位
微服务
调用链
异常检测
Keywords
root cause localization
microservice
trace
anomaly detection
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 基于多维度数据挖掘的自学习故障根因定位系统
被引量:4
11
作者
郭正
郭宁
黄蕴思
机构
中国移动通信集团广东有限公司
出处
《电子技术与软件工程》
2021年第15期146-149,共4页
文摘
本文设计并实现了一种基于多维度数据挖掘的自学习故障根因定位系统,该系统具有自动提取运维知识、自动打标、挖掘规则等功能,实现了基于多维度分析的快速高效的故障诊断。通过实验表明,该系统可以在保证故障诊断准确率的前提下,大幅减少平均故障排查时间和故障排查人力成本。
关键词
根因定位
异常诊断
人工智能
数据挖掘
智能运维系统
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于CMDB的信息系统故障根因定位技术的研究
被引量:2
12
作者
闫祎颖
何云瑞
陈亮
王宁
李扬
郑思远
机构
国家电网有限公司信息通信分公司
出处
《通信电源技术》
2020年第3期33-35,37,共4页
文摘
为帮助信息系统运维人员迅速定位故障根因,快速恢复业务,提出了基于CMDB的故障根因定位技术,将CMDB与BP神经网络相结合,从CMDB获取所需信息,通过BP神经网络模型进行学习,定位信息系统的故障根因,并在此基础上实现故障预测和自愈。从测试结果来看,此方法可实现故障根因的快速定位,从而提高运维人员工作效率以及信息系统可用率。
关键词
故障根因定位
CMDB
BP神经网络
Keywords
fault location
CMDB
BP Neural Network
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TN915.06
[电子电信—通信与信息系统]
题名 一种5G用户语音质差无线根因定位方法及实现
13
作者
杨新敢
机构
中国移动通信集团福建有限公司网络部
出处
《现代工业经济和信息化》
2022年第8期244-246,共3页
文摘
随着5G网络大规模建设及商用,快速准确定位5G用户语音通话问题及行业网络自动驾驶的演进需求,开发一套基于大数据的语音问题识别,关联O域性能指标、MRO、OTT指纹库、故障,并采用阶梯染色方法实现自动输出投诉问题主因的算法。该算法可自动识别问题的主次因,可直接用于一线人员落地执行,或转化成可在基站管理参数平台自动执行的方案,提升投诉处理效率和网络自动驾驶能力。
关键词
大数据
根因定位
投诉
语音质差
Keywords
big data
root cause location
complaints
poor voice quality
分类号
TN929.5
[电子电信—通信与信息系统]
题名 基于知识图谱和因果算法的告警根因定位方法研究
被引量:1
14
作者
覃华云
吴侃
毛恒
机构
中盈优创资讯科技有限公司
出处
《网络安全技术与应用》
2023年第3期41-43,共3页
文摘
随着社会的发展,网络建设的拓扑结构越来越庞大且繁杂,当系统某一设备发生故障时,会导致相关设备在短时间内衍生出大量告警,这就导致运维人员难以在短时间内找到根本原因并解决,此时会导致整个网络部分或整体功能不可用。近年来,关于研究如何压缩告警信息并快速定位链路根因的方法越来越多,目前使用较多的方法是对大量的告警信息进行聚类收敛处理,从而减少最终需要解析的告警信息,这样的方法虽然减轻了运维人员部分工作量,但是告警的数据量对于人工定位来说依然较多,且收敛出的告警信息缺乏可解释性,对于定位设备及故障帮助有限。本文给出一种基于知识图谱和因果算法的告警根因定位方法,利用设备拓扑关系以及告警因果关系,给出告警发生的链路并定位出根因告警及设备,有效提升运维人员的工作效率。
关键词
知识图谱
因果算法
根因定位
方法研究
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.0
[自动化与计算机技术—计算机应用技术]
题名 一种基于深度学习的微服务性能异常检测方法
15
作者
方浩天
李春花
王清
周可
机构
武汉光电国家研究中心(华中科技大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第3期600-613,共14页
基金
国家自然科学基金重点项目(62232007)
国家自然科学基金创新群体项目(61821003)。
文摘
微服务架构因具有良好的可扩展性和可维护性越来越受到云应用软件的青睐.与此同时,微服务之间复杂的交互使得系统的性能异常检测变得更加困难.现有的微服务性能异常检测方法均不能很好地建立跨不同调用路径的微服务及其对应的响应时间之间的复杂关系,导致异常检测准确率不高、根因定位不准确.提出了一种基于Transformer的微服务性能异常检测与根因定位方法TTEDA(Transformer trace explore data analysis).首先将调用链构建为微服务调用序列和对应的响应时间序列,然后借助自注意力机制捕捉微服务之间的调用关系,并通过编码器-解码器建立微服务的响应时间与其调用路径之间的关联关系,从而获得微服务在不同的调用链上的正常响应时间分布.基于学习到的正常模式判断调用链的异常,并可将异常精确到微服务级别.进一步地,利用微服务之间的调用关系以及异常的传播方式,对出现性能异常的微服务进行反向拓扑排序,实现了准确快速的根因定位.在开源基准微服务系统Train-Ticket的数据集和AIops挑战赛数据集评估了TTEDA的有效性,相比于同类异常检测方法AEVB,Multi-LSTM,TraceAnomaly,精确率平均提高了48.6%,30.2%,3.5%,召回率平均提高了34.7%,1.1%,4.1%.相比于根因定位算法MonitorRank和TraceAnomaly,根因定位的准确率分别提高了35.4个百分点和6.1个百分点.
关键词
微服务
异常检测
根因定位
调用链
TRANSFORMER
Keywords
microservice
anomaly detection
root cause localization
call chain
Transformer
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 全业务智能运维监测平台研究与建设
被引量:1
16
作者
杨飞
石博文
谢双伟
机构
江苏省广电有线信息网络股份有限公司
出处
《广播电视网络》
2024年第1期93-96,共4页
文摘
本文研究了依托大数据和智能技术构建的广电网络全业务智能运维监测平台,重点介绍了平台的建设情况。平台具备集中化运维、一体化管理、智能化分析、流程化控制等特点,针对各个独立的运维系统进行了横向整合、纵向挖掘。通过运维数据规范化采集、业务场景全方位监测、故障隐患智能定位、事件自动处理修复以及风险智能预警预判,实现了全业务统一智能运维。
关键词
智能运维
告警收敛
根因定位
故障预测
分类号
TN948.1
[电子电信—信号与信息处理]
题名 基于上下文的异常根因算法
17
作者
周书丞
李杨
李传荣
郭璐璐
贾辛洪
杨兴华
机构
中国科学院信息工程研究所
中国科学院大学网络空间安全学院
网络空间安全防御重点实验室
出处
《信息网络安全》
CSCD
北大核心
2024年第7期1062-1075,共14页
基金
国家自然科学基金[62372450]。
文摘
在当今大规模产业数字化转型的时代,云原生架构与微服务技术的结合已经成为转型的核心竞争力。这种开发模式提高了软件开发、部署和测试流程的完整性与灵活性。然而,随着互联网的发展,微服务架构下Trace数据的复杂性和时序问题导致异常检测准确率较低、根因定位较慢。针对这些挑战,文章提出了一种基于时序的多维度指标异常检测算法。该算法将多维度指标与时序异常检测结合,显著提高了异常检测的准确率。通过改良服务Trace度量向量,该算法解决了在物理资源充足的情况下异常检测准确性较低的问题,并通过时序检测进一步克服传统异常检测方法的局限。此外,文章还提出了一种基于“链路-操作”图与上下文结合的根因定位算法。该算法通过深入分析历史Trace数据中服务间的依赖关系,有效提高了根因定位的准确性。该算法将结构相似的Trace图融合,不仅节省了大量的构图时间,而且提高了根因定位的效率和精度。实验结果表明,与传统方法相比,本文所提的方法能更快、更准确地识别并定位异常根因。
关键词
云原生
微服务
Kubernetes
异常检测
根因定位
Keywords
cloud-native
microservices
Kubernetes
abnormal detection
root cause localization
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 VoNR语音吞字断续问题的处理方法研究
18
作者
祝海亮
周奕昕
于洋
许艳秋
机构
中国联合网络通信有限公司江苏省分公司
中国联合网络通信有限公司南京分公司
出处
《江苏通信》
2024年第3期15-19,共5页
文摘
针对5G VoNR语音质量的吞字断续问题,从覆盖、干扰、回落和容量四个维度开展关联性分析,研究VoNR吞字断续小区和10项关联指标的对应关系,制定该问题不同维度的质差根因判定标准,快速完成VoNR吞字断续在不同场景下的质差识别和根因定位,有效提升问题处理的准确性和时效性。该方法已经在江苏联通现网验证和应用,5G VoNR吞字断续小区比例下降35%,语音感知质量提升效果明显,为打造江苏联通5G网络语音精品网工作提供了有力支撑。
关键词
VoNR
吞字断续
质差识别
根因定位
分类号
TN929.5
[电子电信—通信与信息系统]
题名 IT监控中的三层智能关联实现及应用实践
19
作者
边江涛
机构
中国电信北京公司
出处
《中国新技术新产品》
2024年第9期22-25,共4页
文摘
本文提出了一种基于三层智能关联的监控框架。该框架专注于SaaS/PaaS/IaaS三层资源的统一管理和关联,利用智能关联技术自动识别资源实体并构建资源间的关联关系。采用多维时序指标算法和事件链法2种方法,针对异常检测和根因分析提供有效的解决方案。在北京电信CRM系统中的实际应用中验证了这些方法的有效性,成功诊断了多个异常情况,证明了该监控框架在实践中的可行性。该框架为各种IT系统监控提供新的思路和解决方案,提高资源管理的自动化水平和故障排除的效率,对企业的运维和管理有重要的价值。
关键词
IT监控
智能关联
SAAS
PAAS
IAAS
根因定位
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于AI的5G自智网络异动检测与应用
20
作者
李军
机构
中国移动通信集团河南有限公司
出处
《电信工程技术与标准化》
2024年第5期43-47,共5页
文摘
当前多层网络并存,结构复杂,网络维护面临挑战。本文提出基于AI的5G自智网络异动检测方案,通过搭建关键性能指标动态预警体系,实时洞察5G网络质量问题,精准分析定位问题根因,提供7×24h的网络关键指标自动监控。应用效果验证表明,异动检测问题定位准确率可达到92%,大幅提升维护优化现场分析解决问题效率和质量,支持5G自智网络实现智能化运维的目标。
关键词
AI
自智网络
异动检测
模型训练
根因定位
Keywords
AI
autonomous network
abnormal detection
model training
root cause localization
分类号
TN929.5
[电子电信—通信与信息系统]