题名 微服务系统服务依赖发现技术综述
被引量:5
1
作者
张齐勋
吴一凡
杨勇
贾统
李影
吴中海
机构
北京大学信息科学技术学院
北京大学软件与微电子学院
北京大学软件工程国家工程研究中心
北京大学人工智能研究院
出处
《软件学报》
EI
CSCD
北大核心
2024年第1期118-135,共18页
基金
广东省重点领域研发计划(2020B010164003)
华为产学研合作课题2021-2022。
文摘
微服务架构得到了广泛的部署与应用,提升了软件系统开发的效率,降低了系统更新与维护的成本,提高了系统的可扩展性.但微服务变更频繁、异构融合等特点使得微服务故障频发、其故障传播快且影响大,同时微服务间复杂的调用依赖关系或逻辑依赖关系又使得其故障难以被及时、准确地定位与诊断,对微服务架构系统的智能运维提出了挑战.服务依赖发现技术从系统运行时数据中识别并推断服务之间的调用依赖关系或逻辑依赖关系,构建服务依赖关系图,有助于在系统运行时及时、精准地发现与定位故障并诊断根因,也有利于如资源调度、变更管理等智能运维需求.首先就微服务系统中服务依赖发现问题进行分析,其次,从基于监控数据、系统日志数据、追踪数据等3类运行时数据的角度总结分析了服务依赖发现技术的技术现状;然后,以基于服务依赖关系图的故障根因定位、资源调度与变更管理等为例,讨论了服务依赖发现技术应用于智能运维的相关研究.最后,对服务依赖发现技术如何准确地发现调用依赖关系和逻辑依赖关系,如何利用服务依赖关系图进行变更治理进行了探讨并对未来的研究方向进行了展望.
关键词
服务依赖
故障诊断
微服务
Keywords
service dependency
fault diagnosis
microservice
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于服务依赖图的微服务系统故障根因定位方法
2
作者
张齐勋
贾统
杨勇
李影
机构
北京大学
北京大学
北京大学
北京大学
出处
《数据与计算发展前沿(中英文)》
CSCD
2024年第4期87-95,共9页
基金
国家重点研发计划(2021YFF0704202)。
文摘
【目的】为解决微服务架构中频繁出现的系统故障以及异常快速传播的问题,特别是由于服务粒度细、更新迭代频繁及服务依赖复杂性引起的诊断复杂性,本文提出了一种基于动态微服务依赖图的故障根因快速定位方法。【方法】本方法基于微服务的配置信息和日志数据,动态生成服务依赖图,有效捕获服务间的动态依赖变化。在故障发生时,利用服务依赖图和异常事件数据推断异常间的因果链,构造异常因果关系图。结合服务依赖的权重,通过服务依赖图中搜寻并排序可能的根因节点,以实现异常源头的精准定位。【结果】实验结果表明,本方法异常根因top 5平均定位精确率达到66%,优于现有其它同类方法。
关键词
微服务
服务依赖
异常因果关系
根因定位
Keywords
microservice
service dependency
anomaly causal relationship
root cause localization
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
题名 基于日志数据的分布式软件系统故障诊断综述
被引量:31
3
作者
贾统
李影
吴中海
机构
北京大学信息科学技术学院
北京大学软件工程国家工程研究中心
出处
《软件学报》
EI
CSCD
北大核心
2020年第7期1997-2018,共22页
基金
广东省重点领域研发计划(2020B010164003)。
文摘
基于日志数据的故障诊断是指通过智能化手段分析系统运行时产生的日志数据以自动化地发现系统异常、诊断系统故障.随着智能运维(artificial intelligence for IT operations,简称AIOps)的快速发展,该技术正成为学术界和工业界的研究热点.首先总结了基于日志数据的分布式软件系统故障诊断研究框架,然后就日志处理与特征提取、基于日志数据的异常检测、基于日志数据的故障预测和基于日志数据分析的故障根因诊断等关键技术对近年来国内外相关工作进行了深入分析,最后以所提出的研究框架为指导总结相关研究工作,并对未来研究可能面临的挑战进行了展望.
关键词
日志数据
异常检测
故障预测
故障根因诊断
Keywords
log analysis
anomaly detection
failure prediction
fault diagnosis
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于程序层次树的日志打印位置决策方法
被引量:1
4
作者
贾统
李影
张齐勋
吴中海
机构
北京大学信息科学技术学院
北京大学软件工程国家工程研究中心
北京大学软件与微电子学院
出处
《软件学报》
EI
CSCD
北大核心
2021年第9期2713-2728,共16页
基金
国家重点研发计划(2017YFB1002002)。
文摘
基于日志分析的故障诊断是智能运维的关键技术之一,然而该技术存在关键瓶颈--日志的质量.当今,由于程序开发人员缺乏日志打印规范和指导等问题,日志质量欠佳,因此实现日志的自动化打印决策以提升日志质量的需求日益迫切.关注自动化日志打印决策问题,与现有研究工作不同,提出一种基于程序层次树和逆序组合的特征向量生成方法,能够适用于不同编程语言编写的软件系统.此外,还利用迁移学习算法实现跨组件和跨软件系统的日志打印位置决策.在3个典型的应用场景--版本升级、组件开发和系统开发及5个流行的开源软件系统--OpenStack,Tensorflow,SaltCloud,Hadoop和Angel上的实验表明:所述方法在Java系统中的日志打印决策准确率约为95%,在Python系统中的日志打印决策准确率约为70%.
关键词
日志打印位置决策
程序层次树
迁移学习
Keywords
logging decision
program layered structure tree
transfer learning
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 CL迭代重建算法的GPU实现
被引量:2
5
作者
贾统
刘双全
孙校丽
魏存峰
乔志伟
刘宝东
机构
中国科学院高能物理研究所
中国科学院大学核科学与技术学院
山西大学计算机与信息技术学院
出处
《中国体视学与图像分析》
2020年第4期393-400,共8页
基金
国家重点研发计划资助(2017YFF0107201)
中国科学院创新交叉团队项目资助(JCTD-2019-02)
+2 种基金
山西省重点研发计划(201803D421012)
山西省回国留学人员科技活动择优资助项目(RSC1622)
山西省回国留学人员科研资助项目(2020-008)。
文摘
计算机层析成像技术(Computer Laminography,CL)主要用于大尺寸、低厚度板状物体的无损检测。迭代重建算法虽然适用于CL这种角度受限的扫描方式,但是却非常耗时。本文研究了CL系统SART迭代重建算法的GPU加速方法。介绍了基于线驱动的投影,和基于线驱动及体素驱动的反投影的GPU加速方法,实验结果表明,采用GPU加速可以达到254倍的加速比。
关键词
计算机层析成像
联合代数重建算法
GPU加速
Keywords
computer laminography
simultaneous algebraic reconstruction technique
GPU acceleration
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 基于时间序列分析的杀手级任务在线识别方法
被引量:2
6
作者
唐红艳
李影
贾统
袁小雍
机构
北京大学软件与微电子学院
北京大学软件工程国家工程研究中心
出处
《计算机科学》
CSCD
北大核心
2017年第4期43-46,共4页
基金
深圳市科技计划重点项目(JSGG20140516162852628)资助
文摘
通过分析Google集群中任务的失效次数和失效模式,找到具有高失效频次和连续失效特征的杀手级任务。杀手级任务不仅影响云计算系统上应用运行的可靠性与可用性,而且会浪费大量资源并显著增加调度负载。在杀手级任务资源使用模式的基础上,提出一种基于时间序列的在线识别方法,以利用资源使用时间序列在失效早期准确识别出杀手级任务并通知云计算系统采取前摄性失效恢复措施,从而避免不必要的重复调度和资源浪费。实验结果表明,该方法能够以98.5%的准确率在平均3%的失效时间内识别出杀手级任务,同时节约96.75%的系统资源。
关键词
云计算系统
杀手级任务
在线识别
时间序列
资源使用模式
失效频率
Keywords
Cloud system
Killer tasks
Online recognition
Time series
Resource usage pattern
Failure frequency
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 在离线混部作业调度与资源管理技术研究综述
被引量:9
7
作者
王康瑾
贾统
李影
机构
北京大学软件与微电子学院
北京大学软件工程国家工程研究中心
北京大学信息科学技术学院
出处
《软件学报》
EI
CSCD
北大核心
2020年第10期3100-3119,共20页
基金
广东省重点领域研发计划(2020B010164003)。
文摘
数据中心是重要的信息基础设施,也是企业互联网应用的关键支撑.然而,目前数据中心的服务器资源利用率较低(仅为10%~20%),导致大量的资源浪费,带来了极大的额外运维成本,成为制约各大企业提升计算效能的关键问题.混部(colocation),即将在线作业与离线作业混合部署,以空闲的在线集群资源满足离线作业的计算需求,作为一种重要的技术手段,混部能够有效提升数据中心资源利用率,成为当今学术界和产业界的研究热点.分析了在线作业与离线作业的特征,探讨了在离线作业间性能干扰等混部所面临的技术挑战,从性能干扰模型、作业调度、资源隔离与资源动态分配等方面就在离线混部技术进行了综述,并以业界典型混部管理系统为例探讨了在离线混部关键技术在产业界的应用及其效果,最后对未来的研究方向进行了展望.
关键词
数据中心
资源利用率
调度算法
资源管理技术
性能干扰
Keywords
Internet datacenter
resource utilization
job scheduling
resource management technology
performance interference
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 面向分布式图计算作业的容错技术研究综述
被引量:4
8
作者
张程博
李影
贾统
机构
北京大学软件与微电子学院
北京大学软件工程国家工程研究中心
北京大学信息科学技术学院
出处
《软件学报》
EI
CSCD
北大核心
2021年第7期2078-2102,共25页
基金
广东省重点领域研发计划(2020B010164003)。
文摘
随着图数据规模的日益庞大和图计算作业的日益复杂,图计算的分布化成为必然趋势.然而图计算作业在运行过程中面临着分布式图计算系统内外各种来源的非确定性所带来的严峻的可靠性问题.首先分析了分布式图计算框架中不确定性因素和不同类型图计算作业的鲁棒性,并提出了基于成本、效率和质量3个维度的面向分布式图计算作业的容错技术评估框架,然后分别对分布式图计算的4种容错机制——基于检查点的容错、基于日志的容错、基于复制的容错、基于算法补偿的容错等机制结合国内外相关工作做了深入的分析、评估和比较.最后对未来的研究方向进行了展望.
关键词
图数据
故障和失效
分布式图计算
容错机制
非确定性软件系统
Keywords
graph data
fault and failure
distributed graph processing
fault tolerance
uncertainty software system
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种铝制空腔轮状零件的加工方法
被引量:1
9
作者
贾统
机构
上海烟草机械有限责任公司
出处
《机械工程师》
2017年第4期163-164,共2页
文摘
某包装轮为典型铝制薄壁空腔件,加工时容易产生较大变形,导致零件报废。文中设计合理的加工工艺及相应工装来减少加工变形,从而得到各项尺寸都符合要求的成品。
关键词
铝制锻件
空腔零件
薄壁零件
工装设计
Keywords
aluminum forging parts
cavity parts
thin-wall parts
fixture design
分类号
TH122
[机械工程—机械设计及理论]
题名 一种铝制异形薄壁零件的加工方法
10
作者
贾统
机构
上海烟草机械有限责任公司
出处
《机械工程师》
2017年第2期153-154,共2页
文摘
针对某铝制异形薄壁零件加工过程中易造成零件变形的问题,设计了相应的磨削工装,配合合理的加工工艺来减少加工变形,从而得到各项尺寸都符合要求的成品。
关键词
铝制零件
磨削
异形零件
薄壁零件
工装设计
Keywords
aluminum parts
grinding
special-shaped parts
thin-wall parts
fixture design
分类号
TH162
[机械工程—机械制造及自动化]