-
题名基于大规模网络日志的模板提取研究
被引量:7
- 1
-
-
作者
崔元
张琢
-
机构
东北师范大学信息与软件工程学院
教育部数字化学习支撑技术工程研究中心
-
出处
《计算机科学》
CSCD
北大核心
2017年第B11期448-452,共5页
-
文摘
针对直接从大型网络日志中提取网络事件困难的问题,提出了基于大规模网络日志的模板提取方法。该方法可将海量的、原始的网络日志主动转换为日志模板,从而为了解网络事件的根因和预防网络故障的发生提供重要的前期准备。首先分析日志的结构,将日志中的词划分为模板词和参数词两类;然后从3个不同的角度切入,分别对日志进行模板提取研究;最后使用互联网公司中的实际生产数据,采用Rand_index方法来评估3种提取方法的准确有效性。结果表明,在从服务集群中收集来的4种不同消息类型中,基于标签识别树模型提取到的日志模板的平均准确率达到99.57%,高于基于统计模板提取模型和基于在线提取模板模型的准确率。
-
关键词
切词
提取模板
统计聚类
标签识别树
在线聚类
-
Keywords
Cut words
Extract template
Statistical clustering
Signature tree
Online clustering
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名系统日志模板提取方法研究
被引量:3
- 2
-
-
作者
刘洪歧
陈远平
马建化
-
机构
中国科学院计算机网络信息中心
中国科学院大学
福建省龙岩烟草工业有限责任公司
-
出处
《计算机系统应用》
2019年第10期239-244,共6页
-
基金
新一代ARP试点项目(XXH13502-01)~~
-
文摘
提取日志模板是处理海量系统日志十分有效的方法.本文以Web系统日志为切入点,采用基于标签识别树的模板提取方法提取日志模板,并在其基础上,研究并完善了其日志预处理和模板表达式生成方法.针对于系统日志普遍存在的结构复杂问题,具体采用了基于文本相似度的预处理方法,实现了日志消息分类;采用模板最大匹配的方法,解决了由于日志格式不统一和切词导致的模板匹配度低的问题.最后,对本次日志模板提取方法的实验进行了评估,结果证明该方法的准确率达到96.4%,且模板匹配度大幅上升.
-
关键词
系统日志
文本相似度
日志模板
FP-TREE
标签识别树
-
Keywords
syslog
text similarity
extract template
FP-tree
signature tree
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-