基于CNN和Bi-LSTM的无监督日志异常检测模型被引量：2

Unsupervised log anomaly detection model based on CNN and Bi-LSTM

下载PDF

导出

摘要日志能记录系统运行时的具体状态,而自动化的日志异常检测对网络安全至关重要。针对日志语句随时间演变导致异常检测准确率低的问题,提出一种无监督日志异常检测模型LogCL。首先,通过日志解析技术将半结构化的日志数据转换为结构化的日志模板;其次,使用会话和固定窗口将日志事件划分为日志序列;再次,提取日志序列的数量特征,使用自然语言处理技术对日志模板进行语义特征提取,并利用词频-词语逆频率(TF-IWF)算法生成加权的句嵌入向量;最后,将特征向量输入一个并列的基于卷积神经网络(CNN)和双向长短期记忆(Bi-LSTM)网络的模型中进行检测。在两个公开的真实数据集上的实验结果表明,所提模型较基准模型LogAnomaly在异常检测的F1-score上分别提高了3.6和2.3个百分点。因此LogCL能够对日志数据进行有效的异常检测。 Logs can record the specific status of the system during the operation,and automated log anomaly detection is critical to network security.Concerning the problem of low accuracy in anomaly detection caused by the evolution of log sentences over time,an unsupervised log anomaly detection model LogCL was proposed.Firstly,the log parsing technique was used to convert semi-structured log data into structured log templates.Secondly,the sessions and fixed windows were employed to divide log events into log sequences.Thirdly,quantitative characteristics of the log sequences were extracted,natural language processing technique was used to extract semantic features of log templates,and Term Frequency-Inverse Word Frequency(TF-IWF)algorithm was utilized to generate weighted sentence embedding vectors.Finally,the feature vectors were input into a parallel model based on Convolutional Neural Network(CNN)and Bi-directional Long Short-Term Memory(Bi-LSTM)network for detection.Experimental results on two public real datasets show that the proposed model improves the anomaly detection F1-score by 3.6 and 2.3 percentage points respectively compared with the baseline model LogAnomaly.Therefore,LogCL can perform effectively on log anomaly detection.

作者尹春勇张杨春 YIN Chunyong;ZHANG Yangchun(School of Computer Science,Nanjing University of Information Science and Technology,Nanjing Jiangsu 210044,China)

机构地区南京信息工程大学计算机学院、网络空间安全学院

出处《计算机应用》 CSCD 北大核心 2023年第11期3510-3516,共7页 journal of Computer Applications

关键词异常检测深度学习日志分析词嵌入卷积神经网络双向长短期记忆网络 anomaly detection deep learning log analysis word embedding Convolutional Neural Network(CNN) Bi-directional Long Short-Term Memory(Bi-LSTM)network

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙嘉,张建辉,卜佑军,陈博,胡楠,王方玉.基于CNN-BiLSTM模型的日志异常检测方法[J].计算机工程,2022,48(7):151-158. 被引量：7
2王小林,杨林,王东,镇丽华.改进的TF-IDF关键词提取方法[J].计算机科学与应用,2013,3(1):64-68. 被引量：18

二级参考文献3

1王勇,李战怀,张阳.基于序列关联规则挖掘的Web日志预测精度研究[J].计算机工程,2006,32(12):39-41. 被引量：1
2施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
3梅御东,陈旭,孙毓忠,牛逸翔,肖立,王海荣,冯百明.一种基于日志信息和CNN-text的软件系统异常检测方法[J].计算机学报,2020,43(2):366-380. 被引量：36

共引文献23

1刘昊.情感视域下社交媒体平台舆论分层与社群挖掘研究[J].中国网络传播研究,2018(2). 被引量：1
2卓佳怡,于劲松,张力文,王浩然,吴聪,张舒,宋悦.基于TF-IDF算法的公文用户画像全文替换[J].办公自动化,2020(17):61-64. 被引量：1
3曹逸峰,陈晓伟.基于知识分层提取模型的服务台知识库建设[J].计算机系统应用,2015,24(2):261-265. 被引量：3
4申剑博.改进的TF-IDF中文本特征词加权算法研究[J].软件导刊,2015,14(4):67-69. 被引量：10
5张庆梅.针对舆情数据的去重算法[J].计算机系统应用,2017,26(5):16-22. 被引量：1
6何金金,郭振波,王开西.基于TextRank的网评产品特征提取方法[J].青岛大学学报（自然科学版）,2018,31(1):109-114. 被引量：3
7庄美美,陈逸新,杨昔阳.基于Matlab的实验报告自动批改模块的开发[J].闽西职业技术学院学报,2018,20(3):115-118. 被引量：1
8陈春玲,吴凡,余瀚.基于逻辑斯蒂回归的恶意请求分类识别模型[J].计算机技术与发展,2019,29(2):124-128. 被引量：10
9沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉.基于词干单元的维-哈语文本关键词提取研究[J].计算机工程与科学,2020,42(1):131-137. 被引量：4
10白杨.一种基于标签融合的微博主题生成方法[J].辽东学院学报（自然科学版）,2020,27(2):127-130.

同被引文献16

1张博,周亚军.大数据环境下智能日志分析平台运维[J].通讯世界,2021,28(2):289-290. 被引量：1
2徐春婕,陈瑞凤,贺晓玲,王静,李君.基于CPS的铁路客运站智能机房监控平台[J].计算机工程与设计,2022,43(2):596-600. 被引量：5
3宋景慧,胡春潮.基于数据库日志的电力多维系统智能运维模型[J].信息技术,2022,46(10):85-90. 被引量：1
4王鑫,王莹.基于LSTM-CNN的中小企业信用风险预测[J].系统科学与数学,2022,42(10):2698-2711. 被引量：7
5赵春兰,屈瑶,王兵,范翔宇,赵鹏斐,李屹,何婷.一种基于2D-CNN深度学习的钻井事故等级预测新方法[J].天然气工业,2022,42(12):95-105. 被引量：3
6王延,周凯,沈守枫.基于熵权法的教务大数据的挖掘和聚类分析[J].浙江工业大学学报,2023,51(1):84-87. 被引量：7
7张友,李聪波,林利红,钱静,易茜.数据不完备下基于Informer的离心鼓风机故障趋势预测方法[J].计算机集成制造系统,2023,29(1):133-145. 被引量：4
8马建军,朱建生,沈海燕,鲁玉龙,刘子宽.铁路信息化、数字化、智能化关系演化模型及评估方法[J].铁道科学与工程学报,2023,20(3):824-835. 被引量：18
9董煜,张友鹏.基于聚类赋权的冲突证据组合方法[J].通信学报,2023,44(3):157-163. 被引量：4
10苏宏伟,卢慧颖.基于熵权法的国有高新技术企业财务绩效评价——以欧比特为例[J].会计之友,2023(11):100-106. 被引量：8

引证文献2

1李君,徐春婕,张文宗,王振,李逸.管控平台综合监控告警系统设计与实现[J].铁路计算机应用,2024,33(9):44-49.
2任子兢,胡彦蓉,刘洪久,周懋泽.基于模糊多属性决策与深度学习的财务绩效预测研究[J].金融科技时代,2024,32(11):27-35.

1王红,赵玥玥,甘晓静.长江流域国家级非物质文化遗产的时空分布特征[J].地理空间信息,2023,21(11):81-85.
2马香华.基于结构化教学情境的生物学概念体系建构——以“种群的数量特征”教学为例[J].江苏教育研究,2023(19):75-78. 被引量：1
3李砚忠,刘月.我国数字乡村的研究进展与展望--基于CiteSpace的可视化分析[J].中共青岛市委党校青岛行政学院学报,2023(5):48-55. 被引量：1
4王昶.基于Web的电能表检定数据集成管理方法[J].信息与电脑,2023,35(13):203-205.
5王小雨,贾玉晟,张金穗,陈文,胡敏.居民就医障碍量表编制及信效度分析[J].中国卫生经济,2023,42(10):4-9. 被引量：4
6史叶明.大数据背景下公共图书馆群体阅读需求揭示研究[J].中文科技期刊数据库（全文版）图书情报,2023(11):167-171.
7施凌天,丁国辉,夏云鹏,葛玉峰,周济.结合激光雷达和三维性状分析的田间小麦产量分级研究[J].南京农业大学学报,2023,46(6):1011-1021. 被引量：1
8吴斌,何玲.基于森林生态系统演替的木荷-马尾松林种群生态位研究[J].林业科技情报,2023,55(4):26-28. 被引量：4
9王敏璇,阳璇,查启航,孙睿,任娜.顾及空间分布的改进薄板样条矢量数据几何精度降低方法[J].地球信息科学学报,2023,25(11):2120-2133. 被引量：1

计算机应用

2023年第11期

浏览历史

内容加载中请稍等...

基于CNN和Bi-LSTM的无监督日志异常检测模型被引量：2

参考文献2

二级参考文献3

共引文献23

同被引文献16

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于CNN和Bi-LSTM的无监督日志异常检测模型 被引量：2

参考文献2

二级参考文献3

共引文献23

同被引文献16

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于CNN和Bi-LSTM的无监督日志异常检测模型被引量：2