基于CNN-BiLSTM模型的日志异常检测方法被引量：7

Log Anomaly Detection Method Based on CNN-BiLSTM Model

下载PDF

导出

摘要目前日志异常检测领域存在数据量大、故障和攻击威胁隐蔽性高、传统方法特征工程复杂等困难,研究卷积神经网络(CNN)、循环神经网络等迅速发展的深度学习技术,能够为解决这些问题提供新的思路。提出结合CNN和双向长短时记忆循环神经网络(Bi-LSTM)优势的CNN-BiLSTM深度学习模型,在考虑日志键显著时间序列特征基础上,兼顾日志参数的空间位置特征,通过拼接映射方法进行最大程度避免特征淹没的融合处理。在此基础上,分析模型复杂度,同时在Hadoop日志HDFS数据集上进行实验,对比支持向量机(SVM)、CNN和Bi-LSTM验证CNN-BiLSTM模型的分类效果。分析和实验结果表明,CNN-BiLSTM达到平均91%的日志异常检测准确度,并在WC98_day网络日志数据集上达到94%检测准确度,验证了模型良好的泛化能力,与SVM CNN和Bi-LSTM相比具有更优的检测性能。此外,通过消融实验表明,词嵌入和全连接层结构对于提升模型准确率具有重要作用。 At present,the field of log anomaly detection has difficulties such as large data volume,high concealment of faults and attack threats,and complex feature engineering of traditional methods.The rapid research and development of deep learning provides new ideas for solving these problems.Here we propose to combine Convolutional Neural Network(CNN)and Bi-LSTM. The superior CNN-BiLSTM deep learning model not only considers the significant time series characteristics of the log key,but also takes into account the spatial location characteristics of the log parameters,and uses the splicing mapping method to perform feature fusion processing to avoid mutual inundation to the greatest extent,which is feasible in analyzing model complexity After the performance,based on the Hadoop log HDFS data set,comparing CNN and Bi-LSTM to verify the superior CNN-BiLSTMassification effect of the CNN-BiLSTM model,reaching about 91% log anomaly detection accuracy,and reaching 94% detection accuracy on the WC98_day Web log data set. Verify the good generalization ability of the CNN-BiLSTM model,and finally analyze the importance of word embedding and fully connected layer structure in the CNN-BiLSTM model through ablation experiments.

作者孙嘉张建辉卜佑军陈博胡楠王方玉 SUN Jia;ZHANG Jianhui;BU Youjun;CHEN Bo;HU Nan;WANG Fangyu(Zhong Yuan Network Security Research Institute,Zhengzhou University,Zhengzhou 450001,China;PLA Strategic Support Force Information Engineering University,Zhengzhou 450001,China)

机构地区郑州大学中原网络安全研究院中国人民解放军战略支援部队信息工程大学

出处《计算机工程》 CAS CSCD 北大核心 2022年第7期151-158,167,共9页 Computer Engineering

基金国家自然科学基金(62176264) 郑州市协同创新重大专项(20XTZX-X010)。

关键词日志异常检测深度学习特征融合泛化能力消融实验 log anomaly detection deep learning feature fusion generalization ability ablation experiment

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1梅御东,陈旭,孙毓忠,牛逸翔,肖立,王海荣,冯百明.一种基于日志信息和CNN-text的软件系统异常检测方法[J].计算机学报,2020,43(2):366-380. 被引量：36
2王勇,李战怀,张阳.基于序列关联规则挖掘的Web日志预测精度研究[J].计算机工程,2006,32(12):39-41. 被引量：1
3施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218

二级参考文献19

1谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
2许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
3柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
6Frias-Martinez F,V E K.A Prediction Model for User Access Sequences[C].Proceedings of the WebKDD Workshop:Web Mining for Usage Patterns and User Profiles,2002.
7Yang H,Parthnsarathy S.On the Use of Constrained Association for Web Log Prediction[C].Proceedings of WebKDD,2003:100-118.
8Mobasher B,Dai H,Luo T,et al.Effective Personalization Based on Association Rule Discovery from Web Usage Data[C].Proc.of 3rd ACM Workshop on Web Information and Data Management,2001.
9Yang Q.Building Association Rule Based Sequential Classifiers for Web-document Predition[J].Data Mining and Knowledge Discovery,2004,8(3):253-273.
10Clarknet Internet Provider Log[Z].http://www.web-caching.com/ traces-logs.html.

共引文献252

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
5王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：4
6陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
7杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：3
8任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
9司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1
10胡志敏.基于综合权重的多文档关键词抽取算法[J].计算机与数字工程,2010,38(6):45-48. 被引量：1

同被引文献30

1童巍,吴翔.轮胎起重机集卡防吊起系统的研究与应用[J].起重运输机械,2017(12):95-97. 被引量：8
2钟雅,郭渊博.基于机器学习的日志解析系统设计与实现[J].计算机应用,2018,38(2):352-356. 被引量：16
3Bendong Zhao,Huanzhang Lu,Shangfeng Chen,Junliang Liu,Dongya Wu.Convolutional neural networks for time series classification[J].Journal of Systems Engineering and Electronics,2017,28(1):162-169. 被引量：44
4应毅,任凯,刘亚军.基于大数据的网络日志分析技术[J].计算机科学,2018,45(B11):353-355. 被引量：16
5黄伟,赵德安,刘晓洋.基于机器视觉的港口集装箱卡车防吊方法研究[J].软件导刊,2019,18(5):37-40. 被引量：3
6高忠石,苏旸,柳玉东.基于PCA-LSTM的入侵检测研究[J].计算机科学,2019,46(S11):473-476. 被引量：23
7叶興,薛家祥.改进型LSTM网络光伏发电功率预测研究[J].中国测试,2019,45(11):14-20. 被引量：14
8刘海波,武天博,沈晶,史长亭.基于GAN-LSTM的APT攻击检测[J].计算机科学,2020,47(1):281-286. 被引量：14
9梅御东,陈旭,孙毓忠,牛逸翔,肖立,王海荣,冯百明.一种基于日志信息和CNN-text的软件系统异常检测方法[J].计算机学报,2020,43(2):366-380. 被引量：36
10杨国田,王英男,谢锐彪,刘凯.基于变量选择的深度置信神经网络锅炉烟气NOx排放预测[J].热力发电,2020,49(4):34-40. 被引量：17

引证文献7

1武松,马永光.基于混合深度网络的电站锅炉NO_(x)排放预测[J].中国测试,2022,48(10):166-174. 被引量：4
2禹宁,谷良,狄婷.基于深度学习的网络攻击检测模型[J].火力与指挥控制,2023,48(5):66-74. 被引量：4
3刘诗瑶,张忠民.基于视频的中文连续手语识别算法[J].应用科技,2023,50(3):44-49. 被引量：1
4尹春勇,张杨春.基于CNN和Bi-LSTM的无监督日志异常检测模型[J].计算机应用,2023,43(11):3510-3516. 被引量：2
5杨光,闫谦时,容晓峰.词向量模型对CNN日志异常检测的性能影响研究[J].西安工业大学学报,2023,43(6):578-587. 被引量：1
6刘嘉杰,刘国平,胡文山.基于电机数据图像化的多时序变量间接卡车误吊起检测[J].计算机工程,2024,50(10):370-380.
7胡国乐,李鹏,林事力,纵彪.基于相位变换和CNN-BiLSTM的自动调制识别算法[J].电讯技术,2024,64(11):1780-1787.

二级引证文献12

1许子明,姜浩,赵文杰.基于IHHO-LSTM的SCR脱硝反应器出口NO_(x)浓度预测[J].电力科学与工程,2023,39(8):71-78. 被引量：4
2张强.火电厂锅炉炉内低氮燃烧运行优化试验研究[J].工业炉,2023,45(5):19-23. 被引量：1
3武晨雨,陶银罗,曾九孙.引入注意力机制时空深度神经网络的再热器温度偏差预测方法[J].中国测试,2024,50(1):151-159.
4姚顺春,李龙千,卢志民,李峥辉.机器学习驱动锅炉燃烧优化技术的现状与展望[J].洁净煤技术,2024,30(2):228-243. 被引量：1
5李晓粉,张兆娟.弱关联节点强化下网络泛洪攻击检测方法研究[J].现代电子技术,2024,47(7):100-103.
6牛帅,宗诗怡,胡威,许彬,董振华.基于X-CUBE-AI的神经网络手语识别系统设计[J].工业控制计算机,2024,37(3):21-23.
7王洁,吕奕飞.基于支持向量机的通信网络攻击行为分类检测方法[J].信息与电脑,2024,36(6):41-43.
8纪威宇,张永,姜巍.面向业务需求的知识增强大模型生成框架技术研究[J].软件,2024,45(5):158-160.
9何佳月.增量式学习支持下的电力监控系统网络安全攻击检测分析[J].电工技术,2024(13):43-45.
10李君,徐春婕,张文宗,王振,李逸.管控平台综合监控告警系统设计与实现[J].铁路计算机应用,2024,33(9):44-49.

1吴宇平,邢丽刃,秦绪杰.数据中心IPv6网络日志采集平台的设计与实现[J].应用科技,2022,49(3):76-83. 被引量：1
2王伟洁.全球数据勒索攻击威胁新特点及对策建议[J].智能网联汽车,2022(3):40-43.
3朱宏.复杂网络环境下网络安全日志实时分析方案研究[J].信息与电脑,2022,34(6):224-227. 被引量：2
4郝付祥,穆安乐.液压缸磁流体密封的有限元分析及实验研究[J].西安理工大学学报,2022,38(1):27-31. 被引量：3
5寇文龙,张宇阳,李凤华,曹晓刚,李佳旻,王竹,耿魁.密码服务资源按需高效调度方案[J].通信学报,2022,43(6):108-118. 被引量：2
6郭宁,程惠敏,高宁,高东阳,章超.长头卡车发动机舱盖开关耐久分析及结构优化[J].汽车零部件,2022(6):47-50.
7程元鸿,金驰,程佩哲,吕博良.数字化时代下对新型“跑分洗钱”的防控与思考[J].中国金融电脑,2022(6):67-70.
8吴祖康,徐志成,陈若鹏.云原生架构下的容器安全深度检测与智能防护实践[J].电脑知识与技术,2022,18(13):34-36. 被引量：3
9王爽.基于IPv6的网络日志分析系统研究[J].计算机时代,2022(7):52-54. 被引量：2
10李伟.坚持总体国家安全观打好网络空间意识形态领域斗争主动仗[J].国防教育,2022(5):34-35.

计算机工程

2022年第7期

浏览历史

内容加载中请稍等...

基于CNN-BiLSTM模型的日志异常检测方法被引量：7

参考文献3

二级参考文献19

共引文献252

同被引文献30

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于CNN-BiLSTM模型的日志异常检测方法 被引量：7

参考文献3

二级参考文献19

共引文献252

同被引文献30

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于CNN-BiLSTM模型的日志异常检测方法被引量：7