对于大规模系统日志的日志模式提炼算法的优化被引量：6

Optimization of the log pattern extraction algorithm for large-scale syslog files

下载PDF

导出

摘要 LARGE框架是部署在中国科学院超级计算环境中的日志分析系统,通过日志收集、集中分析、结果反馈等步骤对环境中的各种日志文件进行监控和分析。在对环境中系统日志的监控过程中,系统维护人员需要通过日志模式提炼算法将大量的过往系统日志记录缩减为少量的日志模式集合。然而随着日志规模的增长以及messages日志文件的特殊性,原有的日志模式提炼算法已经难以满足对大规模日志快速处理的需要。介绍了一种对于日志模式提炼算法的优化方法,通过引入MapReduce机制实现在存在多个日志输入文件的情况下对日志处理和模式提炼的流程进行加速。实验表明,当输入文件较多时,该优化方法能够显著提高词汇一致率算法的运行速度,大幅减少运行时间。此外,还对使用词汇转换函数时的算法运行时间和提炼效果进行了验证。 The LARGE system is a log analysis framework deployed in the supercomputing environment in Chinese Academy of Sciences. It monitors and analyzes various log files in the environment through log collection, centrally analysis and result feedback. In the process of monitoring system logs, it is necessary for system maintenance personnel to reduce the large number of original logs into a small set of log patterns using the log pattern extraction algorithm. However, because of the fast increase of log size and the peculiarity of messages log files, the traditional log pattern extraction algorithm fails to satisfy the requirement of rapid processing of logs. We propose an optimization method for the log pattern extraction algorithm by introducing the idea of the MapReduce mechanism to accelerate the process of log pattern extraction in case of multiple input log files. Evaluation results show that when there are a number of input files, the optimization method can significantly improve the running speed of the vocabulary consistency algorithm and greatly reduce the running time. We also evaluate the time cost and the extraction effect the optimization algorithm when the vocabulary conversion function is used.

作者赵一宁肖海力

机构地区中国科学院计算机网络信息中心

出处《计算机工程与科学》 CSCD 北大核心 2017年第5期821-828,共8页 Computer Engineering & Science

基金国家重点研发计划项目(2016YFB0201404) 十二五863重大项目(2014AA01A302)

关键词日志处理 MapReduce机制大数据分析网格环境 log processing MapReduce big-data analysis grid environment

分类号 TP393.027 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1迟学斌,肖海力,王小宁,曹荣强,卢莎莎,张宏海.面向科学计算的网格环境[J].集成技术,2012,1(1):68-76. 被引量：11
2和荣,肖海力.基于Nagios的监控平台的设计与实现[J].科研信息化技术与应用,2014,5(5):77-85. 被引量：15

二级参考文献20

1储久良.基于SNMP应用服务器的监控平台构建与实现[J].实验室研究与探索,2010,29(1):65-68. 被引量：12
2Nagios项目组.Nagios-3应用指南[S],http://www.nagios.org,2008.
3Jin H.ChinaGrid: Making Grid Computing a Reality. Digital Libraries: International Collaboration and Cross-Fertilization . 2005
4Youchan Zhu,Pengfei Shen.Bring AJAX to web application based on grid service. 2009 International Conference on Intelligent Human-Machine Systems and Cybernetics, IHMSC 2009 . 2009
5C. Catlett,W.E. Allcock,P. Andrews,R. Aydt,R. Bair,N. Balac,B. Banister,T. Barker,M. Bartelt,P. Beckman, and others."Teragrid:Analysis of organization, system architecture, and middleware enabling new types of applications,". HPC and Grids in Action . 2007
6Foster I,Kesselman C.The Grid 2: Blueprint for a New Computing Infrastructure. . 2004
7J Zhou,K Li,L Tang.Towards a fully distributed P2P web search engine. Proceedings of the 10th IEEE International Workshop on Future Trends of Distributed Computing Systems (FTDCS＇04) . 2004
8Grid computing. http://www.gridcomputing.com/ .
9Cao R Q,Chi X B,Cao Z Y,et al.USGPA:a user-centric and secure grid portal architecture for high-performance computing. IEEE International Symposium on Parallel and Distributed Processing with Application . 2009
10Yang X,Allan R.Bringing AJAX to grid portals. Collaborative Technologies and Systems.2007CTS International Symposium . 2007

共引文献22

1郑伟,闫晓飞,胡庆宝.分布式计算站点统一部署和监控系统的研究与实现[J].科研信息化技术与应用,2018,9(3):14-19.
2曹荣强,肖海力,王小宁,卢莎莎,刘芳,王彦棡.科学计算环境文件传输和共享服务[J].科研信息化技术与应用,2018,9(3):26-33. 被引量：1
3王小宁,肖海力,卢莎莎.面向科学计算云服务平台的访问控制模型CAQF[J].科研信息化技术与应用,2014,5(5):10-18. 被引量：1
4邓子云,章兢,刘杨兵,肖久如.“天河一号”工业设计仿真云平台中间件研究[J].中国机械工程,2015,26(6):766-772. 被引量：4
5徐光.基于Nagios的运维监控系统的构建与应用[J].信息系统工程,2015,0(3):77-78. 被引量：1
6朱俚治.试谈Nagios的网络监测功能[J].电脑编程技巧与维护,2016(2):27-28.
7贾宝军,徐雷,郭玉华,熊微,李素粉.跨数据中心的统一监控研究与实现[J].电信科学,2016,32(3):2-6. 被引量：5
8张博尧,刘纯,陈亭,姜金荣,邓笋根.数值天气预报一体化平台构建[J].计算机工程与设计,2016,37(12):3394-3399.
9赵一宁,肖海力.网格环境日志分析框架LARGE的设计[J].科研信息化技术与应用,2016,7(3):3-7. 被引量：6
10王小宁,肖海力,曹荣强.面向高性能计算环境的作业优化调度模型的设计与实现[J].计算机工程与科学,2017,39(4):619-626. 被引量：17

同被引文献40

1戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011,16(4):37-39. 被引量：24
2杨艳,邱艳丽.新的基于日志分析的用户个性化模型[J].计算机科学与探索,2012,6(4):333-342. 被引量：3
3周勇禄,吴海燕,蒋东兴.基于统计异常的Web应用入侵检测模型研究[J].计算机安全,2012(5):8-12. 被引量：7
4吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
5孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2393
6白俊,郭贺彬.基于ElasticSearch的大日志实时搜索的软件集成方案研究[J].吉林师范大学学报（自然科学版）,2014,35(1):85-87. 被引量：24
7陈文文,吴开超.海量域名日志数据分析与可视化研究及应用[J].计算机应用研究,2016,33(2):335-338. 被引量：10
8陈亚杰,王锋,邓辉,刘应波.ElasticSearch分布式搜索引擎在天文大数据检索中的应用研究[J].天文学报,2016,57(2):241-251. 被引量：19
9甘冬连,张永,刘博.基于MapReduce并行SVM的垃圾邮件分类[J].软件导刊,2016,15(6):10-12. 被引量：2
10廖湘科,李姗姗,董威,贾周阳,刘晓东,周书林.大规模软件系统日志研究综述[J].软件学报,2016,27(8):1934-1947. 被引量：37

引证文献6

1姚攀,马玉鹏,徐春香.基于ELK的日志分析系统研究及应用[J].计算机工程与设计,2018,39(7):2090-2095. 被引量：30
2杨琴,刘刚.基于日志分析的网络性能检测分析平台设计与应用[J].重庆理工大学学报（自然科学）,2019,33(8):165-169.
3刘艳春.基于大数据分析技术的计算机网络日志分析系统研究[J].信息与电脑,2021,33(15):35-37. 被引量：2
4凌仕勇,龚锦红.基于SVM和Word2Vec的Web应用入侵检测系统[J].网络安全与数据治理,2022,41(8):13-19. 被引量：1
5龚锦红,凌仕勇.基于ELK的高校Web日志安全分析[J].计算机时代,2022(11):38-42. 被引量：1
6朱增,王绥成.一种用于移动设备的用户快捷反馈方法[J].电子技术与软件工程,2022(23):96-99.

二级引证文献34

1刘丽婕,杨昆桦,王泽芬,蒋友权.信息碎片化的模式探讨企业大数据的挖掘[J].电力大数据,2018,21(12):76-82.
2秦锐,袁毅哲,秦道祥.基于ELK流量分析平台在高校网络安全管理中的应用[J].计算机应用与软件,2019,36(6):317-321. 被引量：13
3鲜征征,叶嘉祥.一种改进的ELK日志采集与分析系统[J].软件导刊,2019,18(8):105-110. 被引量：11
4杨琴,刘刚.基于日志分析的网络性能检测分析平台设计与应用[J].重庆理工大学学报（自然科学）,2019,33(8):165-169.
5张佳静,王啸.空中交通流量管理日志系统研究与设计[J].江苏科技信息,2019,36(24):42-46.
6李志民,孙林檀,吴建军,张新征.基于大数据的ELK日志分析系统研究及应用[J].科学与信息化,2019,0(28):54-54. 被引量：2
7阮晓龙,冯顺磊.基于ELK的Windows系统安全风险分析的研究探索[J].软件,2019,40(11):202-207. 被引量：2
8阮晓龙,张浩林.基于ELK的Apache日志实时分析系统探索与分析模型研究[J].电脑与信息技术,2020,28(1):54-57. 被引量：4
9许文龙,胡金霞.基于Elasticsearch的高校评教大数据分析平台的设计与实现[J].科技资讯,2019,17(35):10-12. 被引量：1
10张军,王芬芬.基于正则表达式的日志解析系统构建研究[J].无线互联科技,2020,17(3):48-49.

1应用问答——桌面[J].开放系统世界,2004(10):118-120.
2张茹,薛凯,李玮晖,晏楠根,熊育婷.基于分块技术的改进LPB人脸识别算法的研究[J].电脑知识与技术（过刊）,2016,22(4X):173-176. 被引量：2
3ST.Stone.都是系统日志惹的祸[J].家庭电脑世界,2004(04X):34-34.
4王娜,刘思国,李亚静.用VBA实现Excel电子表格汉字与拼音的转换[J].电脑编程技巧与维护,2017(4):31-34.
5张永奎.SPSS—X输入文件的自动生成[J].电脑开发与应用,1993,6(3):8-11.
6庄育飞.搜索引擎的搜索技巧[J].津图学刊,1999(3):37-43. 被引量：4
7陈森博,陈张杰.基于Hadoop集群的日志分析系统的设计与实现[J].电脑知识与技术,2013(12):7647-7650. 被引量：2
8任静.基于Hadoop云存储高速公路远程视频监控系统的研究与设计[J].西安航空学院学报,2014,32(5):60-63. 被引量：7
9安全观察[J].网管员世界,2012(22):97-97.
10李震,杜中军.云计算环境下的改进型Map-Reduce模型[J].计算机工程,2012,38(11):27-29. 被引量：7

计算机工程与科学

2017年第5期

浏览历史

内容加载中请稍等...

对于大规模系统日志的日志模式提炼算法的优化被引量：6

参考文献2

二级参考文献20

共引文献22

同被引文献40

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

对于大规模系统日志的日志模式提炼算法的优化 被引量：6

参考文献2

二级参考文献20

共引文献22

同被引文献40

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

对于大规模系统日志的日志模式提炼算法的优化被引量：6