基于特征转移概率的网络日志聚类分析算法被引量：1

Web Log Clustering Analysis Algorithm Based on Feature Transition Probability

下载PDF

导出

摘要随着信息化建设,互联网行业的发展,各种信息设备在运行和通信中,会产生大量的网络日志数据.网络日志的内容是非结构化的格式,获取相关信息具有一定难度,并且这种数据正在迅速增长为庞大的体量,所以从中获得所需的信息并对相关信息进行处理,是一个非常具有挑战性的任务.数据挖掘的技术是非常传统的技术,实施往往耗费太多时间,并产生过多的数据,大数据环境下,传统的串行的网络日志聚类方法存在性能的局限性,不再适合处理网络日志这样的海量数据,目前比较常用的对于网络日志的并行处理方法在计算时间、并行效率、准确率等方面存在一定改进空间.因而,本文提出了一种基于特征转移概率改进的网络日志聚类处理技术,并在Apache Spark平台上实现了用于提取频繁的庞大的网络日志的模式.实验结果表明,所提出的方法能够在大数据环境下对完整的网络日志提取所需信息并实现高效的分析,相对于目前常见的聚类分析算法,本文提出的基于特征转移概率的处理方式将执行时间降低到了75.97%. With the development of information construction and Internet industry, a large amount of web log data is generated in the operation and communication of various information devices.The content of web logs is in unstructured format, and it is difficult to obtain relevant information, and this data is rapidly growing into a huge volume, so it is a very challenging task to obtain the required information from it and process the relevant information.Data mining is a very traditional technique, which often takes too much time to implement and generates too much data.In the big data environment, the traditional serial web log clustering method has performance limitations and is no longer suitable for dealing with such a huge amount of data as web logs, and there is some room for improvement in the computation time, parallel efficiency, and accuracy of the current more commonly used parallel processing methods for web logs.Thus, this paper proposes a web log clustering processing technique based on feature transition probability improvement, and implement a model for extracting frequent and huge web logs on Apache Spark platform.The experimental results show that the proposed method can extract the required information and achieve efficient analysis of complete weblogs in a big data environment, and the proposed feature transition probability-based processing reduces the execution time to 75.97% compared to the current common clustering analysis algorithms.

作者齐文朱曦源宋杰 QI Wen;ZHU Xi-yuan;SONG Jie(School of Engineering and Technology,Liaodong University,Dandong 118001,China;Software College,Northeastern University,Shenyang 110819,China)

机构地区辽东学院工程技术学院东北大学软件学院

出处《小型微型计算机系统》 CSCD 北大核心 2023年第3期514-520,共7页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61672143)资助。

关键词日志分析大数据 Apache Spark 聚类算法并行处理 log analysis big data Apache Spark clustering algorithm parallel processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘雪娟,袁家斌,操凤萍.云计算环境下面向数据分布的K-means聚类算法[J].小型微型计算机系统,2017,38(4):712-715. 被引量：12
2宋丹丹,翟俊海,李艳,齐家兴.MapReduce和Spark两种框架下的大数据极限学习机比较研究[J].小型微型计算机系统,2020,41(7):1381-1388. 被引量：9
3唐东凯,王红梅,胡明,刘钢.优化初始聚类中心的改进K-means算法[J].小型微型计算机系统,2018,39(8):1819-1823. 被引量：33
4梅御东,陈旭,孙毓忠,牛逸翔,肖立,王海荣,冯百明.一种基于日志信息和CNN-text的软件系统异常检测方法[J].计算机学报,2020,43(2):366-380. 被引量：36

二级参考文献17

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
3汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
4傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434. 被引量：76
5周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
6冷泳林,张清辰,赵亮,鲁富宇.基于离群点检测的K-means算法[J].渤海大学学报（自然科学版）,2014,35(1):34-38. 被引量：3
7谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
8段桂芹.基于均值与最大距离乘积的初始聚类中心优化K-means算法[J].计算机与数字工程,2015,43(3):379-382. 被引量：17
9成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：45
10马世龙,乌尼日其其格,李小平.大数据与深度学习综述[J].智能系统学报,2016,11(6):728-742. 被引量：88

共引文献86

1王江亭,靳丹.基于模糊聚类分析的云数据分布规律研究[J].自动化与仪器仪表,2017(10):11-12. 被引量：3
2涂斌斌,谷丽华,揣荣岩,许会.一种使用自适应小波去噪和SIFT描述符的步态识别研究[J].小型微型计算机系统,2018,39(6):1372-1376. 被引量：4
3李鹏飞,刘春宇,海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程,2018,18(7):185-190. 被引量：13
4段桂芹.基于全局中心聚类算法的学生成绩评价研究[J].智能计算机与应用,2019,9(1):80-83.
5潘品臣,姜合,吕奕锟.一种非独立同分布下K-means算法的初始中心优化方法[J].小型微型计算机系统,2019,40(6):1254-1259. 被引量：7
6徐雅斌,贾珊珊.软件定义网络的安全态势感知研究[J].小型微型计算机系统,2019,40(8):1682-1688. 被引量：10
7谢鹏寿,张宽,范宏进,贵向泉,张恩展.汽车4S店TFM客户细分模型及其方法研究[J].小型微型计算机系统,2019,40(10):2165-2169. 被引量：6
8张丹丹,游子毅,郑建,陈世国.基于改进的局部异常因子检测的优化聚类算法[J].微电子学与计算机,2019,36(11):43-48. 被引量：13
9汤文亮,张平,汤树芳.基于精英反向学习的萤火虫k-means改进算法[J].计算机工程与设计,2019,40(11):3164-3169. 被引量：10
10杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：288

同被引文献14

1申锐,吴睿.抽样改进加权核大数据谱聚类算法[J].机械设计与制造,2021(1):171-174. 被引量：3
2王雪蓉,万年红.云模式事件混沌关联特征提取的物联网大数据聚类算法[J].计算机应用研究,2021,38(2):391-397. 被引量：8
3李旻,何婷婷.基于随机数三角阵映射的高维大数据二分聚类初始中心高效鲁棒生成算法[J].电子与信息学报,2021,43(4):948-955. 被引量：6
4胡健,徐锴滨,毛伊敏.基于MapReduce和IFOA的并行密度聚类算法[J].计算机应用研究,2021,38(5):1336-1343. 被引量：3
5胡晓东,高嘉伟.基于分组模型的引力搜索智能大数据聚类方法[J].计算机工程与设计,2021,42(6):1660-1667. 被引量：9
6张强,白征东,辛浩浩,程宇航,郭锦萍.基于共享单车时空大数据的细粒度聚类[J].测绘通报,2021(5):15-19. 被引量：4
7陶涛,毛伊敏.基于MapReduce和改进人工蜂群算法的并行划分聚类算法[J].科学技术与工程,2021,21(21):8989-8998. 被引量：5
8李清.基于改进PSO-PFCM聚类算法的电力大数据异常检测方法[J].电力系统保护与控制,2021,49(18):161-166. 被引量：42
9郑冬花,叶丽珠,隋栋,黄锦涛.云计算环境中面向大数据的改进密度峰值聚类算法[J].济南大学学报（自然科学版）,2022,36(5):592-596. 被引量：4
10李巍,廖雪花,杨军.基于频繁子树模式的半结构化数据集聚类[J].计算机工程与设计,2022,43(10):2783-2789. 被引量：4

引证文献1

1王珂.并行处理网络下半结构化大数据快速聚类方法[J].信息技术与信息化,2024(1):126-130. 被引量：1

二级引证文献1

1袁伟,施佳,孙永强,周舶,肖斌.颗粒度动态控制的负载均衡算法的大数据分析[J].信息与电脑,2024,36(9):146-148.

1张志.基于用户画像对互联网用户个性化推荐与引导[J].电脑编程技巧与维护,2022(12):155-158. 被引量：1
2陈晓燕.基于聚类分析的网络异常流量入侵检测方法[J].科学与信息化,2023(2):65-67.
3张敏,唐镜雯,戴苏清,邵帅.基于深度学习的网络防火墙日志数据智能分析方法[J].电子技术与软件工程,2022(20):1-4.
4焦汝泉,赵华,陈会冬.甲状腺微小乳头状癌中淋巴结转移的临床特征及影响因素探析[J].中文科技期刊数据库（全文版）医药卫生,2022(11):26-29.
5袁逸涛.一种基于多源数据融合的高速公路运行监测系统设计[J].上海船舶运输科学研究所学报,2022,45(6):47-53.
6徐权,冷珏琳,杨洋,刘田田,郑澎.面向复杂几何模型的并行四面体网格生成方法[J].计算力学学报,2023,40(1):140-145. 被引量：1

小型微型计算机系统

2023年第3期

浏览历史

内容加载中请稍等...

基于特征转移概率的网络日志聚类分析算法被引量：1

参考文献4

二级参考文献17

共引文献86

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于特征转移概率的网络日志聚类分析算法 被引量：1

参考文献4

二级参考文献17

共引文献86

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于特征转移概率的网络日志聚类分析算法被引量：1