基于XGBoost的CTU-13僵尸网络流量检测

Traffic Detection of CTU-13 Botnet Based on XGBoost

下载PDF

导出

摘要僵尸网络是大数据时代下最严重的网络安全问题之一,僵尸网络感染未受保护的机器,跟踪与命令控制服务器的通信,发送和接收恶意命令.攻击者利用僵尸网络发起DDoS、钓鱼、数据窃取、垃圾邮件等危险攻击.针对上述问题,采用集成学习方法研究在CTU-13数据集中的僵尸网络流量场景下恶意流量的识别问题.在会话级别对数据集进行预处理,采用局部离群因子算法(LOF)筛选离群数据,选择并构建特征;在流量检测阶段,采用XGBoost算法训练得到基于集成学习的流量分类器,并与三种当前主流的传统机器学习算法K-最近邻算法(KNN)、随机森林(Random forest)和支持向量机(SVM)进行比较.实验表明,XGBoost算法的分类准确率最高,达到99.89%.最后,使用SHAP对关键特征在分类任务中的贡献度进行可视化展示. Botnet is one of the most serious network security problems in the era of big data.Botnet infects unprotected machines,tracks communication with command control servers,and sends and receives malicious commands.Attackers use botnet to launch dangerous attacks such as DDoS,phishing,data theft,and spam.Aiming at the above problems,Ensemble learning method is adopted to study the identification of malicious traffic in the botnet traffic scenario in the CTU-13 dataset.Firstly,the dataset is preprocessed at the session level,using the local outlier factor(LOF)algorithm to filter out outlier data,select and construct features.Then,in the traffic detection phase,XGBoost algorithm is used to train a traffic classifier based on ensemble learning,and compared with three current mainstream traditional machine learning algorithms such as K-nearest neighbor algorithm(KNN),random forest and support vector machine(SVM).The experiment shows that the XGBoost algorithm has the highest classification accuracy,reaching 99.89%.Finally,SHAP is used to visualize the contribution of key features in the classification task.

作者王海宽 WANG Hai-kuan(Department of Information Engineering,Jingcheng Institute of Technology,Jincheng 048026,China)

机构地区晋城职业技术学院信息工程系

出处《西安文理学院学报(自然科学版)》 2023年第4期27-34,共8页 Journal of Xi’an University(Natural Science Edition)

基金晋城职业技术学院2022年校级课题(LX2216):“基于人工智能的网络流量分析技术的研究” 山西省教育科学“十四五”规划2022年度课题(GH-221026):“云计算下网络安全技术实现的路径分析”。

关键词网络流量分类僵尸网络机器学习数据集算法 network traffic classification botnet machine learning data set algorithm

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1黄洪宇,林甲祥,陈崇成,樊明辉.离群数据挖掘综述[J].计算机应用研究,2006,23(8):8-13. 被引量：42
2谢兄,唐昱.基于局部估计密度的局部离群点检测算法[J].小型微型计算机系统,2020,41(2):387-392. 被引量：7
3邹云峰,张昕,宋世渊,倪巍伟.基于局部密度的快速离群点检测算法[J].计算机应用,2017,37(10):2932-2937. 被引量：26
4董红瑶,王弈丹,李丽红.随机森林优化算法综述[J].信息与电脑,2021,33(17):34-37. 被引量：22
5何洋.改进支持向量机在特征数据挖掘中的智能应用[J].九江学院学报（自然科学版）,2022,37(2):80-83. 被引量：3
6Ernest Yeboah Boateng,Daniel A. Abaye.A Review of the Logistic Regression Model with Emphasis on Medical Research[J].Journal of Data Analysis and Information Processing,2019,7(4):190-207. 被引量：7
7毋雪雁,王水花,张煜东.K最近邻算法理论与应用综述[J].计算机工程与应用,2017,53(21):1-7. 被引量：67
8肖喜生,龙春,杜冠瑶,魏金侠,赵静,万巍.基于流量摘要的僵尸网络检测[J].计算机系统应用,2021,30(8):186-193. 被引量：4
9肖琦,苏开宇.基于随机森林的僵尸网络流量检测[J].微电子学与计算机,2019,36(3):43-47. 被引量：14
10鲁刚,郭荣华,周颖,王军.恶意流量特征提取综述[J].信息网络安全,2018(9):1-9. 被引量：12

二级参考文献56

1Zheng Binxiang,Du Xiuhua & Xi Yugeng Institute of Automation, Shanghai Jiaotong University,Shanghai 200030,P.R.China.Outliers Mining in Time Series Data Sets[J].Journal of Systems Engineering and Electronics,2002,13(1):93-97. 被引量：3
2范大昭,雷蓉,张永生.从地理数据库中探测奇异值[J].测绘科学,2004,29(5):12-15. 被引量：2
3陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：23
4杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
5王清,马华,孙静,韩忠东.改进的KNN算法及其在医学图像处理中的应用[J].泰山医学院学报,2006,27(6):564-566. 被引量：5
6诸葛建伟,韩心慧,周勇林,叶志远,邹维.僵尸网络研究[J].软件学报,2008,19(3):702-715. 被引量：157
7倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：27
8胡彩平,秦小麟.一种基于密度的局部离群点检测算法DLOF[J].计算机研究与发展,2010,47(12):2110-2116. 被引量：52
9方滨兴,崔翔,王威.僵尸网络综述[J].计算机研究与发展,2011,48(8):1315-1331. 被引量：63
10韩敏,朱新荣.不平衡数据分类的混合算法[J].控制理论与应用,2011,28(10):1485-1489. 被引量：19

共引文献192

1唐易,陈奕希,喻洪流,石萍.一种面向下肢假肢的运动意图识别方法及验证[J].信息与控制,2023,52(5):598-606. 被引量：1
2唐静(译),王艳洁,郭一达,韩易霖,张传扬.环渤海动力煤价格预测及用煤企业经营策略研究——基于LSTM和概率区间评估的分析[J].价格理论与实践,2024(2):42-46.
3冯泽磊,吴美凤.动态浮箱数据清洗方法在电力系统中的应用[J].发电技术,2019,40(S1):109-113. 被引量：5
4李雁,陆海亭,张宁.一种短时交通流异常数据识别新算法[J].公路交通科技（应用技术版）,2010,6(4):185-188.
5林甲祥,刘丰富.基于MST聚类的离群检测算法研究[J].福建电脑,2007,23(9):1-2.
6陈艳,朱建平.基于粗糙集聚类的高维离群点数据挖掘算法[J].统计教育,2007(9):29-30. 被引量：1
7万辉,吴敏.离群数据挖掘在高炉物料消耗数据认证中的应用[J].计算技术与自动化,2007,26(3):110-113.
8林甲祥,樊明辉,陈崇成,江先伟.二阶段近似KNN离群挖掘算法与应用[J].计算机应用,2007,27(10):2598-2601.
9张炳才,彭国林.欧式距离孤立点挖掘方法在审计中的应用研究[J].绿色财会,2008(4):28-30.
10张炳才,彭国林.基于欧式距离孤立点的数据挖掘方法在审计中的应用与研究[J].中国管理信息化,2008,11(13):48-50. 被引量：2

1向黔灵,张加碧,江智霞,胡汝均,张芳,鲁鑫,胥露.创伤性脑损伤患者医院获得性肺炎风险预测模型的构建[J].中国护理管理,2023,23(7):999-1003. 被引量：2
2彭强.煤矿大型机械设备滚动轴承故障诊断改进方法研究[J].煤炭工程,2023,55(4):141-146. 被引量：5
3《冶金与材料》编辑部.《冶金与材料》投稿须知[J].冶金与材料,2023,43(10).
4曹鸿猷,孙文.基于马氏距离及K最近邻算法的结构优化设计[J].武汉理工大学学报,2022,44(10):60-71. 被引量：2
5《冶金与材料》编辑部.《冶金与材料》投稿须知[J].冶金与材料,2023,43(9).
6《中国锰业》编辑部.《中国锰业》投稿须知[J].中国锰业,2023,41(5).
7点赞[J].民心,2023(12):57-58.
8边明博,马彦鹏,樊意广,陈志超,杨贵军,冯海宽.融合无人机多源传感器的马铃薯叶绿素含量估算[J].农业机械学报,2023,54(8):240-248. 被引量：5
9赵少飞,吕丽萍,岳剑辉.浅析中间人攻击的手段及防范措施[J].网络安全技术与应用,2023(12):21-22. 被引量：2
10刘庭梅,姚春霞.福州法院善“破”者立治源者成[J].中国审判,2023(22):38-41.

西安文理学院学报(自然科学版)

2023年第4期

浏览历史

内容加载中请稍等...

基于XGBoost的CTU-13僵尸网络流量检测

参考文献11

二级参考文献56

共引文献192

相关作者

相关机构

相关主题

浏览历史