基于TF-IDF和随机森林算法的Web攻击流量检测方法研究被引量：5

Research on Web Attack Traffic Detection Based on TF-IDF and Random Forest Algorithm

下载PDF

导出

摘要随着网络技术与应用的发展,Web服务器不可避免地成为了黑客的主要攻击目标.而传统基于正则匹配的Web入侵检测系统存在规则库维护困难、特征库臃肿的问题;基于机器学习的常规检测模型也存在特征提取复杂、识别率较低的问题.针对这些问题,提出一种基于TF-IDF和随机森林构架的Web攻击流量检测模型,该模型使用TF-IDF算法构建词频矩阵,自动提取有效载荷的特征,使用随机森林算法进行分类建模,识别出正常流量与攻击流量.实验结果表明:该方法对攻击流量的检测率达到98.7%,实现了特征自动提取,简化了检测方法,适合于进行Web攻击流量的检测. With the rapid development of network and application technology, Web server became the main attack target of hackers. However, the traditional Web intrusion detection system based on regular feature matching has some problems, such as difficult maintenance of rule base and bloated feature base. Some detection models based on machine learning algorithm must also be extracted by human hands, and still the recognition rate is not high. Aiming at these problems, this paper proposed a new model to train words and characters based on TF-IDF algorithm, which combines the word frequency matrices obtained by the two training methods as feature vectors, and classifies the vector sets by using random forest algorithm to identify malicious traffic and normal traffic. From the experiments we can found that our model s detection rate reached 98.7%. And the experimental results also showed that our model can realize automatic feature extraction and simplifies the detection method. It is very suitable for detecting malicious Web traffic.

作者祝鹏程方勇黄诚刘强 Zhu Pengcheng;Fang Yong;Huang Cheng;Liu Qiang(College of Electronics and Information,Sichuan University,Chengdu 610065;College of Cybersecurity,Sichuan University,Chengdu 610207)

机构地区四川大学电子信息学院四川大学网络空间安全学院

出处《信息安全研究》 2018年第11期1040-1045,共6页 Journal of Information Security Research

关键词 TF-IDF 随机森林数据范化特征提取 Web攻击流量检测 TF-IDF random forest data normalization feature extraction Web attack traffic detection

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1何鹏程,方勇.一种基于Web日志和网站参数的入侵检测和风险评估模型的研究[J].信息网络安全,2015(1):61-65. 被引量：21
2吴少华,程书宝,胡勇.基于SVM的Web攻击检测技术[J].计算机科学,2015,42(S1):362-364. 被引量：17
3张伟,巢翌,甘志强,郑红驹.结合特征分析和Svm优化的Web入侵检测系统[J].计算机仿真,2018,35(5):406-409. 被引量：9

二级参考文献28

1OWASP(OpenWebApplicationSecurityProject),开放式Web应用程序安全项目[EB/OL].http://www.owasp.org,2013-01-31.
2CWE(CommonWeaknessEnumeration),通用缺陷列表[EB/OL].http://www.applicure.com,2013-01-31.
3Hall, Mark. Web application vulnerabilities on rise[M]. Computerworld, Elsevier Inc, 2007.
4Heady R, Luger G, Maccabe A, et al. The architecture of a network level intrusion detection system[R]. Technical report, Computer Science Department, University of New Mexico, August 1990.
5Xydas I. Host-based web anomaly intrusion detection system, an artificial immune system approach[C]//Proceedings of the lASTED International Conference on Artificial Intelligence and Applications, 2008:258-265.
6Shaimaa E S, Mohamed I M, Laila M E, et al. Web Server Logs Preprocessing for Web Intrusion Detection[J].Computer and Information Science, 2011.
7MA J B, YU H W, GAO C L. Study of the Issue of Personnel Promotion Based on Fuzzy Comprehensive Evaluation[C]//Information Science and Management Engineering (ISME), 2010:511-513.
8LEU, Sou-Sen ; CHANG, Ching-Miao, Bayesian-network-based safety risk assessment for steel construction projects[C]//Accident; analysis and prevention, 2013:122-33.
9百度百科.正则表达式[EB/OL].http://baike.baidu.com/view/94238.htm?fr=Aladdin,2014-11-13- . .
10SEBUG漏洞库.文件包含漏洞[EB/OL].http://sebug.net/node/t-42,2011-12-19.

共引文献42

1汤健,孙春来,毛克峰,贾美英.基于主元分析和互信息维数约简策略的网络入侵异常检测[J].信息网络安全,2015(9):78-83. 被引量：7
2陈子弘.烟草物联网网络安全模型研究[J].信息网络安全,2015(9):217-220. 被引量：1
3夏坤鹏,谢正勇,崔伟.基于IDS报警和rootkit的威胁溯源方法研究[J].信息网络安全,2015(9):231-235. 被引量：1
4伍海波.基于神经网络的检测器生成算法研究与应用[J].信息网络安全,2015(9):249-252. 被引量：2
5韦鲲鹏,葛志辉,杨波.PHP Web应用程序上传漏洞的攻防研究[J].信息网络安全,2015(10):53-60. 被引量：12
6张燕.数据挖掘提取查询树特征的SQL注入攻击检测[J].电子技术应用,2016,42(3):90-94. 被引量：6
7史国振,张萌,付鹏,苏铓.IDS设备检测工具的设计与实现[J].信息网络安全,2016(5):23-29. 被引量：3
8吴晓平,周舟,李洪成.Spark框架下基于无指导学习环境的网络流量异常检测研究与实现[J].信息网络安全,2016(6):1-7. 被引量：16
9毛焱颖,罗森林.融合多种技术的堆喷射方法研究[J].信息网络安全,2016(6):48-55. 被引量：2
10季玉香,朱延,唐晓强.基于Web的软件安全分析与监测[J].信息网络安全,2016(9):208-212. 被引量：1

同被引文献32

1陈元千,胡建国,张栋杰.Logistic模型的推导及自回归方法[J].新疆石油地质,1996,17(2):150-155. 被引量：114
2杨宏宇,朱丹,谢丰,谢丽霞.入侵异常检测研究综述[J].电子科技大学学报,2009,38(5):587-596. 被引量：16
3王宇,陆松年.Web应用防火墙的设计与实现[J].信息安全与通信保密,2011,9(5):104-106. 被引量：15
4杨开睿,孟凡荣,梁志贞.一种自适应权值的PCA算法[J].计算机工程与应用,2012,48(3):189-191. 被引量：14
5马洁.Django技术在软件开发中的应用[J].湖南农机（学术版）,2013,40(2):84-84. 被引量：5
6胡宏,陈彦萍.基于随机森林算法的混合入侵检测系统研究[J].西安文理学院学报（自然科学版）,2013,16(3):68-71. 被引量：4
7郭明玮,赵宇宙,项俊平,张陈斌,陈宗海.基于支持向量机的目标检测算法综述[J].控制与决策,2014,29(2):193-200. 被引量：115
8梁意文,潘海军,郭学理.基于UNIX进程的入侵检测模型[J].计算机工程与应用,2001,37(15):121-122. 被引量：4
9张慧敏,何军,黄厚宽.入侵检测系统[J].计算机应用研究,2001,18(9):38-41. 被引量：22
10尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):48-59. 被引量：381

引证文献5

1王丽媛,李晓风,李玉洁,谭海波.基于系统调用的交互式入侵检测系统设计与实现[J].仪表技术,2020(3):1-5. 被引量：2
2徐哲辰,张金艺.面向企业信息推送的短文本有监督分类[J].工业控制计算机,2020,33(3):33-34. 被引量：1
3章缙,李洪赭,李赛飞.针对基于随机森林的网络入侵检测模型的优化研究[J].计算机与数字工程,2022,50(1):106-110. 被引量：7
4徐磊,张志,章方圆,夏天.基于深度学习和白流量过滤的网络流量检测系统研究[J].电子技术与软件工程,2023(6):1-4.
5万巍,石鑫,魏金侠,李畅,龙春.基于Stacking融合模型的Web攻击检测方法[J].信息安全学报,2024,9(1):84-94.

二级引证文献10

1刘元生,王胜,白云鹏,夏晓峰.面向智能变电站的威胁与风险评价模型研究与实现[J].重庆大学学报,2021,44(7):64-74. 被引量：7
2韩硕辰,杜暄,田健,胡敬强.基于AGV技术的电力营销短信推送过程自主控制系统设计[J].微型电脑应用,2022,38(6):116-119.
3刘全.基于数据挖掘的通信网恶意入侵自动识别方法[J].长江信息通信,2022,35(5):74-75. 被引量：3
4周琰,马强.基于混合模式匹配算法的网络入侵检测[J].计算机测量与控制,2022,30(11):65-70. 被引量：4
5徐婷,郭春,申国伟,周雪梅.基于网络通信行为特征的间谍软件检测方法[J].计算机与数字工程,2022,50(10):2246-2251.
6艾春,贾立君.基于机器学习算法的通信网络入侵行为检测方法[J].长江信息通信,2022,35(11):55-57. 被引量：4
7戴建东,戴昊洋.基于物联网的异构传感数据入侵风险识别方法[J].计算机测量与控制,2023,31(2):237-242.
8张小云,康晓霞.基于决策树算法的网络入侵检测系统设计与评估[J].信息技术,2023,47(2):117-122. 被引量：8
9周柏润,孙伟,魏敏捷,徐剑.基于卷积神经网络的电力信息物理融合系统入侵检测方法研究[J].上海电力大学学报,2023,39(2):117-122. 被引量：4
10张翼英,王德龙,渠慧颖,张傲,张磊.面向不平衡数据和特征冗余的网络入侵检测[J].天津科技大学学报,2023,38(5):57-63.

1胥小波,聂小明.基于多层感知器神经网络的WebShell检测方法[J].通信技术,2018,51(4):895-900. 被引量：13
2赵凡,倪志敏.基于动态IP黑名单的轻量级WEB入侵主动防御关键技术与可视化度量模型研究与应用[J].中国建材科技,2018,27(1):70-71. 被引量：2
3徐德康.大型货运无人机呼之欲出[J].环球飞行,2018,0(8):26-29.
4杨文哲.液压系统进水智能检测报警保护技术应用[J].铸造设备与工艺,2018(5):29-30.
5彭争,唐东明.基于文本分类的农业种植信息集成推荐方法研究[J].西南民族大学学报（自然科学版）,2018,44(1):69-74. 被引量：4
6魏胜利,梅娟娟,乐起奖,梁昱.FAI计量单元在宽适应性喷射泵流量检测中的应用研究[J].机械设计与制造,2018(11):143-145.
7张伟,巢翌,甘志强,郑红驹.结合特征分析和Svm优化的Web入侵检测系统[J].计算机仿真,2018,35(5):406-409. 被引量：9
8余远剑.基于FME的地址数据标准化关键技术研究与实现[J].测绘与空间地理信息,2017,40(11):53-55. 被引量：5
9宋明.全氢罩式炉安全吹扫量可靠保证的方法[J].太钢科技,2018,0(3):30-32.
10周颖,方勇,黄诚,刘亮.面向PHP应用程序的SQL注入行为检测[J].计算机应用,2018,38(1):201-206. 被引量：6

信息安全研究

2018年第11期

浏览历史

内容加载中请稍等...

基于TF-IDF和随机森林算法的Web攻击流量检测方法研究被引量：5

参考文献3

二级参考文献28

共引文献42

同被引文献32

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于TF-IDF和随机森林算法的Web攻击流量检测方法研究 被引量：5

参考文献3

二级参考文献28

共引文献42

同被引文献32

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于TF-IDF和随机森林算法的Web攻击流量检测方法研究被引量：5