-
题名基于Boosting集成学习的风险URL检测研究
- 1
-
-
作者
冯美琪
李赟
蒋冰
王立松
刘春波
陈伟
-
机构
中国民航信息网络股份有限公司运行中心
中国民航信息网络股份有限公司it基础设施国产化适配工程技术研究中心
中国民航大学信息安全测评中心
-
出处
《网络安全与数据治理》
2024年第7期32-40,共9页
-
文摘
随着互联网的不断发展,网站数量不断增长,URL作为访问网站的唯一入口,成为Web攻击的重点对象。传统的URL检测方式主要是针对恶意URL,主要方法是基于特征值和黑白名单,容易产生漏报,且对于复杂URL的检测能力不足。为解决上述问题,基于集成学习中的Boosting思想,提出一种针对业务访问的风险URL检测的混合模型。该模型前期将URL作为字符串,使用自然语言处理技术对其进行分词及向量化,然后采用分步建模法的思想,首先利用GBDT算法构建二分类模型,判断URL是否存在风险,接着将风险URL原始字符串输入到多分类模型中,利用XGBoost算法对其进行多分类判定,明确风险URL的具体风险类型,为安全分析人员提供参考。在模型构建过程中不断进行参数调优,并采用AUC值和F1值分别对二分类模型和多分类模型进行评估,评估结果显示二分类模型的AUC值为98.91%,多分类模型的F1值为0.993,效果较好。将其应用到实际环境中,与现有检测手段进行对比,发现模型的检出率高于现有WAF和APT安全设备,其检测结果弥补了现有检测手段的漏报。
-
关键词
WEB攻击
集成学习
正则化
分步建模法
-
Keywords
web attacks
ensemble learning
regularization
stepwise modeling method
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-