期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于欠采样和多层集成学习的恶意网页识别
1
作者 王法玉 于晓文 陈洪涛 《计算机工程与设计》 北大核心 2024年第3期669-675,共7页
现实中恶意网页与良性网页比重严重失衡,传统的机器学习分类模型不能很好的应用,为此提出一种基于欠采样和多层集成学习的恶意网页检测模型。通过欠采样达到局部数据平衡;通过第一层基于权重和阈值的集成学习确保模型的准确度;通过第二... 现实中恶意网页与良性网页比重严重失衡,传统的机器学习分类模型不能很好的应用,为此提出一种基于欠采样和多层集成学习的恶意网页检测模型。通过欠采样达到局部数据平衡;通过第一层基于权重和阈值的集成学习确保模型的准确度;通过第二层基于投票的集成学习保证全局信息的完整性。实验结果表明,所提模型在不平衡数据集上的恶意网页识别性能优于传统机器学习模型。 展开更多
关键词 恶意网页识别 不平衡数据 多层分类器 欠采样 机器学习 集成学习 检测效果
下载PDF
Tri-BERT-SENet:融合多特征的恶意网页识别 被引量:2
2
作者 杨立圣 罗文华 《小型微型计算机系统》 CSCD 北大核心 2023年第4期875-880,共6页
传统恶意网页识别缺乏全局性、系统性考量,没有将网页作为有机整体,而是独立针对标签结构、URL地址、文本内容等特定层面特征开展研究,导致准确率较低.虽然已有学者提出融合特征思想,但依旧使用机器学习算法予以实现,特征工程工作量巨大... 传统恶意网页识别缺乏全局性、系统性考量,没有将网页作为有机整体,而是独立针对标签结构、URL地址、文本内容等特定层面特征开展研究,导致准确率较低.虽然已有学者提出融合特征思想,但依旧使用机器学习算法予以实现,特征工程工作量巨大,识别效率低下.针对上述问题,提出一种基于多特征融合的Tri-BERT-SENet模型,用于完成恶意网页的识别任务.利用获取得到的HTML特征、网页URL特征以及网页文本特征,结合BERT模型的上下文感知能力,将特征转化为3个BERT模型输出;之后将模型输出作为特征通道,使用SENet进行加权计算,最终输出识别结果.实验结果表明,与传统机器学习模型以及使用BERT对单一特征的识别方法相比,该检测方法在恶意网页识别的准确率上有较大提升. 展开更多
关键词 恶意网页识别 特征融合 BERT SENet
下载PDF
恶意网页识别研究综述 被引量:38
3
作者 沙泓州 刘庆云 +3 位作者 柳厅文 周舟 郭莉 方滨兴 《计算机学报》 EI CSCD 北大核心 2016年第3期529-542,共14页
近年来,随着互联网的迅速发展以及网络业务的不断增长,恶意网页给人们的个人隐私和财产安全造成的威胁日趋严重.恶意网页识别技术作为抵御网络攻击的核心安全技术,可以帮助人们有效避免恶意网页引起的安全威胁,确保网络安全.文中从理论... 近年来,随着互联网的迅速发展以及网络业务的不断增长,恶意网页给人们的个人隐私和财产安全造成的威胁日趋严重.恶意网页识别技术作为抵御网络攻击的核心安全技术,可以帮助人们有效避免恶意网页引起的安全威胁,确保网络安全.文中从理论分析和方法设计两方面介绍了恶意网页识别的最新研究成果.在理论分析层面,从恶意网页的基本概念和形式化定义出发,对恶意网页识别的应用场景、基本框架及评价方法进行全面的归纳,并总结了恶意网页识别的理论依据及性能评价指标.在方法设计层面,对具有影响力的恶意网页识别方法进行了介绍和归类,对不同类别的识别方法进行了定性分析和横向比较.在总结恶意网页识别研究现状的基础上,从客观环境的变化以及逃逸技术的升级两方面深入探讨了当前恶意网页识别面临的技术挑战.最后总结并展望了恶意网页识别的未来发展方向. 展开更多
关键词 恶意网页识别 网页分类 机器学习 逃逸技术
下载PDF
基于文档分层表示的恶意网页快速检测方法 被引量:1
4
作者 袁梁 林金芳 《计算机系统应用》 2019年第12期226-231,共6页
近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与... 近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与语义无关的标记,然后采用神经网络模型捕获文档在多个分层空间尺度上的局部性表示,实现了能够从任意长度的网页中快速找到微小恶意代码片段的能力.将该方法与多种基线模型和简化模型进行对比实验,结果表明该方法在0.1%的误报率下实现了96.4%的检测率,获得了更好的分类准确率.本方法的速度和准确性使其适合部署到端点、防火墙和Web代理中. 展开更多
关键词 深度学习 恶意Web内容 网页分类 恶意网页识别
下载PDF
面向恶意网页训练数据生成的GAN模型 被引量:3
5
作者 万梦翔 姚寒冰 《计算机工程与应用》 CSCD 北大核心 2021年第6期124-130,共7页
针对基于机器学习算法识别恶意网页时恶意网页样本收集困难的问题,提出了一种基于生成对抗网络(GAN)的扩展恶意网页样本数据集的方法(WS-GAN),使用少量的原始样本数据训练生成对抗网络,利用生成器模拟生成网页样本。同时在原有生成对抗... 针对基于机器学习算法识别恶意网页时恶意网页样本收集困难的问题,提出了一种基于生成对抗网络(GAN)的扩展恶意网页样本数据集的方法(WS-GAN),使用少量的原始样本数据训练生成对抗网络,利用生成器模拟生成网页样本。同时在原有生成对抗网络的结构中加入了多个判别器:全局判别器判别整体样本的真伪,控制生成样本整体的质量;各特征判别器判别其对应类别特征数据的真伪,控制生成样本细节部分的质量。实验结果表明,WS-GAN生成的网页特征样本可用于恶意网页分类器的训练,并且其生成样本的质量优于条件生成对抗网络和条件变分自编码器生成样本的质量。 展开更多
关键词 恶意网页识别 恶意网页特征 机器学习 生成对抗网络 多判别器
下载PDF
基于生成式对抗网络的恶意URL数据生成与检测 被引量:1
6
作者 郑阳 努尔布力 《计算机科学与应用》 2020年第5期935-943,共9页
针对基于机器学习的恶意网页识别中对数据集的收集和标注敏感的问题,提出了一种基于生成式对抗网络(GAN)的检测方法,并且设计了编码器,将恶意URL进行字符级编码。通过使用少量样本训练模型,通过GAN拟合真实样本的能力,生成恶意网页样本... 针对基于机器学习的恶意网页识别中对数据集的收集和标注敏感的问题,提出了一种基于生成式对抗网络(GAN)的检测方法,并且设计了编码器,将恶意URL进行字符级编码。通过使用少量样本训练模型,通过GAN拟合真实样本的能力,生成恶意网页样本。本文在传统GAN的基础上增加了一个判别器用来判别良性和恶性网页,达到了判别恶意网页的作用。最后通过横纵对比实验,分别验证了生成数据的可行以及判别模型可以达到当前有监督分类器相当的效果。 展开更多
关键词 恶意网页识别 机器学习 生成对抗网络 多判别器 分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部