针对现有恶意域名检测方法对域名生成算法(domain generation algorithm, DGA)随机产生的恶意域名检测性能不高,且对由随机单词组成的恶意域名检测效果较差的问题,提出一种基于字符和词特征融合的恶意域名检测算法(cha-racter and word ...针对现有恶意域名检测方法对域名生成算法(domain generation algorithm, DGA)随机产生的恶意域名检测性能不高,且对由随机单词组成的恶意域名检测效果较差的问题,提出一种基于字符和词特征融合的恶意域名检测算法(cha-racter and word network, CWNet)。利用并行卷积神经网络分别提取域名中字符和词的特征;将两种特征进行拼接,构造成融合特征;利用Softmax函数实现合法域名与恶意域名的检测。实验结果表明,该算法可以提升对恶意域名的检测能力,对更具挑战性的恶意域名家族的检测准确率提升效果更为明显。展开更多
自2013年ICANN发起新通用顶级域名(new gTLD)的授权以来,域名系统(domain name system,DNS)中已增加了上千个new gTLD.已有工作表明new gTLD在为域名注册者带来了灵活性的同时,由于注册成本低等原因也经常被用于恶意行为,识别恶意new g...自2013年ICANN发起新通用顶级域名(new gTLD)的授权以来,域名系统(domain name system,DNS)中已增加了上千个new gTLD.已有工作表明new gTLD在为域名注册者带来了灵活性的同时,由于注册成本低等原因也经常被用于恶意行为,识别恶意new gTLD域名具有重要的意义.然而,由于new g TLD域名在域名长度等方面的独有特征,已有恶意域名识别方法应用于new gTLD恶意域名的识别时准确率低.针对这一问题,首先基于海量域名解析数据,从顶级域名对应二级域名(SLD)数量、查询量、查询失败率、内容复制和承载基础设施共享5个方面刻画了new gTLD域名解析行为.然后分析恶意域名的解析行为并发现其在内容承载基础设施集中性、SLD对应的完全限定域名(FQDN)数目、域名查询次数、请求用户网络空间分布、SLD长度分布等方面的特征.最后根据这些特征设计了一种基于随机森林的new g TLD恶意域名检测方法.实验结果表明,所提方法达到了94%的准确率,优于已有恶意域名检测方法.展开更多
针对现有恶意域名检测算法对于家族恶意域名检测精度不高和实时性不强的问题,提出一种基于BiLSTM-DAE的恶意域名检测算法。通过利用双向长短时记忆神经网络(Bi-directional Long Short Term Memory,BiLSTM)提取域名字符组合的上下文序...针对现有恶意域名检测算法对于家族恶意域名检测精度不高和实时性不强的问题,提出一种基于BiLSTM-DAE的恶意域名检测算法。通过利用双向长短时记忆神经网络(Bi-directional Long Short Term Memory,BiLSTM)提取域名字符组合的上下文序列特征,并结合深度自编码网络(Deep Auto-Encoder,DAE)逐层压缩感知提取类内有共性和类间有区分性的强字符构词特征并进行分类。实验结果表明,与当前主流恶意域名检测算法相比,该算法在保持检测开销较小的基础上,具有更高的检测精度。展开更多
恶意域名的变种随着检测方法的增多而不断丰富,现有模型对于该类恶意域名的检测精度不高。为此,提出一种基于迁移学习的小样本变种域名检测算法。通过构造双向长短时记忆神经网络(bi-directional long short term memory,BiLSTM)和卷积...恶意域名的变种随着检测方法的增多而不断丰富,现有模型对于该类恶意域名的检测精度不高。为此,提出一种基于迁移学习的小样本变种域名检测算法。通过构造双向长短时记忆神经网络(bi-directional long short term memory,BiLSTM)和卷积神经网络(convolutional neural networks,CNN)的组合模型BiLSTM-CNN,提取域名上下文特征和局部语义特征,利用数据量充足的多家族恶意域名数据集进行预训练;迁移BiLSTM-CNN模型预训练的参数到小样本的恶意域名检测模型中,对新出现或新变种的小样本恶意域名进行检测。在多个小样本数据集和数据量充足的多家族恶意域名集上进行测试,运行结果表明,所提模型在数据量充足的多家族恶意域名数据集上可以实现95.17%的平均检测精度,在多个小样本数据集可以实现94.26%的平均检测精度。与当前经典的检测模型相比,所提模型整体检测性能表现良好。展开更多
针对目前恶意域名检测方法特征提取过程复杂和检测准确率不高的问题,提出一种基于深度自编码和决策树(Deep Auto Encoder and Decision Tree, DAE-DT)的恶意域名检测算法.该算法首先将每一域名按照域名词法组成与结构等属性进行特征映射...针对目前恶意域名检测方法特征提取过程复杂和检测准确率不高的问题,提出一种基于深度自编码和决策树(Deep Auto Encoder and Decision Tree, DAE-DT)的恶意域名检测算法.该算法首先将每一域名按照域名词法组成与结构等属性进行特征映射,并进行正则化处理;然后将正则化处理后的无标签域名数据随机置0作为模型的输入,域名字符统计特征作为输出,构造深度自编码网络模型.并通过计算模型输出值与未处理数据之间的重构误差,实现各层参数与权值的优化,以增强模型的鲁棒性;最后依据提取的域名字符统计特征构造恶意域名判定的决策树.通过在Alexa和Malware domain list等标准数据集上进行测试.实验结果表明,该模型的检测准确率、精确率、假阴性率和假阳性率值分别为95.21%、94.17%、2.41%和3.63%.展开更多
文摘针对现有恶意域名检测方法对域名生成算法(domain generation algorithm, DGA)随机产生的恶意域名检测性能不高,且对由随机单词组成的恶意域名检测效果较差的问题,提出一种基于字符和词特征融合的恶意域名检测算法(cha-racter and word network, CWNet)。利用并行卷积神经网络分别提取域名中字符和词的特征;将两种特征进行拼接,构造成融合特征;利用Softmax函数实现合法域名与恶意域名的检测。实验结果表明,该算法可以提升对恶意域名的检测能力,对更具挑战性的恶意域名家族的检测准确率提升效果更为明显。
文摘自2013年ICANN发起新通用顶级域名(new gTLD)的授权以来,域名系统(domain name system,DNS)中已增加了上千个new gTLD.已有工作表明new gTLD在为域名注册者带来了灵活性的同时,由于注册成本低等原因也经常被用于恶意行为,识别恶意new gTLD域名具有重要的意义.然而,由于new g TLD域名在域名长度等方面的独有特征,已有恶意域名识别方法应用于new gTLD恶意域名的识别时准确率低.针对这一问题,首先基于海量域名解析数据,从顶级域名对应二级域名(SLD)数量、查询量、查询失败率、内容复制和承载基础设施共享5个方面刻画了new gTLD域名解析行为.然后分析恶意域名的解析行为并发现其在内容承载基础设施集中性、SLD对应的完全限定域名(FQDN)数目、域名查询次数、请求用户网络空间分布、SLD长度分布等方面的特征.最后根据这些特征设计了一种基于随机森林的new g TLD恶意域名检测方法.实验结果表明,所提方法达到了94%的准确率,优于已有恶意域名检测方法.
文摘针对现有恶意域名检测算法对于家族恶意域名检测精度不高和实时性不强的问题,提出一种基于BiLSTM-DAE的恶意域名检测算法。通过利用双向长短时记忆神经网络(Bi-directional Long Short Term Memory,BiLSTM)提取域名字符组合的上下文序列特征,并结合深度自编码网络(Deep Auto-Encoder,DAE)逐层压缩感知提取类内有共性和类间有区分性的强字符构词特征并进行分类。实验结果表明,与当前主流恶意域名检测算法相比,该算法在保持检测开销较小的基础上,具有更高的检测精度。
文摘恶意域名的变种随着检测方法的增多而不断丰富,现有模型对于该类恶意域名的检测精度不高。为此,提出一种基于迁移学习的小样本变种域名检测算法。通过构造双向长短时记忆神经网络(bi-directional long short term memory,BiLSTM)和卷积神经网络(convolutional neural networks,CNN)的组合模型BiLSTM-CNN,提取域名上下文特征和局部语义特征,利用数据量充足的多家族恶意域名数据集进行预训练;迁移BiLSTM-CNN模型预训练的参数到小样本的恶意域名检测模型中,对新出现或新变种的小样本恶意域名进行检测。在多个小样本数据集和数据量充足的多家族恶意域名集上进行测试,运行结果表明,所提模型在数据量充足的多家族恶意域名数据集上可以实现95.17%的平均检测精度,在多个小样本数据集可以实现94.26%的平均检测精度。与当前经典的检测模型相比,所提模型整体检测性能表现良好。
文摘针对目前恶意域名检测方法特征提取过程复杂和检测准确率不高的问题,提出一种基于深度自编码和决策树(Deep Auto Encoder and Decision Tree, DAE-DT)的恶意域名检测算法.该算法首先将每一域名按照域名词法组成与结构等属性进行特征映射,并进行正则化处理;然后将正则化处理后的无标签域名数据随机置0作为模型的输入,域名字符统计特征作为输出,构造深度自编码网络模型.并通过计算模型输出值与未处理数据之间的重构误差,实现各层参数与权值的优化,以增强模型的鲁棒性;最后依据提取的域名字符统计特征构造恶意域名判定的决策树.通过在Alexa和Malware domain list等标准数据集上进行测试.实验结果表明,该模型的检测准确率、精确率、假阴性率和假阳性率值分别为95.21%、94.17%、2.41%和3.63%.
文摘针对现有恶意域名检测方法检测时间开销大、对新出现或新变种的恶意域名检测精度不高的问题,提出一种基于无监督自适应模糊聚类的多家族恶意域名细粒度检测方法。该方法首先利用词向量映射网络(Bidirectional Encoder Representation from Transformers,BERT)将域名字符串映射为词向量矩阵;然后,利用深度自编码网络的编解码模块实现域名字符串向量矩阵的特征提取;最后,引入一种自适应模糊聚类算法实现多家族恶意域名和合法域名在隐空间中的特征聚类。通过在多个家族恶意域名和常见域名数据集上进行测试,实验结果表明所提出算法可以在二分类任务中实现97.71%的准确率,在8个家族的细粒度多分类任务上可以实现96.25%的准确率。综合检测性能优于当前主流的恶意域名检测算法。同时,所提出域名具有较低的时间开销,这为实时过滤恶意域名、预防恶意域名的入侵攻击提供了一种新的手段。