基于BERT和层次化Attention的恶意域名检测被引量：3

Malicious Domain Names Detection Based on BERT and Hierarchical Attention

下载PDF

导出

摘要针对当前恶意域名检测方法存在检测精度和范围等表现不佳的问题,提出一种基于BERT和层次化Attention的恶意域名检测算法。首先,通过BERT构造包含上下文语义信息的词向量矩阵;然后,利用双向长短时记忆神经网络(Bi-Directional Long Short Term Memory,Bi-LSTM)分别获得域名字符串统一资源定位符(Uniform Resource Locator,URL)包含的字符和单词的向量表示,并在整条URL中加入全局Attention机制区分不同单词的重要性,在单词中引入局部Attention机制区分不同字符的重要性;最后,利用Softmax分类器进行合法域名与恶意域名的分类。通过在多个数据集上进行测试,实验结果表明,所提方法可以达到96.49%的查准率、96.27%的查全率、3.90%的误报率和94.13%的F1-Score,与当前主流恶意域名检测算法相比,在保持检测精度较高的基础上,具有更广的检测范围。 In view of the poor performance of the existing malicious domain names detection methods in terms of detection precision and range,a malicious domain names detection algorithm based on BERT and hierarchical attention was proposed.Firstly,the word vector matrix containing the context semantics is generated by BERT.Then,the bi-directional long short term memory(Bi-LSTM)is used to obtain vector representation of characters and words contained in uniform resource locator(URL)respectively.The global attention mechanism is introduced in the whole URL to distinguish the importance of different words,and local attention mechanism is introduced to distinguish the importance of each character in words.Finally,the softmax classifier is used to classify normal domain name and malicious domain name.Through testing on multiple data sets,experimental results show that the proposed method can maintain Precision 96.49%,Recall 96.27%,3.90%FPR and F1-Score 94.13.Compared with the existing mainstream malicious domain names detection methods,the proposed method has a wider detection range while maintaining a higher detection accuracy.

作者张凤张微魏金花 ZHANG Feng;ZHANG Wei;WEI Jin-hua(School of Information Engineering,Yinchuan university of Science and Technology,Yinchuan 750003,China)

机构地区银川科技学院信息工程学院

出处《中国电子科学研究院学报》北大核心 2022年第3期290-296,共7页 Journal of China Academy of Electronics and Information Technology

基金宁夏高教科研项目(NGY2020115)。

关键词恶意域名检测 BERT 层次化Attention 双向长短时记忆神经网络 malicious domain names detection BERT hierarchical attention Bi-directional long short term memory

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1杨路辉,刘光杰,翟江涛,刘伟伟,白惠文,戴跃伟.一种改进的卷积神经网络恶意域名检测算法[J].西安电子科技大学学报,2020,47(1):37-43. 被引量：16
2袁福祥,刘粉林,芦斌,巩道福.基于历史数据的异常域名检测算法[J].通信学报,2016,37(10):172-180. 被引量：15
3赵宏,常兆斌,王乐.基于词法特征的恶意域名快速检测算法[J].计算机应用,2019,39(1):227-231. 被引量：24
4张斌,廖仁杰.基于关联信息提取的恶意域名检测方法[J].通信学报,2021,42(10):162-172. 被引量：5
5吴警,芦天亮,杜彦辉.基于Char-RNN改进模型的恶意域名训练数据生成技术[J].信息网络安全,2020(9):6-11. 被引量：8
6张维维,龚俭,刘尚东,胡晓艳.面向主干网的DNS流量监测[J].软件学报,2017,28(9):2370-2387. 被引量：9
7张斌,廖仁杰.基于CNN与LSTM相结合的恶意域名检测模型[J].电子与信息学报,2021,43(10):2944-2951. 被引量：18
8陈立皇,程华,房一泉.基于注意力机制的DGA域名检测算法[J].华东理工大学学报（自然科学版）,2019,45(3):478-485. 被引量：12
9徐国天,盛振威.基于融合CNN与LSTM的DGA恶意域名检测方法[J].信息网络安全,2021(10):41-47. 被引量：11
10王志强,李舒豪,池亚平,张健毅.基于深度学习的恶意DGA域名检测[J].计算机工程与设计,2021,42(3):601-606. 被引量：13

二级参考文献40

1ROSSOW C, DIETRICH C, BOS H. Detection of intrusions and malware, and vulnerability assessment[M]. Berlin: Springer, 2013.
2MAHMOUD M, NIR M, MATRAWY A. A survey on botnet architec-tures, detection and defences[J]. International Journal of Network Se-curity, 2015, 17(3): 272-289.
3PU Y, CHEN X, CUI X, et al. Data stolen trojan detection based on network behaviors[J]. Procedia Computer Science, 2013, 17: 828-835.
4NIRMAL K, JANET B, KUMAR R. Phishing-the threat that still exists[C]//International Conference on Computing and Communica-tions Technologies(ICCCT). IEEE, 2015: 139-143.
5CHEN C M, CHENG S T, CHOU J H. Detection of fast-flux domains[J]. Journal of Advances in Computer Networks, 2013, 1(2): 148-152.
6VANIA J, MENIYA A, JETHVA H B. A review on botnet and detec-tion technique[J]. International Journal of Computer Trends and Tech-nology, 2013, 4(1): 23-29.
7KHATTAK S, RAMAY N R, KHAN K R, et al. A taxonomy of botnet behavior, detection and defense[J]. Communications Surveys & Tuto-rials, IEEE, 2014, 16(2): 898-924.
8GARCíA S, UHLí? V, REHAK M. Identifying and modeling botnet C&C behaviors[C]//The 1st International Workshop on Agents and Cyber Security. ACM, 2014.
9YADAV S, REDDY A K K, REDDY A L, et al. Detecting algorithmi-cally generated malicious domain names[C]//The 10th ACM SIG-COMM Conference on Internet Measurement. Melbourne, Australia, 2010: 48-61.
10FELEGYHAZI M, KREIBICH C, PAXSON V. On the potential of proactive domain blacklisting[C]//The 3rd USENIX Conference on Large-Scale Exploits and Emergent Threats: Botnets, Spyware, Worms, and More. San Jose, CA, USA, 2010.

共引文献87

1张杨,茅剑.DNS解析与防御技术研究[J].计算机与网络,2017,43(21):64-65. 被引量：3
2李小玲.关于网络数据库传输中异常数据检测仿真研究[J].计算机仿真,2018,35(1):420-423. 被引量：7
3周梦源,常鹏,张永铮.互联网下多元属性特征恶意停靠域名检测仿真[J].计算机仿真,2018,35(2):406-409. 被引量：2
4杜红军,李巍,于亮亮.无线网络终端设备安全脆弱点识别仿真[J].计算机仿真,2018,35(8):227-230. 被引量：1
5陈兴蜀,陈敬涵,曾雪梅,韩珍辉,朱毅,邵国林.基于TDRI的多视图关联DNS流量可视分析[J].工程科学与技术,2018,50(4):123-129. 被引量：2
6臧小东,龚俭,胡晓艳.基于AGD的恶意域名检测[J].通信学报,2018,39(7):15-25. 被引量：20
7金渝筌,谢彬,朱毅.基于通信相似度的僵尸网络节点检测方法[J].网络与信息安全学报,2018,4(10):31-38. 被引量：2
8钱程,赵莎莎.基于TTL对单片机矩阵键盘算法的改进[J].无线互联科技,2019,16(1):98-101. 被引量：4
9陈立皇,程华,房一泉.基于注意力机制的DGA域名检测算法[J].华东理工大学学报（自然科学版）,2019,45(3):478-485. 被引量：12
10王媛媛,吴春江,刘启和,谭浩,周世杰.恶意域名检测研究与应用综述[J].计算机应用与软件,2019,36(9):310-316. 被引量：25

同被引文献24

1梁飞.基于多分组注意力机制的恶意URL智能检测方法[J].信息网络安全,2020(S01):18-22. 被引量：2
2张永斌,陆寅,张艳宁.基于组行为特征的恶意域名检测[J].计算机科学,2013,40(8):146-148. 被引量：10
3陈远,王超群,胡忠义,吴江.基于主成分分析和随机森林的恶意网站评估与识别[J].数据分析与知识发现,2018,2(4):71-80. 被引量：8
4赵宏,常兆斌,王乐.基于词法特征的恶意域名快速检测算法[J].计算机应用,2019,39(1):227-231. 被引量：24
5彭成维,云晓春,张永铮,李书豪.一种基于域名请求伴随关系的恶意域名检测方法[J].计算机研究与发展,2019,56(6):1263-1274. 被引量：18
6魏旭,成卫青.基于特征融合和机器学习的恶意网页识别研究[J].南京邮电大学学报（自然科学版）,2019,39(5):95-104. 被引量：4
7韩春雨,张永铮,张玉.Fast-flucos:基于DNS流量的Fast-flux恶意域名检测方法[J].通信学报,2020,41(5):37-47. 被引量：10
8罗文华,许彩滇.利用改进DBSCAN聚类实现多步式网络入侵类别检测[J].小型微型计算机系统,2020,41(8):1725-1731. 被引量：11
9杨路辉,白惠文,刘光杰,戴跃伟.基于可分离卷积的轻量级恶意域名检测模型[J].网络与信息安全学报,2020,6(6):112-120. 被引量：5
10Fangli Ren,Zhengwei Jiang,Xuren Wang,Jian Liu.A DGA domain names detection modeling method based on integrating an attention mechanism and deep neural network[J].Cybersecurity,2020,3(1):71-83. 被引量：9

引证文献3

1马永忠,夏保丽.基于改进Transformer和强化学习的僵尸网络DGA域名检测[J].广西科学,2023,30(1):139-148. 被引量：3
2杨立圣,罗文华.Tri-BERT-SENet:融合多特征的恶意网页识别[J].小型微型计算机系统,2023,44(4):875-880. 被引量：2
3温雪岩,焦燕,郭云飞,赵玉茗.异构并行的DGA域名检测方法[J].中国电子科学研究院学报,2023,18(10):957-967.

二级引证文献5

1曾斯.基于Snort的Botnet网络检测系统设计研究[J].中国新技术新产品,2023(16):21-23.
2姜言波,邵增珍.基于无监督自适应模糊聚类的多家族恶意域名细粒度检测[J].中国电子科学研究院学报,2023,18(7):663-670. 被引量：1
3熊志华.基于多特征融合的水闸工程运行安全感知研究[J].珠江水运,2023(20):88-90.
4温雪岩,焦燕,郭云飞,赵玉茗.异构并行的DGA域名检测方法[J].中国电子科学研究院学报,2023,18(10):957-967.
5罗文华,张晓龙.基于联邦学习与卷积神经网络的入侵检测模型[J].信息安全研究,2024,10(7):642-648.

1杨为城,吴芳蓉,汤联生,卢坤杰,周保中,张继广,朱烨扬.自适应电力用户群短期负荷预测方法[J].供用电,2022,39(6):61-68. 被引量：10
2包娜萍,邢紫豪,夏羽.基于CNN-LSTM模型的比特币价格预测[J].应用数学进展,2022,11(5):2956-2966.
3钱梦莹,田生伟,张立强,张新宇,马圆圆.基于RCBA模型的多模态讽刺识别[J].微电子学与计算机,2022,39(6):12-21.
4李建敦,蒋鹏,李桃,陈霆,蒋坷宏,蒋伏松,郑西川,魏丽.基于3类属性预测颈动脉斑块的随机森林方法研究[J].医疗卫生装备,2022,43(5):14-17.
5李博文,贺碧芳.PVsiRNAPred-LSTM:基于长短时记忆神经网络预测植物病毒衍生的小干扰RNA[J].科技风,2022(15):71-74. 被引量：1
6王飞,黄涛,杨晔.基于Stacking多模型融合的IGBT器件寿命的机器学习预测算法研究[J].计算机科学,2022,49(S01):784-789. 被引量：10
7康田雨,覃智君.基于超参数优化和双重注意力机制的超短期风电功率预测[J].南方电网技术,2022,16(5):44-53. 被引量：29
8冯亦凡,徐琪,曾卫明.基于胸腔积液超声图像标准化方法的胸腔积液性质分析模型[J].计算机科学,2022,49(S01):44-53. 被引量：1
9刘宝宝,杨菁菁,陶露,王贺应.基于DE-LSTM模型的教育统计数据预测研究[J].计算机科学,2022,49(S01):261-266. 被引量：3
10郭晓敏,黄新.改进YOLOv3算法在肺结节检测中的应用[J].激光杂志,2022,43(5):207-213. 被引量：3

中国电子科学研究院学报

2022年第3期

浏览历史

内容加载中请稍等...

基于BERT和层次化Attention的恶意域名检测被引量：3

参考文献10

二级参考文献40

共引文献87

同被引文献24

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于BERT和层次化Attention的恶意域名检测 被引量：3

参考文献10

二级参考文献40

共引文献87

同被引文献24

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于BERT和层次化Attention的恶意域名检测被引量：3