基于混合词向量深度学习模型的DGA域名检测方法被引量：18

A DGA Domain Name Detection Method Based on Deep Learning Models with Mixed Word Embedding

下载PDF

导出

摘要域名生成算法(domain generation algorithm,DGA)是域名检测中防范僵尸网络攻击的重要手段之一,对于生成威胁情报、阻断僵尸网络命令与控制流量、保障网络安全有重要的实际意义.近年来,DGA域名检测技术从依靠手工提取特征发展到自动提取特征的基于深度学习模型的方法,在DGA域名检测任务中取得了较大的进展.但对于不同僵尸网络家族的DGA域名的多分类任务,由于家族种类多,且各家族域名数据存在不平衡性,因此许多已有的深度学习模型在DGA域名的多分类任务上仍有提高空间.针对以上挑战,设计了基于字符和双字母组级别的混合词向量,以提高域名字符串的信息利用度,并设计了基于混合词向量方法的深度学习模型.最后设计了包含多种对比模型的实验,对混合词向量的有效性进行验证.实验结果表明基于混合词向量的深度学习模型在DGA域名检测与分类任务中相比只基于字符级词向量的模型有更好的分类性能,特别是在小样本的DGA域名类别上的分类性能更优,证明了该模型的有效性. DGA domain name detection plays a key role in preventing botnet attacks.It is practically significant in generating threat intelligence,blocking botnet command and control traffic,and maintaining cyber security.In recent years,DGA domain name detection algorithms have made great progress,from the methods using manually-crafted features to the automatically extracting features generated by deep learning methods.Multiple studies have indicated that deep learning methods perform better in DGA detection.However,DGA families are various and domain name data is imbalanced in the multi-class classification of different DGA families.Many existing deep learning models can still be improved.To solve the above problems,a mixed word embedding method is designed,based on character level embedding and bigram level embedding,to improve the information utilization of domain names.The paper also designs a deep learning model using the mixed word embedding method.At the end of the paper,an experiment with multiple comparison models is conducted to test the model.The experimental results show that the model based on the mixed word embedding achieves better performance in DGA domain name detection and multi-class classification tasks compared with the models based on character level embedding,especially in the small DGA families with few samples.The results show the proposed approach is effective.

作者杜鹏丁世飞 Du Peng;Ding Shifei(School of Computer Science and Technology,China University of Mining and Technology,Xuzhou,Jiangsu 221116;Engineering Research Center of Mine Digitization(China University of Mining and Technology),Ministry of Education,Xuzhou,Jiangsu 221116)

机构地区中国矿业大学计算机科学与技术学院矿山数字化教育部工程研究中心(中国矿业大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第2期433-446,共14页 Journal of Computer Research and Development

基金国家自然科学基金项目(61672522,61976216,61379101) 江苏省研究生科研创新计划项目(KYCX19_2196) 中国矿业大学研究生科研创新计划项目(KYCX19_2196)~~

关键词域名生成算法混合词向量深度学习卷积神经网络长短期记忆网络 domain generation algorithm(DGA) mixed word embedding deep learning convolutional neural network(CNN) long short-term memory(LSTM)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王海龙,龚正虎,侯婕.僵尸网络检测技术研究进展[J].计算机研究与发展,2010,47(12):2037-2048. 被引量：22
2诸葛建伟,韩心慧,周勇林,叶志远,邹维.僵尸网络研究[J].软件学报,2008,19(3):702-715. 被引量：157
3丁世飞,张楠,史忠植.拉普拉斯多层极速学习机[J].软件学报,2017,28(10):2599-2610. 被引量：8
4曾凯,丁世飞.图像超分辨率重建的研究进展[J].计算机工程与应用,2017,53(16):29-35. 被引量：39
5刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：256
6赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：59

二级参考文献172

1程杰仁,殷建平,刘运,钟经伟.蜜罐及蜜网技术研究进展[J].计算机研究与发展,2008,45(z1):375-378. 被引量：35
2文伟平,卿斯汉,蒋建春,王业君.网络蠕虫研究与进展[J].软件学报,2004,15(8):1208-1219. 被引量：187
3孙彦东,李东.僵尸网络综述[J].计算机应用,2006,26(7):1628-1630. 被引量：29
4Geer D.Malicious bots threaten network security[J].IEEE Computer,2005,38(1):18-20.
5Rajab M,Zarfoss J,Monrose F,et al.A multi-faceted approach to understanding the botnet phenomenon[C]//Proc of the 6th ACM SIGCOMM Conf on Internet Measurement Conference(IMC'06).New York:ACM,2006:41-52.
6Dean T,Marc F,Eric J,et al.Symantec global Internet security threat report:Trends for July-December 07(Volume ⅩⅢ)[R].Cupertino,CA,USA:Symantec Inc.,2008.
7Marc F,Eric J,Mack T,et al.Symantec global Internet security threat report:Trends for 2008(Volume ⅩⅣ)[R].Cupertino,CA,USA:Symantec Inc,2009.
8Baecher P,Koetter M,Holz T,et al.The Nepenthes platform:An efficient approach to collect malware[G]//LNCS 4219:Proc of the Int Symp on Recent Advances in Intrusion Detection(RAID'06).Berlin:Springer,2006:165-184.
9Zhu Zhaosheng,Fu Zhi Judy,Lu Guohan,et al.Botnet research survey[C]//Proc of the 32nd Int Computer Software and Applications Conference.Washington,DC:IEEE Computer Society,2008:967-972.
10Govil J,Govil J.Criminology of botnets and their detection and defense methods[C]//Proc of 2007 IEEE Int Conf on Electro/Information Technology(EIT2007).Washington,DC:IEEE Computer Society,2007:215-220.

共引文献525

1杜淑颖,杜鹏,丁世飞.基于CNN的假冒域名识别方法研究[J].中国科学技术大学学报,2020,50(7):1019-1025. 被引量：2
2余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
3张骁雄,杨琴琴,何浩然,丁鲲.面向俄乌冲突的时序知识图谱推理系统设计与实现[J].网络安全与数据治理,2023,42(S01):157-162.
4赵晓函,周子力,李天宇,陈丹华,王凯莉.一种基于IC参数的知识图谱嵌入方法[J].中文信息学报,2021,35(10):48-55.
5唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：16
6詹威威,程序,蔡惠民,刘汪洋,王彬,余正涛.基于综合影响力模型的改进EvolveKG方法及应用研究[J].计算机应用研究,2020,37(S01):159-162.
7阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：6
8郝卫,魏赟.基于知识图谱表示学习的推荐算法优化[J].智能计算机与应用,2020,10(4):22-26. 被引量：3
9甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：10
10白旭,卜丽静,赵国忱,张正鹏,涂丽莹.多特征的POCS图像超分辨率重建方法[J].测绘科学,2022,47(12):174-183. 被引量：2

同被引文献129

1郭佳,马朝斌,苗萌萌,张绍博.基于马尔可夫链的人工蜂群算法[J].北京邮电大学学报,2020,43(1):54-60. 被引量：4
2金双民,郑辉,段海新.僵尸网络研究系列文章之一僵尸网络研究概述[J].中国教育网络,2006(6):51-54. 被引量：6
3诸葛建伟,韩心慧,周勇林,叶志远,邹维.僵尸网络研究[J].软件学报,2008,19(3):702-715. 被引量：157
4陈锦秀,姬东鸿.基于图的半监督关系抽取[J].软件学报,2008,19(11):2843-2852. 被引量：16
5齐德昱,葛超,葛韧.混合核支持向量回归及对社会用电量的预测[J].重庆工学院学报（自然科学版）,2009,23(10):50-52. 被引量：3
6孙世洲.关于中国国家自然地图集中的中国植被区划图[J].植物生态学报,1998,22(6):523-527. 被引量：32
7江健,诸葛建伟,段海新,吴建平.僵尸网络机理与防御技术[J].软件学报,2012,23(1):82-96. 被引量：63
8贾宗维,崔军.一种发现社团结构的快速凝聚聚类算法[J].湘潭大学自然科学学报,2012,34(4):103-107. 被引量：2
9王振飞,陈金磊,郑志蕴,刘冰.面向心血管疾病的自适应模块化神经网络预测模型[J].小型微型计算机系统,2019,40(1):232-235. 被引量：10
10ZHANG Yangsen,ZHENG Jia,JIANG Yuru,HUANG Gaijuan,CHEN Ruoyu.A Text Sentiment Classification Modeling Method Based on Coordinated CNN-LSTM-Attention Model[J].Chinese Journal of Electronics,2019,28(1):120-126. 被引量：36

引证文献18

1杜淑颖,杜鹏,丁世飞.基于CNN的假冒域名识别方法研究[J].中国科学技术大学学报,2020,50(7):1019-1025. 被引量：2
2赵珂雨,陈婉莹.一种基于stacking集成学习的DGA域名检测方法[J].数据通信,2020(6):19-24.
3张瑞,王晓菲.基于混合深度学习模型的软件漏洞检测方法[J].电脑知识与技术,2021,17(18):72-73. 被引量：1
4顾兆军,杨文瑾,周景贤.基于迁移学习的小样本DGA恶意域名检测方法[J].计算机工程与应用,2021,57(14):103-109. 被引量：3
5陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：5
6张斌,廖仁杰.基于CNN与LSTM相结合的恶意域名检测模型[J].电子与信息学报,2021,43(10):2944-2951. 被引量：16
7刘小洋,刘加苗,刘超,张宜浩.融合字符级滑动窗口和深度残差网络的僵尸网络DGA域名检测方法[J].电子学报,2022,50(1):250-256. 被引量：6
8石少青,郑楷洪,周尚礼,杨劲锋,张英楠,陈敏娜,张健.电量预测中的多分辨时序神经网络模型研究[J].山东科技大学学报（自然科学版）,2022,41(2):117-126. 被引量：2
9李晓冬,李育强,宋元凤,侯孟书.新的基于融合向量的DGA域名检测方法[J].计算机应用研究,2022,39(6):1834-1837. 被引量：7
10刘立婷,欧毓毅.融合注意力机制与并行混合网络的DGA域名检测[J].计算机与现代化,2022(9):119-126.

二级引证文献37

1李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：4
2陈文中,陈俊杰,许侃,张金丽.基于循环神经网络的一种在线辅助CVT电压误差测量方法[J].东华大学学报（自然科学版）,2022,48(1):53-57. 被引量：2
3王运兵,姬少培,查成超.基于CNN与WRGRU的网络入侵检测模型[J].通信技术,2022,55(4):486-492. 被引量：2
4张凤,张微,魏金花.基于BERT和层次化Attention的恶意域名检测[J].中国电子科学研究院学报,2022,17(3):290-296. 被引量：3
5李晓冬,李育强,宋元凤,侯孟书.新的基于融合向量的DGA域名检测方法[J].计算机应用研究,2022,39(6):1834-1837. 被引量：7
6韩建,李婧,曹志民,高攀.基于LSTM多尺度共生关系挖掘的测井曲线复原[J].电子与信息学报,2022,44(7):2559-2567. 被引量：2
7王得强,吴军,关立文.结合知识图谱的行业知识库构建方法研究[J].制造技术与机床,2022(8):74-80. 被引量：4
8赵煜,尹川铭,向媛媛.DGA域名与APT攻击技术研究[J].网络安全技术与应用,2022(9):2-4.
9曾欣,马力,戴子卿.基于动态MIC优化TCN的混凝土坝变形预测模型研究[J].水力发电,2022,48(10):58-63. 被引量：3
10杨成,芦天亮,闫尚义,张建岭.基于N-gram和Transformer的DGA恶意域名检测[J].中国人民公安大学学报（自然科学版）,2022,28(3):100-108. 被引量：2

1沈美,于翔.基于机器视觉的水稻纹枯病检测与分类的研究与实现[J].江苏科技信息,2019,36(34):28-30. 被引量：1
2杨睿.从经济学外部性看环境的零污染[J].新商务周刊,2019,0(11):15-15.
3刘华煜,蒋维.用正则表达式处理缩写班级字符串[J].电脑知识与技术,2019,15(12Z):223-223.
4本刊编辑部.参考文献类型及其标识[J].军事医学,2019,43(6):478-478.
5奚舒舒,李兰,张才宝.基于SSD网络的宠物狗检测与分类[J].信息技术与信息化,2019,0(12):16-18. 被引量：1
6罗恒洋,张林.Java中的正则表达式应用探讨[J].电脑知识与技术,2019,15(11Z):95-98. 被引量：3
7陈丽君,田佩.第三人效果视域下中职学生信息素养培养研究[J].广东技术师范学院学报,2019,40(5):24-29.
8黄冬昀,王春建,丁浩南.建筑师负责制下我国建筑师的职能、权利与义务[J].四川建材,2020,46(1):184-185. 被引量：3
9贾王晶,郭丽峰,马添军.改进的基于身份的分层加密方案[J].山西大学学报（自然科学版）,2019,42(4):838-847. 被引量：1
10刘学,李范鸣,刘士建.改进的SSD红外图像行人检测算法[J].电光与控制,2020,27(1):42-46. 被引量：14

计算机研究与发展

2020年第2期

浏览历史

内容加载中请稍等...

基于混合词向量深度学习模型的DGA域名检测方法被引量：18

参考文献6

二级参考文献172

共引文献525

同被引文献129

引证文献18

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于混合词向量深度学习模型的DGA域名检测方法 被引量：18

参考文献6

二级参考文献172

共引文献525

同被引文献129

引证文献18

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于混合词向量深度学习模型的DGA域名检测方法被引量：18