基于API序列和预训练模型的恶意软件检测

Malware detection based on API sequences and pre-training

下载PDF

导出

摘要针对现有方法存在特征表达受限、无法捕获API序列全局语义信息,且恶意软件数据集通常包含大量无标注数据,无法直接进行有监督学习等问题,利用自然语言预训练模型技术,提出一种基于API调用序列和预训练模型的恶意软件检测方法。使用原始API序列构建分词器;基于BERT模型构建出动态掩码序列模型进行无监督学习的预训练,同时获取API序列的全局动态编码表示;使用该编码构造检测模型。实验结果表明,所提方法能有效检测出恶意软件。 In response to the existing limitations in feature expression and the inability to capture the global semantic information of API sequences,and confronted with the issue of an abundance of unlabeled data typically present in malware datasets,which impedes direct supervised learning,a method for malicious software detection based on pre-trained models utilizing API call sequences was proposed through the application of natural language pre-training model technology.A tokenizer was constructed using the original API sequence.Subsequently,a dynamic mask sequence model was constructed based on the BERT model for unsupervised pre-training,facilitating the extraction of a global encoding representation of the API sequence.This encoding was employed for the construction of a detection model.Experimental results demonstrate the effective detection of malicious software using the method proposed.

作者窦建民师智斌于孟洋霍帅张舒娟 DOU Jian-min;SHI Zhi-bin;YU Meng-yang;HUO Shuai;ZHANG Shu-juan(School of Data Science and Technology,North University of China,Taiyuan 030051,China)

机构地区中北大学计算机科学与技术学院

出处《计算机工程与设计》北大核心 2024年第4期974-981,共8页 Computer Engineering and Design

基金山西省基础研究计划基金项目(20210302123018)。

关键词恶意软件检测预训练模型无监督学习动态掩码软件调用序列模型微调编码表示 malware detection pre-trained model unsupervised learning dynamic mask software call sequence model fine-tuning coded representation

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1唐永旺,刘欣.基于Bi-LSTM和自注意力的恶意代码检测方法[J].计算机应用与软件,2021,38(3):327-333. 被引量：8
2黄屿璁,张潮,吕鑫,曾涛,王鑫元,丁辰龙.基于深度学习的网络入侵检测研究综述[J].信息安全研究,2022,8(12):1163-1177. 被引量：11
3田东海,魏行,张博,郁裕磊,李家硕,马锐.基于机器学习的内核恶意程序检测研究与实现[J].北京理工大学学报,2020,40(12):1295-1301. 被引量：6
4汪嘉来,张超,戚旭衍,荣易.Windows平台恶意软件智能检测综述[J].计算机研究与发展,2021,58(5):977-994. 被引量：15

二级参考文献13

1王蕊,冯登国,杨轶,苏璞睿.基于语义的恶意代码行为特征提取及检测方法[J].软件学报,2012,23(2):378-393. 被引量：71
2王丽娜,谈诚,余荣威,尹正光.针对数据泄漏行为的恶意软件检测[J].计算机研究与发展,2017,54(7):1537-1548. 被引量：16
3唐贤伦,杜一铭,刘雨微,李佳歆,马艺玮.基于条件深度卷积生成对抗网络的图像识别方法[J].自动化学报,2018,44(5):855-864. 被引量：135
4燕昺昊,韩国栋.基于深度循环神经网络和改进SMOTE算法的组合式入侵检测模型[J].网络与信息安全学报,2018,4(7):48-59. 被引量：10
5蒋永康,吴越,邹福泰.基于图像矢量的恶意代码分类模型[J].通信技术,2018,51(12):2953-2959. 被引量：7
6蹇诗婕,卢志刚,杜丹,姜波,刘宝旭.网络入侵检测技术综述[J].信息安全学报,2020,5(4):96-122. 被引量：63
7Jixin Zhang,Kehuan Zhang,Zheng Qin,Hui Yin,Qixin Wu.Sensitive system calls based packed malware variants detection using principal component initialized MultiLayers neural networks[J].Cybersecurity,2018,1(1):185-197. 被引量：3
8张小莉,程光,张慰慈.基于改进深度卷积神经网络的网络流量分类方法[J].中国科学：信息科学,2021,51(1):56-74. 被引量：7
9肖建平,龙春,赵静,魏金侠,胡安磊,杜冠瑶.基于深度学习的网络入侵检测研究综述[J].数据与计算发展前沿,2021,3(3):59-74. 被引量：7
10产院东,郭乔进,梁中岩,胡杰.基于深度学习的入侵检测综述[J].信息化研究,2021,47(4):1-7. 被引量：2

共引文献36

1严莹子,王小平,庄葛巍,顾臻,贺青,史扬.基于深度强化学习的恶意软件混淆对抗样本生成[J].计算机应用与软件,2022,39(2):315-323. 被引量：1
2蒋嘉盈,李超.简述微信恶意程序监测技术[J].保密科学技术,2022(2):39-44.
3李豪,钱丽萍.恶意代码可视化检测技术研究综述[J].软件导刊,2022,21(5):9-16. 被引量：2
4王晨,张迪明,韩斌.基于变分自编码器和三支决策的工控入侵检测算法[J].信息技术与网络安全,2022,41(6):10-17. 被引量：1
5陈力云,薛彦聪,黄宏程,王卫平.高速公路服务区车流量时序优化预测模型[J].公路,2022,67(6):212-217. 被引量：3
6林艳飞,龙媛,张航,刘志文,张政波.基于XGBoost的多种生理信号评估心理压力等级方法[J].北京理工大学学报,2022,42(8):871-880. 被引量：2
7张小峰.基于机器学习的恶意程序检测系统设计[J].信息与电脑,2022,34(11):115-117. 被引量：1
8李江坤,黄海燕.互信息深度稀疏自编码融合DLSTM预测网络[J].计算机工程与应用,2022,58(20):277-285. 被引量：1
9张清,张文川,冉兴程.基于CNN-BiLSTM和注意力机制的恶意域名检测[J].中国电子科学研究院学报,2022,17(9):848-855. 被引量：3
10罗森林,鲁帅,张毅飞,潘丽敏.基于随机平滑的恶意软件识别深度学习模型鲁棒性认证方法[J].北京理工大学学报,2023,43(2):197-202. 被引量：1

1黄增辽,林祖正.基于UG某喇叭外壳注塑模具设计[J].轻工科技,2024,40(1):52-55.
2曹传博,郭春,李显超,申国伟.基于AECD词嵌入的挖矿恶意软件早期检测方法[J].计算机科学与探索,2024,18(4):1083-1093.
3宋奇书,于红,乔诗晗,罗璇,李光宇,邵立铭,张思佳.基于改进BiRTE的渔业健康养殖标准复杂关系抽取[J].大连海洋大学学报,2024,39(1):153-161.
4叶亚雄,张华.利用Phyphox创新物理实验教学[J].中学物理教学参考,2024(8):54-57.
5陈仲元,张建标.基于注意力与门控机制的多特征融合恶意软件检测方法[J].网络与信息安全学报,2024,10(1):123-135.
6周蓬勃,冯龙,寇宇帆.基于多尺度Scale-Unet的单样本图像翻译[J].计算机技术与发展,2024,34(4):55-61.
7张宏瀚,王亚博,李娟,王元慧,严浙平.近海复杂环境下UUV动态路径规划方法研究[J].智能系统学报,2024,19(1):114-121.
8康得军,赖李保壹,邱福杰,温儒杰,吴端炜,赵颖.基于机器学习理论的SWMM参数自动率定方法[J].中国给水排水,2024,40(5):122-129.
9彭永梅,童向荣.基于知识图谱的轻量级图卷积网络推荐[J].南京大学学报（自然科学版）,2023,59(6):937-946.
10邬永,王冰,陈玉全,姜华.融合精细化气象因素与物理约束的深度学习模型在短期风电功率预测中的应用[J].电网技术,2024,48(4):1455-1465.

计算机工程与设计

2024年第4期

浏览历史

内容加载中请稍等...

基于API序列和预训练模型的恶意软件检测

参考文献4

二级参考文献13

共引文献36

相关作者

相关机构

相关主题

浏览历史