基于API潜在语义的勒索软件早期检测方法

Ransomware Early Detection Method Based on API Latent Semantics

下载PDF

导出

摘要加密型勒索软件通过加密用户文件来勒索赎金.现有的基于第一条加密应用编程接口(Application Programming Interface,API)的早期检测方法无法在勒索软件执行加密行为前将其检出.由于不同家族的勒索软件开始执行其加密行为的时刻各不相同,现有的基于固定时间阈值的早期检测方法仅能将少量勒索软件在其执行加密行为前准确检出.为进一步提升勒索软件检测的及时性,本文在分析多款勒索软件运行初期调用动态链接库(Dynamic Link Library,DLL)和API行为的基础上,提出了一个表征软件从开始运行到首次调用加密相关DLL之间的时间段的概念——运行初始阶段(Initial Phase of Operation,IPO),并提出了一个以软件在IPO内产生的API序列为检测对象的勒索软件早期检测方法,即基于API潜在语义的勒索软件早期检测方法(Ransomware Early Detection Method based on API Latent Semantics,REDMALS).REDMALS采集IPO内的API序列后,采用TF-IDF(Term Frequency-Inverse Document Frequency)算法以及潜在语义分析(Latent Semantic Analysis,LSA)算法对采集的API序列生成特征向量及提取潜在的语义结构,再运用机器学习算法构建检测模型用于勒索软件检测.实验结果显示运用随机森林算法的REDMALS在构建的变种测试集和未知测试集上可分别获得97.7%、96.0%的准确率,且两个测试集中83%和76%的勒索软件样本可在其执行加密行为前被检出. Cryptographic ransomware extorts a ransom by encrypting user files.Existing early detection methods based on the first encryption-related application programming interface(API)cannot detect ransomware before it executes encryption behavior.Because the point at which different ransomware families begin executing their encryption behavior varies,existing early detection methods based on fixed time thresholds can only accurately detect a small fraction of ransom⁃ware before it executes encryption behavior.To further improve the timeliness of ransomware detection,this article propos⁃es a concept that characterizes the time period from the start of software operation to the first call of encryption-related dy⁃namic-link libraries(DLLs),namely the initial phase of operation(IPO).Based on the analysis of DLL and API call behavior in the early operational phase of several ransomwares,this article presents a method based on the API sequences generated by the software within the IPO as the detection object,namely the ransomware early detection method based on API latent seman⁃tics(REDMALS).REDMALS captures the API sequences within the IPO,uses the term frequency-inverse document frequen⁃cy algorithm and the latent semantic analysis algorithm to generate feature vectors on the captured API sequences and to ex⁃tract potential semantic structures,respectively,and then uses a machine learning algorithm to construct a detection model for ransomware detection.The experimental results show that REDMALS using the random forest algorithm achieves 97.7%and 96.0%accuracy on the constructed variant test set and unknown test set,respectively,and 83%and 76%of the ransom⁃ware samples in both test sets,respectively,can be detected before they perform any encryption behavior.

作者罗斌郭春申国伟崔允贺陈意平源 LUO Bin;GUO Chun;SHEN Guo-wei;CUI Yun-he;CHEN Yi;PING Yuan(State Key Laboratory of Public Big Data,College of Computer Science and Technology,Guizhou University,Guiyang,Guizhou 550025,China;School of Information Engineering,Xuchang University,Xuchang,Henan 461000,China)

机构地区贵州大学计算机科学与技术学院公共大数据国家重点实验室许昌学院信息工程学院

出处《电子学报》 EI CAS CSCD 北大核心 2024年第4期1288-1295,共8页 Acta Electronica Sinica

基金国家自然科学基金(No.62162009) 贵州省科技支撑计划(No[.2022]071) 贵州省高等学校大数据与网络安全创新团队(No[.2023]052) 河南省科技攻关计划项目(No.222102210048)。

关键词勒索软件早期检测 API TF-IDF 潜在语义分析随机森林 ransomware early detection API TF-IDF latent semantic analysis random forest

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1刘文静,郭春,申国伟,谢博,吕晓丹.基于深度学习的勒索软件早期检测方法[J].计算机科学,2023,50(3):391-398. 被引量：2
2陈长青,郭春,崔允贺,申国伟,蒋朝惠.基于API短序列的勒索软件早期检测方法[J].电子学报,2021,49(3):586-595. 被引量：7

二级参考文献8

1王持恒,陈晶,陈祥云,杜瑞颖.基于证据链生成的Android勒索软件检测方法[J].计算机学报,2018,41(10):2344-2358. 被引量：7
2任卓君,陈光,卢文科.基于N-gram特征的恶意代码可视化方法[J].电子学报,2019,47(10):2108-2115. 被引量：8
3吴玉佳,李晶,宋成芳,常军.基于高效用神经网络的文本分类方法[J].电子学报,2020,48(2):279-284. 被引量：14
4郭春,陈长青,申国伟,蒋朝惠.一种基于可视化的勒索软件分类方法[J].信息网络安全,2020(4):31-39. 被引量：8
5李鹏伟,姜宇谦,薛飞扬,黄佳佳,徐超.一种基于深度学习的强对抗性Android恶意代码检测方法[J].电子学报,2020,48(8):1502-1508. 被引量：16
6陈长青,郭春,崔允贺,申国伟,蒋朝惠.基于API短序列的勒索软件早期检测方法[J].电子学报,2021,49(3):586-595. 被引量：7
7刘晓璇,季怡,刘纯平.基于LSTM神经网络的声纹识别[J].计算机科学,2021,48(S02):270-274. 被引量：13
8李昭奇,黎塔.基于wav2vec预训练的样例关键词识别[J].计算机科学,2022,49(1):59-64. 被引量：5

共引文献7

1郭春,罗迪,申国伟,崔允贺,平源.一种基于诱导机制的间谍软件检测方法[J].电子学报,2022,50(4):1014-1024. 被引量：3
2刘文静,郭春,申国伟,谢博,吕晓丹.基于深度学习的勒索软件早期检测方法[J].计算机科学,2023,50(3):391-398. 被引量：2
3邓希桢,蒋明,岑明灿,罗玉玲.基于熵图像静态分析技术的勒索软件分类研究[J].广西师范大学学报（自然科学版）,2023,41(3):91-104.
4阮琳琦,梁桂花,李宇航.勒索软件检测技术研究[J].网络安全技术与应用,2023(5):59-61. 被引量：1
5马文聪,谭毓安,冯硕,刘璐,李元章.基于Android无障碍服务的行为监控[J].电子学报,2023,51(12):3572-3581.
6丁梅,柳丹,彭洋.勒索软件对科技信息安全的影响研究[J].软件导刊,2024,23(6):121-127.
7陈秀萍,李振.防患于未然:基于风险矩阵的API金融数据泄露风险管理[J].金融市场研究,2024(7):128-138.

1王佳音.恶意软件威胁分析与对策[J].中国金融电脑,2024(4):83-85. 被引量：1
2杨斌.煤气化装置磨煤机的运行管理与维护[J].设备管理与维修,2024(8):80-82.
3覃琼花,张春燕,徐百宁.基于深度学习的微信小程序图像识别系统[J].信息与电脑,2024,36(1):73-75. 被引量：1
4苗玉琪.基于CNN-GRU的文本数据特征提取及其分类技术设计[J].贵阳学院学报（自然科学版）,2024,19(1):32-35.
5甘雨金,李红军,唐小川,王子怡,甘晨灼,胡正浩.基于多头自注意力机制和对抗训练的实体关系联合抽取[J].成都理工大学学报（自然科学版）,2024,51(3):513-521. 被引量：1
6证券期货业信息技术安全能力评估标准研究课题组.构建网络安全能力成熟度模型稳步推进信息安全治理[J].金融电子化,2024(8):53-55.
7朱铁樱,骆爽,潘光永.基于人机交互技术的船舶智能导航仿真模拟系统[J].舰船科学技术,2023,45(20):190-193. 被引量：1
8王世昌,陈瑾.双重共现潜在语义向量空间模型研究[J].中文科技期刊数据库（文摘版）图书情报,2024(5):0163-0168.
9陈霄,肖甫,沙乐天,王众,底伟鹤.基于双层BiLSTM的安装程序DLL劫持漏洞挖掘方法[J].软件学报,2023,34(12):5552-5577.
10朱东琦.组织机构扁平化下基层党组织设置实践研究[J].中国石油企业,2024(4):97-99.

电子学报

2024年第4期

浏览历史

内容加载中请稍等...

基于API潜在语义的勒索软件早期检测方法

参考文献2

二级参考文献8

共引文献7

相关作者

相关机构

相关主题

浏览历史