基于语义分析的恶意JavaScript代码检测方法被引量：7

Syntax-based malicious JavaScript code detection method

下载PDF

导出

摘要 JavaScript是一种动态脚本语言,被用于提高网页的交互能力.然而攻击者利用它的动态性在网页中执行恶意代码,构成了巨大威胁.传统的基于静态特征的检测方式难以检测经过混淆后的恶意代码,而基于动态分析检测的方式存在效率低等问题.本文提出了一种基于语义分析的静态检测模型,通过提取抽象语法树的词法单元序列特征,使用word2vec训练词向量模型,将生成的序列向量特征输入到LSTM网络中检测恶意JavaScript脚本.实验结果表明,该模型能够高效检测混淆的恶意JavaScript代码,模型的精确率达99.94%,召回率为98.33%. JavaScript is a dynamic scripting language originally designed to improve the interactive capability of web pages. However, attackers use this peculiarity to execute malicious code on web pages, posing a huge threat. The obfuscated malicious code is difficult to detect using the traditional method based on static features, and the method based on dynamic analysis is inefficient. This paper proposes a static detection model based on semantic analysis. Specifically, the lexical unit sequence is extracted from abstract syntax trees;then the word vectors are generated by word2vec based on the lexical unit sequence;finally the generated vectors are input into the LSTM network to detect malicious JavaScript. Experiments show that the model can effectively detect obfuscated malicious JavaScript code and improve the detection speed, with a precision of 99.94% and recall of 98.33%.

作者邱瑶瑶方勇黄诚刘亮张星 QIU Yao-Yao;FANG Yong;HUANG Cheng;LIU Liang;ZHANG Xing(College of Electronics and Information Engineering, SichuanUniversity, Chengdu 610065, China;College of Cybersecurity, Sichuan University, Chengdu 610065, China;Nsfocus Information Technology Company, Limited, Beijing 100089, China)

机构地区四川大学电子信息学院四川大学网络空间安全学院北京神州绿盟信息安全科技股份有限公司

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2019年第2期273-278,共6页 Journal of Sichuan University(Natural Science Edition)

基金 CCF-绿盟科技"鲲鹏"基金(2018008)

关键词恶意JavaScript代码检测抽象语法树长短时记忆网络深度学习 Malicious JavaScript code detection Abstract syntax tree Long short-term memory Deep learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1马洪亮,王伟,韩臻.混淆恶意JavaScript代码的检测与反混淆方法研究[J].计算机学报,2017,40(7):1699-1713. 被引量：19
2周顺先,蒋励,林霜巧,龚德良,王鲁达.基于Word2vector的文本特征化表示方法[J].重庆邮电大学学报（自然科学版）,2018,30(2):272-279. 被引量：21
3郑荣锋,方勇,刘亮.基于动态行为指纹的恶意代码同源性分析[J].四川大学学报（自然科学版）,2016,53(4):793-798. 被引量：12
4李道丰,黄凡玲,刘水祥,黄安妮.基于行为语义分析的Web恶意代码检测机制研究[J].计算机科学,2016,43(8):110-113. 被引量：8

二级参考文献19

1董志强,肖新光,张栗伟.编码心理学分析病毒同源性[J].信息安全与通信保密,2005(8):55-59. 被引量：9
2Wang Z, Pierce K, McFarling S. Bmat-a binary matching tool for stale profile propagation[J]. The Journal of Instruction-Level Parallelism (ILP), 2000, 2 : 1.
3Flake. H. Structural comparison of executable objects [C]//Proceedings of the IEEE Conference on Detec- tion of Intrusions, Malware and Vulnerability Assess- ment(DIMVA). Dortmund, Germany: IEEE, 2004.
4Dullien T, Rolles R. Graph-based comparison of ex- ecutable objects ( English version) [J]. SSTIC, 2005, 5 : 1.
5Gao D, Reiter M K, Song D. Binhunt: Automati- cally finding semantic differences in binary pro- grams[C]//Information and Communications Secu- rity. Berlin Heidelberg: Springer, 2008.
6Bailey M, Oberheide J, Andersen J, etal. Automa- ted classification and analysis of internet matware [C]//Recent advances in intrusion detection. Berlin Heidelberg: Springer, 2007.
7Lee T, Mody J J. Behavioral classification[C]//EIC- AR Conference. Hamburg, Germany.. [s. n.], 2006.
8Levenshtein V I. Binary codes capable of correcting deletions, insertions and reversals [ J ]. Soviet Physics Doklady, 1966, 10(10).. 707.
9Li J, Xu J, Xu M, et al. Malware obfuscation measuring via evolutionary similarity[C]//Future Information Networks (ICF1N). Beijing, China; IEEE, 2009.
10杨轶,苏璞睿,应凌云,冯登国.基于行为依赖特征的恶意代码相似性比较方法[J].软件学报,2011,22(10):2438-2453. 被引量：21

共引文献54

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
3褚乾峰,朱信宇,刘功申.恶意代码同源判定技术综述[J].通信技术,2017,50(7):1484-1492. 被引量：2
4马莉莉,刘江平.大数据信息传输中恶意攻击数据识别仿真[J].计算机仿真,2017,34(10):375-378. 被引量：5
5王卫红,朱雨辰.基于N-Gram与加权分类器集成的恶意代码检测[J].浙江工业大学学报,2017,45(6):604-609. 被引量：9
6郭文,王俊峰.Windows恶意代码动态通用脱壳方法研究[J].四川大学学报（自然科学版）,2018,55(2):283-289. 被引量：5
7宋雪勦,张俊,何明星.基于动态符号执行的不透明谓词反混淆算法[J].西华大学学报（自然科学版）,2018,37(3):73-77.
8肖锦琦,王俊峰.基于模糊哈希特征表示的恶意软件聚类方法[J].四川大学学报（自然科学版）,2018,55(3):469-476. 被引量：13
9曲文鹏,赵连军,邓旭.混淆恶意JavaScript代码的多特征检测识别与分析[J].智能计算机与应用,2018,8(4):42-47. 被引量：1
10夏凡,崔艳荣.基于canvas的前端数据加密[J].电脑知识与技术,2018,14(12Z):33-34.

同被引文献40

1袁里驰.融合语言知识的统计句法分析[J].中南大学学报（自然科学版）,2012,43(3):986-991. 被引量：5
2谢平.存储系统重复数据删除技术研究综述[J].计算机科学,2014,41(1):22-30. 被引量：26
3徐青,朱焱,唐寿洪.分析多类特征和欺诈技术检测JavaScript恶意代码[J].计算机应用与软件,2015,32(7):293-296. 被引量：5
4徐继伟,张文博,魏峻,钟华,黄涛.一种基于聚类分组的虚拟机镜像去冗余方法[J].软件学报,2016,27(2):466-480. 被引量：7
5李侠.英汉机器翻译中的英语动词汉译研究[J].电子设计工程,2016,24(13):13-15. 被引量：5
6李洋.SSM框架在Web应用开发中的设计与实现[J].计算机技术与发展,2016,26(12):190-194. 被引量：161
7曲维光,周俊生,吴晓东,戴茹冰,顾敏,顾彦慧.自然语言句子抽象语义表示AMR研究综述[J].数据采集与处理,2017,32(1):26-36. 被引量：19
8李莹,柳生鹏,赵朗,潘纲.自适应RESTful Web API进化模型的研究[J].计算机集成制造系统,2017,23(5):1020-1030. 被引量：14
9庞双玉.网页加载时JavaScript代码效率提高机制探讨[J].数字技术与应用,2017,35(7):232-232. 被引量：3
10杨倩倩,秦旭明.基于交互式机器翻译的译文查询行文预测技术[J].电子科技,2017,30(11):110-112. 被引量：2

引证文献7

1张灿阳,刘晓洁.基于改进Simhash的虚拟机镜像去重方法[J].四川大学学报（自然科学版）,2020,57(1):57-65. 被引量：4
2谢宏兰.室内停车场车辆定位及导航系统的设计[J].电脑知识与技术,2020,16(12):219-220. 被引量：7
3王娟娟.基于List-Based转移的英语语义分析翻译系统研究[J].电子设计工程,2020,28(16):35-38. 被引量：1
4吕晓芳.Java Script代码分析技术探究[J].数码设计,2020,9(15):64-65.
5陈典超,王晨.基于语义分析的恶意JavaScript检测技术[J].电子设计工程,2023,31(22):37-41.
6孙世淼,刘亚姝,严寒冰.基于多字节频率域可视化和深度学习的恶意软件检测[J].计算机工程与设计,2024,45(8):2272-2280.
7纪育青,方艳红,谭顺华,王学渊.基于Bi-LSTM模型的恶意JavaScript代码检测方法[J].计算机应用与软件,2024,41(9):357-362.

二级引证文献12

1宋娟,潘欢,马晓.带安全检测的云数据中心虚拟机迁移策略[J].重庆邮电大学学报（自然科学版）,2021,33(2):311-318. 被引量：4
2周婷婷,王礼青,刘一男.基于交互式信息检索的商品导航系统[J].软件工程,2021,24(6):37-42.
3杨柳青,王冲.云数据中心基于负载预测的物理主机状态检测策略[J].重庆邮电大学学报（自然科学版）,2021,33(6):1014-1023. 被引量：1
4王晨源,杨惠茹.基于UWB的地下车库智慧导航系统设计[J].河南科技,2022,41(2):6-9. 被引量：2
5周字辉,朱晓强,曾丹.基于计算机视觉的室内定位系统设计与实现[J].电子测量技术,2022,45(2):43-47. 被引量：8
6彭志斌,何利明,况立群,马忠亮.基于WebGL的火药燃烧虚拟仿真实验系统[J].实验技术与管理,2022,39(4):204-209. 被引量：5
7郑晰,文良.基于深度学习的交互式英语口语自动翻译系统设计[J].自动化与仪器仪表,2022(8):147-150. 被引量：3
8贺婉茹,何春红,任斌,张宗杰.基于机器视觉的光照不理想地下停车场定位系统[J].激光杂志,2022,43(12):40-45. 被引量：1
9卞新玉,何圣超,王树军.基于BLE+位置指纹的室内停车场导航设计[J].电子制作,2023,31(16):62-64.
10徐胜超.基于混合蛙跳算法的容器云资源低能耗部署方法[J].重庆邮电大学学报（自然科学版）,2023,35(5):952-959. 被引量：2

1张青,韩立新,刘合兵.结合字词向量的主题向量模型[J].电子测量技术,2019,42(3):49-53. 被引量：2
2雷志彬,陈骏霖.基于全连接LSTM的心肺音分离方法[J].自动化与信息工程,2018,39(6):25-30. 被引量：5
3王宁,李世林,刘堂亮,赵伟.基于注意力机制的BiGRU判决结果倾向性分析[J].计算机系统应用,2019,28(3):191-195. 被引量：8
4吴洁,朱小飞,张宜浩,龙建武,黄贤英,杨武.基于用户情感倾向感知的微博情感分析方法[J].山东大学学报（理学版）,2019,54(3):46-55. 被引量：7
5王杰,袁磊.基于WebGIS的农业资源信息管理平台[J].江西农业,2018(18):115-115. 被引量：1
6王茂森,蒋小森,牛少彰.一种新的场景文本识别模型[J].北京理工大学学报,2019,39(3):269-275. 被引量：4
7王强,李迎光,郝小忠,刘长青,陈海吉.基于在线学习的数控加工刀具寿命动态预测方法[J].航空制造技术,2019,62(7):49-53. 被引量：8
8郑明秋.基于对象的JavaScript语言的研究与实现[J].计算机产品与流通,2018,7(11):20-20. 被引量：2
9谢小魁.C#7元组语言优化测绘程序设计教学研究[J].软件导刊.教育技术,2017,16(10):47-48. 被引量：1
10裴亮,刘阳,谭海,高琳.基于改进的全卷积神经网络的资源三号遥感影像云检测[J].激光与光电子学进展,2019,56(5):218-225. 被引量：20

四川大学学报（自然科学版）

2019年第2期

浏览历史

内容加载中请稍等...

基于语义分析的恶意JavaScript代码检测方法被引量：7

参考文献4

二级参考文献19

共引文献54

同被引文献40

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于语义分析的恶意JavaScript代码检测方法 被引量：7

参考文献4

二级参考文献19

共引文献54

同被引文献40

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于语义分析的恶意JavaScript代码检测方法被引量：7