基于抽象语法树的智能化漏洞检测系统被引量：10

Intelligent vulnerability detection system based on abstract syntax tree

下载PDF

导出

摘要源代码漏洞的自动检测是一个重要的研究课题。目前现有的解决方案大多是基于线性模型,依赖于源代码的文本信息而忽略了语法结构信息,从而造成了源代码语法和语义信息的丢失,同时也遗漏了许多漏洞特征。提出了一种基于结构表征的智能化漏洞检测系统Astor,致力于使用源代码的结构信息进行智能化漏洞检测,所考虑的结构信息是抽象语法树(Abstract Syntax Tree,AST)。首先,构建了一个从源代码转化而来且包含源码语法结构信息的数据集,提出使用深度优先遍历的机制获取AST的语法表征。最后,使用神经网络模型学习AST的语法表征。为了评估Astor的性能,对多个基于结构化数据和基于线性数据的漏洞检测系统进行比较,实验结果表明Astor能有效提升漏洞检测能力,降低漏报率和误报率。此外,还进一步总结出结构化模型更适用于长度大,信息量丰富的数据。 Automatic detection of source code vulnerability is an important research topic. However, most existing solutions are based on linear models. They rely on the text information of source code but ignore the grammatical structure information. This will cause the loss of source code syntax and semantic information, but also miss many vulnerability features. In this paper, an Abstract Syntax Tree(AST) based source code structured representation learning system is proposed to study the structured information of source code and detect the vulnerabilities, called Astor. First, we present a data set that is transformed from the source code and contains information about the syntax structure of the source code. In addition, we propose using a depth first information extraction scheme to obtain the syntax and semantic representation of AST. In Astor, the neural network based detection system is used to learn the representation of AST. In order to evaluate the Astor, we compare vulnerability detection systems based on structured data and linear data. The results show that Astor can achieve much fewer false negative and false positive than other approaches. In addition, this paper further concludes that the structured model is more suitable for data with rich semantic information.

作者陈肇炫邹德清李珍金海 CHEN Zhaoxuan;ZOU Deqing;LI Zhen;JIN Hai(National Engineering Research Center for Big Data Technology and System,Services Computing Technology and System Lab,Clusters and Grid Computing Lab,Big Data Security Engineering Research Center,Wuhan 430074,China;School of Computer Science and Technology,Huazhong University of Science and Technology,Wuhan 430074,China 3;School of Cyber Science and engineering,Huazhong University of Science and Technology,Wuhan 430074,China;Institute of Huazhong University of Science and Technology,Shenzhen 518000,China)

机构地区大数据技术与系统国家工程研究中心服务计算技术与系统教育部重点实验室集群与网格计算湖北省重点实验室大数据安全湖北省工程研究中心华中科技大学计算机科学与技术学院华中科技大学网络空间安全学院深圳华中科技大学研究院

出处《信息安全学报》 CSCD 2020年第4期1-13,共13页 Journal of Cyber Security

基金国家自然科学基金项目(No.U1936211) 深圳市基础研究(学科布局)(No.JCYJ20170413114215614) 广东省省级科技计划项目(No.2017B010124001) 广东省重点领域研发计划项目(No.2019B010139001)的资助。

关键词漏洞检测结构表征抽象语法树神经网络 vulnerability detection structured representation abstract syntax tree neural network

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李舟军,张俊贤,廖湘科,马金鑫.软件安全漏洞检测技术[J].计算机学报,2015,38(4):717-732. 被引量：76
2陈小全,薛锐.程序漏洞:原因、利用与缓解——以C和C++语言为例[J].信息安全学报,2017,2(4):41-56. 被引量：8
3王雷,陈归,金茂忠.基于约束分析与模型检测的代码安全漏洞检测方法研究[J].计算机研究与发展,2011,48(9):1659-1666. 被引量：6

二级参考文献104

1陈火旺,王戟,董威.高可信软件工程技术[J].电子学报,2003,31(z1):1933-1938. 被引量：115
2Dhurjati D, Adve V. Backwards-compatible array bounds checking for C with very low overhead[C]//Proc of the 28th Int Conf on Software Engineering. New York: ACM, 2006: 162-171.
3Livshits V, Lain M. Tracking pointers with path and context sensitivity for bug detection in C programs [C] //Proc of the 9th European Software Engineering Conf Held Jointly with 11th ACM SIGSOFT Int Syrup on Foundations of Software Engineering. New York: ACM, 2003: 317-326.
4Zitser M. Securing software: An evaluation of static source code analyzers [D]. Cambridge: MIT, 2003.
5Clarke E M, Grumberg O, Peled D. Model Checking [M]. Boston: MIT, 1999.
6Cousot P. Formal language, grammar and set-constraint- based program analysis by abstract interpretation [C]//Proc of the 7th Int Conf on Functional Programming Languages and Computer Architecture. New York: ACM, 1995: 170- 181.
7FSF. GCC, the GNU compiler collection FEB/OLd. [2009- 10-17]. http://gcc, gnu. org/.
8Henzinger T, Jhala R, Majumdar R, et al. Lazy abstraction [C] //Proe of the 29th ACM SIGACT Syrup Principles of Programming Languages. New York: ACM, 2002:58-70.
9Weiser M. Program slicing [C]//Proc of the 5th Int Conf on Software Engineering. New York: ACM, 1981:439-449.
10DeKok A. Pscan: A limited problem scanner for C source files [EB/OL]. [2009-10-17]. http://deployingradius.com/ pscan/.

共引文献87

1张超,潘祖烈,樊靖.面向堆内存漏洞的double free攻击方法检测[J].计算机应用研究,2020,37(S01):275-278. 被引量：1
2李光杰,唐艺,易比一,张翔,何焱.开源软件供应链安全问题研究[J].智能安全,2023,2(1):82-89.
3龚炳江,唐宇敬.Android平台下软件安全漏洞挖掘方法研究[J].计算机应用与软件,2014,31(1):311-314. 被引量：6
4俞东进,吴为,殷昱煜,闫大强,刘志清.基于模型检测的服务规则路由正确性验证方法[J].电子科技大学学报,2014,43(1):107-112. 被引量：2
5黄宏涛,王静,叶海智,黄少滨.基于惰性切片的线性时态逻辑性质验证[J].吉林大学学报（工学版）,2015,45(1):245-251. 被引量：1
6向灵孜.源代码审计综述[J].保密科学技术,2015,0(12):36-41. 被引量：7
7王耀辉,王丹,付利华.面向PHP程序的SQL漏洞检测系统[J].计算机工程,2016,42(4):112-118. 被引量：5
8梁娟.基于代码级别的渗透测试实践[J].襄阳职业技术学院学报,2016,15(2):33-36.
9马金鑫,张涛,李舟军,张江霄.Fuzzing过程中的若干优化方法[J].清华大学学报（自然科学版）,2016,56(5):478-483. 被引量：11
10吴波,云雷,金先涛,刘北水.工业监控组态软件模糊测试方法研究[J].电子产品可靠性与环境试验,2016(3):33-38. 被引量：2

同被引文献49

1张勇翔,李必信,郑国梁.程序切片技术的研究与应用[J].计算机科学,2000,27(1):31-35. 被引量：9
2邹权臣,张涛,吴润浦,马金鑫,李美聪,陈晨,侯长玉.从自动化到智能化:软件漏洞挖掘技术进展[J].清华大学学报（自然科学版）,2018,58(12):1079-1094. 被引量：39
3王蕾,李丰,李炼,冯晓兵.污点分析技术的原理和实践应用[J].软件学报,2017,28(4):860-882. 被引量：48
4丁青锋,尹晓宇.差分进化算法综述[J].智能系统学报,2017,12(4):431-442. 被引量：111
5刘剑,苏璞睿,杨珉,和亮,张源,朱雪阳,林惠民.软件与网络安全研究综述[J].软件学报,2018,29(1):42-68. 被引量：93
6叶志斌,严波.符号执行研究综述[J].计算机科学,2018,45(B06):28-35. 被引量：19
7况晓辉,刘强,李响,聂原平.基于机器学习的软件脆弱性分析方法综述[J].计算机工程与科学,2018,40(11):2000-2007. 被引量：5
8李珍,邹德清,王泽丽,金海.面向源代码的软件漏洞静态检测综述[J].网络与信息安全学报,2019,5(1):1-14. 被引量：22
9PENG Shuanghe,LIU Peiyao,HAN Jing.A Python Security Analysis Framework in Integrity Verification and Vulnerability Detection[J].Wuhan University Journal of Natural Sciences,2019,24(2):141-148. 被引量：2
10胡星,李戈,刘芳,金芝.基于深度学习的程序生成与补全技术研究进展[J].软件学报,2019,30(5):1206-1223. 被引量：19

引证文献10

1肖添明,管剑波,蹇松雷,任怡,张建锋,李宝.基于代码属性图和Bi-GRU的软件脆弱性检测方法[J].计算机研究与发展,2021,58(8):1668-1685. 被引量：6
2邹德清,李响,黄敏桓,宋翔,李浩,李伟明.基于图结构源代码切片的智能化漏洞检测系统[J].网络与信息安全学报,2021,7(5):113-122. 被引量：4
3杨宏宇,应乐意,张良.基于结构化文本及代码度量的漏洞检测方法[J].湖南大学学报（自然科学版）,2022,49(4):58-68. 被引量：6
4徐浩然,王勇军,黄志坚,解培岱,范书珲.基于前馈神经网络的编译器测试用例生成方法[J].软件学报,2022,33(6):1996-2011. 被引量：6
5刘嘉勇,韩家璇,黄诚.源代码漏洞静态分析技术[J].信息安全学报,2022,7(4):100-113. 被引量：4
6安心,王涛.网络教学课程信息窃取风险实时监测方法研究[J].自动化与仪器仪表,2023(1):20-25.
7袁子龙,吴秋新,刘韧,秦宇.一种基于改进差分进化算法的源码漏洞检测模型的冷启动方法[J].计算机应用研究,2023,40(7):2170-2178.
8胡雨涛,王溯远,吴月明,邹德清,李文科,金海.基于图神经网络的切片级漏洞检测及解释方法[J].软件学报,2023,34(6):2543-2561. 被引量：10
9李妍,羌卫中,李珍,邹德清,金海.基于程序过程间语义优化的深度学习漏洞检测方法[J].网络与信息安全学报,2023,9(6):86-101. 被引量：2
10刘羿希,何俊,吴波,刘丙童,李子玉.DevSecOps中软件安全性测试技术综述[J].计算机应用,2024,44(11):3470-3478.

二级引证文献35

1王娟娟,刘雄飞,晏榕璟.基于Ngram+Bi-GRU的多家族恶意域名检测[J].中国电子科学研究院学报,2021,16(12):1270-1275. 被引量：5
2周力.基于机器学习的网络安全漏洞监测系统设计[J].信息与电脑,2022,34(18):232-234.
3赵英辉,罗丹,肖德勇,李铮,代洪光.基于XIP FLASH的嵌入式软件设计与应用[J].现代电子技术,2023,46(4):85-90. 被引量：1
4安心,王涛.网络教学课程信息窃取风险实时监测方法研究[J].自动化与仪器仪表,2023(1):20-25.
5黄甦雷,马骏驰,段宗涛.基于图神经网络的程序脆弱性指数评估方法[J].计算机应用研究,2023,40(4):1148-1153.
6葛艺,黄文超,熊焰.基于安全协议代码的形式化辅助建模研究[J].计算机应用研究,2023,40(4):1189-1193. 被引量：2
7王璇,王馨彤,陈燕俐,孙知信.基于DistilBert-LSTM与多项朴素贝叶斯的漏洞检测方法[J].南京邮电大学学报（自然科学版）,2023,43(2):102-110. 被引量：2
8赵小芳,窦全胜,姜云霄.动态模糊逻辑程序设计语言编译器的实现[J].吉林大学学报（信息科学版）,2023,41(3):503-511.
9袁子龙,吴秋新,刘韧,秦宇.一种基于改进差分进化算法的源码漏洞检测模型的冷启动方法[J].计算机应用研究,2023,40(7):2170-2178.
10熊可欣,李涛,余琴,乔梦晴.PDGcross:基于跨文件图表征的源代码漏洞检测[J].计算机技术与发展,2023,33(8):102-107.

1李元诚,黄戎,来风刚,毛一凡,蔡力军.基于深度聚类的开源软件漏洞检测方法[J].计算机应用研究,2020,37(4):1107-1110. 被引量：19
2陶谦文,凌杭,邱迅.基于网络爬虫的高校WEB应用漏洞检测[J].电脑知识与技术,2020,16(19):44-46. 被引量：2
3韩松明,梁彬,黄建军,石文昌.DC-Hunter:一种基于字节码匹配的危险智能合约检测方案[J].信息安全学报,2020,5(3):100-112. 被引量：5
4张媛.基于污染源追踪的PHP源代码漏洞检测方法研究[J].环境科学与管理,2020,45(7):23-27.
5E. O. Aliyu,A. O. Adetunmbi,B. A. Ojokoh.Intermediate Representation Using Graph Visualization Software[J].Journal of Software Engineering and Applications,2020,13(5):77-90.
6朱辉生,陈琳,倪艺洋,汪卫,施伯乐.融合多种支持度定义的频繁情节挖掘算法[J].软件学报,2020,31(7):2169-2183. 被引量：1
7孙智慧,李文雄.私家车位预订匹配优化模型及计算方法研究[J].石家庄铁道大学学报（自然科学版）,2019,32(4):89-96. 被引量：2
8王梦寒,刘文斌,丁磊,李雨锴,丁建锋.物理隔离网络电磁信息安全检测模型与应用探索[J].通信技术,2020,53(8):2054-2058. 被引量：1
9胡高鹏,陈子鎏,王晓明,张开放.基于深度渐进式反投影注意力网络的图像超分辨率重建[J].计算机应用,2020,40(7):2077-2083. 被引量：4
10罗时婷,顾磊.基于深度神经网络损失函数融合的文本检测[J].计算机工程与应用,2020,56(16):90-96. 被引量：6

信息安全学报

2020年第4期

浏览历史

内容加载中请稍等...

基于抽象语法树的智能化漏洞检测系统被引量：10

参考文献3

二级参考文献104

共引文献87

同被引文献49

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于抽象语法树的智能化漏洞检测系统 被引量：10

参考文献3

二级参考文献104

共引文献87

同被引文献49

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于抽象语法树的智能化漏洞检测系统被引量：10