基于混合代码表示的源代码脆弱性检测

Source code vulnerability detection based on hybrid code representation

下载PDF

导出

摘要软件脆弱性对网络与信息安全产生了极大的威胁,而脆弱性的根源在于软件源代码。因为现有的传统静态检测工具和基于深度学习的检测方法没有完整地表示代码特征,并且简单地使用词嵌入方法转换代码表示,所以检测结果准确率低,误报率高或漏报率高。因此,提出了一种基于混合代码表示的源代码脆弱性检测方法来解决代码表示不完整的问题,并提升检测性能。首先将源代码编译为中间表示(IR),并提取程序依赖图;然后基于数据流和控制流分析进行程序切片来得到结构化的特征,同时使用doc2vec嵌入节点语句得到非结构化的特征;接着使用图神经网络(GNN)对混合特征进行学习;最后使用训练好的GNN进行预测和分类。为了验证所提方法的有效性,在软件保证参考数据集(SARD)和真实世界数据集上进行了实验评估,检测结果的F1值分别达到了95.3%和89.6%。实验结果表明,所提方法有较好的脆弱性检测能力。 Software vulnerabilities pose a great threat to network and information security,and the root of vulnerabilities lies in software source code.Existing traditional static detection tools and deep learning based detection methods do not fully represent code features,and simply use word embedding method to transform code representation,so that their detection results have low accuracy and high false positive rate or high false negative rate.Therefore,a source code vulnerability detection method based on hybrid code representation was proposed to solve the problem of incomplete code representation and improve detection performance.Firstly,source code was compiled into Intermediate Representation(IR),and the program dependency graph was extracted.Then,structural features were obtained through program slicing based on data flow and control flow analysis.At the same time,unstructural features were obtained by embedding node statements using doc2vec.Next,Graph Neural Network(GNN) was used to learn the hybrid features.Finally,the trained GNN was used for prediction and classification.In order to verify the effectiveness of the proposed method,experimental evaluation was performed on Software Assurance Reference Dataset(SARD) and real-world datasets,and the F1 score of detection results reached 95.3% and 89.6% respectively.Experimental results show that the proposed method has good vulnerability detection ability.

作者张琨杨丰玉钟发曾广东周世健 ZHANG Kun;YANG Fengyu;ZHONG Fa;ZENG Guangdong;ZHOU Shijian(School of Software,Nanchang Hangkong University,Nanchang Jiangxi 330063,China)

机构地区南昌航空大学软件学院

出处《计算机应用》 CSCD 北大核心 2023年第8期2517-2526,共10页 journal of Computer Applications

基金江西省自然科学基金资助项目(20212BAB212009)。

关键词脆弱性检测中间表示表示学习图神经网络深度学习 vulnerability detection Intermediate Representation(IR) representation learning Graph Neural Network(GNN) deep learning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1梁娟娟,刘久富,朱丹丹,陈柯.基于符号执行的软件静态测试研究[J].计算机技术与发展,2013,23(6):42-45. 被引量：2
2高凤娟,王豫,陈天骄,司徒凌云,王林章,李宣东.基于污点分析的数组越界缺陷的静态检测方法[J].软件学报,2020,31(10):2983-3003. 被引量：10
3李珍,邹德清,王泽丽,金海.面向源代码的软件漏洞静态检测综述[J].网络与信息安全学报,2019,5(1):1-14. 被引量：22
4李韵,黄辰林,王中锋,袁露,王晓川.基于机器学习的软件漏洞挖掘方法综述[J].软件学报,2020,31(7):2040-2061. 被引量：43
5李舟军,张俊贤,廖湘科,马金鑫.软件安全漏洞检测技术[J].计算机学报,2015,38(4):717-732. 被引量：76

二级参考文献113

1陈火旺,王戟,董威.高可信软件工程技术[J].电子学报,2003,31(z1):1933-1938. 被引量：115
2吴世忠.信息安全漏洞分析回顾与展望[J].清华大学学报（自然科学版）,2009(S2):2065-2072. 被引量：22
3程绍银,蒋凡,林锦滨,唐艳武.基于有限回溯符号执行的软件疑似缺陷的自动验证[J].清华大学学报（自然科学版）,2009(S2):2222-2227. 被引量：1
4刘文伟,刘坚.一个重建GCC抽象语法树的方法[J].计算机工程与应用,2004,40(18):125-128. 被引量：7
5Coen-Porisini A, de Paoli F..Software specialization via sym- bolic execution[ J ]. IEEE Transactions on Software Engineer- ing, 1991,17 ( 9 ) :884-899.
6Coen- Porisini A, Denaro G, Ghezzi C, et al. Using symbolic execution for verifying safety-critical systems [ C ]//Proc. of 8th European Software Engineering Conf. and 9th ACM SIG-soFr Int. Symp. on Foundations of Software Engineering (ESEC/FSE). [s. 1. ] :Is. n. ] ,2001:142-151.
7Koutsikas C, Malevris N. A unified symbolic execution system [ C]//ACS/IEEE International Conference on Computer Sys- tems and Applications. [s. 1. ] : [s. n. ] ,2001:466-469.
8赵云山,宫云战.基于符号分析的静态缺陷检测技术研究[博士学位论文].北京:北京邮电大学,2012.
9Tassey G. The economic impacts of inadequate infrastructure for software testing. Gaithershurg National. Institute of Standards and Technology, Planning Report 02-3, 2002.
10Sipser M. Introduction to the Theory of Computation. Boston, USA: Thomson Course Technology, 2006.

共引文献138

1张超,潘祖烈,樊靖.面向堆内存漏洞的double free攻击方法检测[J].计算机应用研究,2020,37(S01):275-278. 被引量：1
2李光杰,唐艺,易比一,张翔,何焱.开源软件供应链安全问题研究[J].智能安全,2023,2(1):82-89.
3岳佳圆,曹宇,李弋.MemPort:内存访问可移植性检测的设计和实现[J].小型微型计算机系统,2016,37(4):664-669.
4王耀辉,王丹,付利华.面向PHP程序的SQL漏洞检测系统[J].计算机工程,2016,42(4):112-118. 被引量：5
5马金鑫,张涛,李舟军,张江霄.Fuzzing过程中的若干优化方法[J].清华大学学报（自然科学版）,2016,56(5):478-483. 被引量：11
6吴波,云雷,金先涛,刘北水.工业监控组态软件模糊测试方法研究[J].电子产品可靠性与环境试验,2016(3):33-38. 被引量：2
7李艳,黄光球,张斌.动态攻击网络Markov演化博弈安全分析模型[J].计算机科学与探索,2016,10(9):1272-1281. 被引量：4
8邱洋,王轶骏,薛质.基于符号执行的Python攻击脚本分析平台[J].计算机工程,2016,42(11):139-146. 被引量：3
9潘巍巍,陶桦.无线通信网络中攻击信号定位识别仿真研究[J].计算机仿真,2016,33(11):320-323.
10张俊贤,李舟军.基于动态符号执行的C代码缓冲区溢出检测[J].北京邮电大学学报,2016,39(B06):50-54. 被引量：1

1王鹏,姚鑫鹏,汪克念,陈文琪,陈曦.基于大感知域LSTM-Seq2Seq模型的代码缺陷检测方法[J].中国民航大学学报,2023,41(2):14-20. 被引量：2
2黄少平.源代码语义向量的表征方法研究[J].信息与电脑,2023,35(9):72-75.
3顾守珂,陈文.基于增强AST的图神经网络函数级代码漏洞检测方法[J].计算机科学,2023,50(6):283-290. 被引量：2
4沈鑫,周宇.基于神经网络和信息检索的源代码注释生成[J].计算机系统应用,2023,32(7):1-10. 被引量：1
5潘建文,崔展齐,林高毅,陈翔,郑丽伟.Android恶意应用的静态检测方法综述[J].计算机研究与发展,2023,60(8):1875-1894. 被引量：2
6曾灶松,张道策,饶荣华,张伟民,陈宏伟.略论电击控制器的使用风险及其控制[J].广州市公安管理干部学院学报,2023,33(2):37-41.

计算机应用

2023年第8期

浏览历史

内容加载中请稍等...

基于混合代码表示的源代码脆弱性检测

参考文献5

二级参考文献113

共引文献138

相关作者

相关机构

相关主题

浏览历史