源码处理场景下人工智能系统鲁棒性验证方法被引量：1

Robustness Verification Method for Artificial Intelligence Systems Based on Source Code Processing

下载PDF

导出

摘要人工智能(artificial intelligence, AI)技术的发展为源码处理场景下AI系统提供了强有力的支撑.相较于自然语言处理,源码在语义空间上具有特殊性,源码处理相关的机器学习任务通常采用抽象语法树、数据依赖图、控制流图等方式获取代码的结构化信息并进行特征抽取.现有研究通过对源码结构的深入分析以及对分类器的灵活应用已经能够在实验场景下获得优秀的结果.然而,对于源码结构更为复杂的真实应用场景,多数源码处理相关的AI系统出现性能滑坡,难以在工业界落地,这引发了从业者对于AI系统鲁棒性的思考.由于基于AI技术开发的系统普遍是数据驱动的黑盒系统,直接衡量该类软件系统的鲁棒性存在困难.随着对抗攻击技术的兴起,在自然语言处理领域已有学者针对不同任务设计对抗攻击来验证模型的鲁棒性并进行大规模的实证研究.为了解决源码处理场景下AI系统在复杂代码场景下的不稳定性问题,提出一种鲁棒性验证方法 (robustness verification by Metropolis-Hastings attack method, RVMHM),首先使用基于抽象语法树的代码预处理工具提取模型的变量池,然后利用MHM源码攻击算法替换变量扰动模型的预测效果.通过干扰数据和模型交互过程,观察攻击前后的鲁棒性验证指标的变化量来衡量AI系统的鲁棒性.以漏洞预测作为基于源码处理的二分类典型场景为例,通过在3个开源项目的数据集上验证12组AI漏洞预测模型鲁棒性说明RVMHM方法针对源码处理场景下AI系统进行鲁棒性验证的有效性. The development of artificial intelligence(AI)technology provides strong support for AI systems based on source code processing.Compared with natural language processing,source code is special in semantic space.Machine learning tasks related to source code processing usually employ abstract syntax trees,data dependency graphs,and control flow graphs to obtain the structured information of codes and extract features.Existing studies can obtain excellent results in experimental scenarios through in-depth analysis of source code structures and flexible application of classifiers.However,for real application scenarios where the source code structures are more complex,most of the AI systems related to source code processing have poor performance and are difficult to implement in the industry,which triggers practitioners to consider the robustness of AI systems.As AI-based systems are generally data-driven black box systems,it is difficult to directly measure the robustness of these software systems.With the emerging adversarial attack techniques,some scholars in natural language processing have designed adversarial attacks for different tasks to verify the robustness of models and conducted largescale empirical studies.To solve the instability of AI systems based on source code processing in complex code scenarios,this study proposes robustness verification by Metropolis-Hastings attack method(RVMHM).Firstly,the code preprocessing tool based on abstract syntax trees is adopted to extract the variable pool of the model,and then the MHM source code attack algorithm is employed to replace the prediction effect of the variable perturbation model.The robustness of AI systems is measured by observing the changes in the robustness verification index before and after the attack by interfering with the data and model interaction process.With vulnerability prediction as a typical binary classification scenario of source code processing,this study verifies the robustness of 12 groups of AI vulnerability prediction models on three datasets of open source projects to illustrate the RVMHM effectiveness for robustness verification of source code processing based on AI systems.

作者杨焱景毛润丰谭睿沈海峰荣国平 YANG Yan-Jing;MAO Run-Feng;TAN Rui;SHEN Hai-Feng;RONG Guo-Ping(Software Institute,Nanjing University,Nanjing 210093,China;Discipline of Information Technology,Peter Faber Business School,Australian Catholic University,Sydney NSW 2060,Australia)

机构地区南京大学软件学院 Discipline of Information Technology

出处《软件学报》 EI CSCD 北大核心 2023年第9期4018-4036,共19页 Journal of Software

基金国家自然科学基金(62072227,62202219) 国家重点研发计划(2019YFE0105500) 江苏省重点研发计划(BE2021002-2) 南京大学计算机软件新技术国家重点实验室创新项目(ZZKT2022A25) 海外开放课题(KFKT2022A09)。

关键词源码结构化分析源码对抗攻击 AI系统鲁棒性验证 code structure analysis code adversarial attack AI system quality evaluation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1纪守领,杜天宇,李进锋,沈超,李博.机器学习模型安全与隐私研究综述[J].软件学报,2021,32(1):41-67. 被引量：41
2纪守领,杜天宇,邓水光,程鹏,时杰,杨珉,李博.深度学习模型鲁棒性研究综述[J].计算机学报,2022,45(1):190-206. 被引量：31

二级参考文献3

1纪守领,李进锋,杜天宇,李博.机器学习模型可解释性方法、应用与安全研究综述[J].计算机研究与发展,2019,56(10):2071-2096. 被引量：132
2纪守领,杜天宇,李进锋,沈超,李博.机器学习模型安全与隐私研究综述[J].软件学报,2021,32(1):41-67. 被引量：41
3李旭嵘,纪守领,吴春明,刘振广,邓水光,程鹏,杨珉,孔祥维.深度伪造与检测技术综述[J].软件学报,2021,32(2):496-518. 被引量：28

共引文献68

1马钰锡,张全新,谭毓安,沈蒙.面向智能攻击的行为预测研究[J].软件学报,2021,32(5):1526-1546. 被引量：4
2杨平林,李泽山,郭改枝.基于改进AdaBoost算法识别包装瓶的设计与实现[J].内蒙古师范大学学报（自然科学版）,2021,50(3):268-274. 被引量：1
3邬友朋,赵金龙,贾中营.一种基于KNN/CNN的供热客服音频分类方法[J].电力大数据,2021,24(7):56-66. 被引量：1
4陈传涛,潘丽敏,罗森林,王子文.基于FGSM样本扩充的模型窃取攻击方法研究[J].信息安全研究,2021,7(11):1023-1030. 被引量：1
5Huanhuan Ni,Yiliang Han,Xiaowei Duan,Guohui Yang.An Improved LeNet-5 Model Based on Encrypted Data[J].国际计算机前沿大会会议论文集,2021(2):166-178.
6纪守领,杜天宇,邓水光,程鹏,时杰,杨珉,李博.深度学习模型鲁棒性研究综述[J].计算机学报,2022,45(1):190-206. 被引量：31
7彭长根.人工智能安全治理挑战与对策[J].信息安全研究,2022,8(4):318-325. 被引量：6
8曹刘娟,匡华峰,刘弘,王言,张宝昌,黄飞跃,吴永坚,纪荣嵘.双标签监督的几何约束对抗训练[J].软件学报,2022,33(4):1218-1230.
9刘俊奇.联合编码属性图聚类算法研究[J].信息记录材料,2022,23(4):176-178.
10秦宝东,李媛媛,余沛航.云计算辅助的高效决策树隐私保护查询协议[J].西安邮电大学学报,2022,27(1):1-8.

同被引文献20

1王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：304
2林懿伦,戴星原,李力,王晓,王飞跃.人工智能研究的新前线：生成式对抗网络[J].自动化学报,2018,44(5):775-792. 被引量：80
3曹仰杰,贾丽丽,陈永霞,林楠,李学相.生成式对抗网络及其计算机视觉应用研究综述[J].中国图象图形学报,2018,23(10):1433-1449. 被引量：62
4程显毅,谢璐,朱建新,胡彬,施佺.生成对抗网络GAN综述[J].计算机科学,2019,46(3):74-81. 被引量：27
5曹雷.基于深度强化学习的智能博弈对抗关键技术[J].指挥信息系统与技术,2019,10(5):1-7. 被引量：42
6段广晗,马春光,宋蕾,武朋.深度学习中对抗样本的构造及防御研究[J].网络与信息安全学报,2020,6(2):1-11. 被引量：12
7姜妍,张立国.面向深度学习模型的对抗攻击与防御方法综述[J].计算机工程,2021,47(1):1-11. 被引量：18
8李明慧,江沛佩,王骞,沈超,李琦.针对深度学习模型的对抗性攻击与防御[J].计算机研究与发展,2021,58(5):909-926. 被引量：11
9孙智孝,杨晟琦,朴海音,白成超,葛俊.未来智能空战发展综述[J].航空学报,2021,42(8):28-42. 被引量：29
10韩雨,韩丛英.2021年人工智能领域科技发展综述[J].战术导弹技术,2022(2):42-51. 被引量：8

引证文献1

1姜忠龙,邓德位.军事信息系统人工智能对抗技术研究[J].舰船电子工程,2023,43(11):27-32.

1Kai Chen,Jinwei Wang,Jiawei Zhang.An Overview of Adversarial Attacks and Defenses[J].Journal of Information Hiding and Privacy Protection,2022,4(1):15-24.
2王俪蓉,关志涛.一种基于注意力的两段式单像素对抗样本生成方法[J].小型微型计算机系统,2023,44(9):2092-2098.
3汤成俊,钱伟,高飞.变电站配置工具可信双因子校验技术研究[J].电工技术,2023(14):152-154.
4林永胜.高速公路改良风化砂-红黏土路基填料永久变形试验研究[J].公路交通技术,2023,39(4):1-6.
5潘雁,祝跃飞.主动自动机学习中的等价查询算法优化[J].软件学报,2023,34(7):3241-3255.
6张朝阳,洪军,李晖.基于噪声融合的黑盒攻击优化方法[J].通信技术,2023,56(8):984-991.
7Bin Lin,Fei Gao,Wenli Zeng,Jixin Chen,Cong Zhang,Qinsheng Zhu,Yong Zhou,Desheng Zheng,Qian Qiu,Shan Yang.Enhancing the Adversarial Transferability with Channel Decomposition[J].Computer Systems Science & Engineering,2023,46(9):3075-3085.
8杨怡,张兴兰.面向入侵检测的频域对抗攻击[J].计算机技术与发展,2023,33(9):72-77.
9周侠,张剑,李宁安.基于显著图的电磁信号对抗样本生成方法[J].电子学报,2023,51(7):1917-1928.
10Meng Lu.FastAttacker: Semantic Perturbation Functions via Three Classifications[J].Journal of Information Security,2023,14(2):181-194.

软件学报

2023年第9期

浏览历史

内容加载中请稍等...

源码处理场景下人工智能系统鲁棒性验证方法被引量：1

参考文献2

二级参考文献3

共引文献68

同被引文献20

引证文献1

相关作者

相关机构

相关主题

浏览历史

源码处理场景下人工智能系统鲁棒性验证方法 被引量：1

参考文献2

二级参考文献3

共引文献68

同被引文献20

引证文献1

相关作者

相关机构

相关主题

浏览历史

源码处理场景下人工智能系统鲁棒性验证方法被引量：1