面向深度学习模型的可靠性测试综述

Deep Learning Testing for Reliability:A Survey

下载PDF

导出

摘要深度学习模型由于其出色的性能表现而在各个领域被广泛应用,但它们在面对不确定输入时,往往会出现意料之外的错误行为,在诸如自动驾驶系统等安全关键应用,可能会造成灾难性的后果。深度模型的可靠性问题引起了学术界和工业界的广泛关注。因此,在深度模型部署前迫切需要对模型进行系统性测试,通过生成测试样本,并由模型的输出得到测试报告,以评估模型的可靠性,提前发现潜在缺陷。一大批学者分别从不同测试目标出发,对模型进行测试,并且提出了一系列测试方法。目前对测试方法的综述工作只关注到模型的安全性,而忽略了其他测试目标,且缺少对最新出版的方法的介绍。因此,本文拟对模型任务性能、安全性、公平性和隐私性4个方面对现有测试技术展开全方位综述,对其进行全面梳理、分析和总结。具体而言,首先介绍了深度模型测试的相关概念;其次根据不同测试目标对79篇论文中的测试方法和指标进行分类介绍;然后总结了目前深度模型可靠性测试在自动驾驶、语音识别和自然语言处理三个工业场景的应用,并提供了可用于深度模型测试的24个数据集、7个在线模型库和常用工具包;最后结合面临的挑战和机遇,对深度模型可靠性测试的未来研究方向进行总结和展望,为构建系统、高效、可信的深度模型测试研究提供参考。值得一提的是,本文将涉及的数据集、模型、测试方法代码、评价指标等资料归纳整理在https://github.com/Allen-piexl/Testing-Zoo,方便研究人员下载使用。 Deep neural networks(DNNs)have been widely applied in various areas due to impressive capabilities and outstanding performance.However,they will expose unexpected erroneous behaviors when they are faced with uncertainty,which may lead to disastrous consequences in safety-critical applications such as autonomous driving systems.The reliability of deep models has aroused widespread concern in both academia and industry.Therefore,it is necessary to systematically test deep models before the deployment.The reliability of models can be evaluated and potential defects can be found in advance by generating testing examples and then obtaining test reports from the output of models.A large number of researchers have conducted in-depth research on testing DNNs and proposed a series of testing methods from different testing objectives.However,current works on survey of testing methods only focus on the security of DNNs,and they don’t take recently-published techniques into consideration.Different from them,this article focuses on four reliability test objectives of models,i.e.,task performance,security,fairness and privacy,and comprehensively analyzes the related technologies and methods of testing DNNs.Firstly,the related concepts of deep learning testing are introduced.Then,according to different testing objectives,testing methods and metrics from 79 papers are classified and introduced in detail.Next,the current application of DNNs’reliability testing in three industrial scenarios are summarized,including autonomous driving,speech recognition and natural language processing.Besides,24 datasets,7 online model libraries and common toolkits that can be used for deep model testing are provided.Finally,along with the challenges and opportunities,the future research direction of deep learning testing is summarized,which provides reference for the construction of systematic,efficient and reliable deep learning testing.It is worth noting that the related datasets,open-source code of testing methods and metrics are available in https://github.com/Allen-piexl/Testing-Zoo,to facilitate subsequent scholars'research.

作者陈若曦金海波陈晋音郑海斌李晓豪 CHEN Ruoxi;JIN Haibo;CHEN Jinyin;ZHENG Haibin;LI Xiaohao(College of Information Engineering,Zhejiang University of Technology,Hangzhou 310023,China;College of Institute of Cyberspace Security,Zhejiang University of Technology,Hangzhou 310023,China)

机构地区浙江工业大学信息工程学院浙江工业大学网络空间安全研究院

出处《信息安全学报》 CSCD 2024年第1期33-55,共23页 Journal of Cyber Security

基金国家自然科学基金(No.62072406) 国家自然科学基金项目-联合重点(No.U21B2001) 信息系统安全技术重点实验室基金(No.61421110502) 国家重点研发计划基金资助项目(No.2018AAA0100801) 浙江省重点研发计划项目(No.2022C01018)资助。

关键词深度学习模型深度测试可靠性安全性公平性隐私性 deep neural networks deep testing reliability security fairness privacy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王赞,闫明,刘爽,陈俊洁,张栋迪,吴卓,陈翔.深度神经网络测试研究综述[J].软件学报,2020,31(5):1255-1275. 被引量：36
2李舵,董超群,司品超,何曼,刘钱超.神经网络验证和测试技术研究综述[J].计算机工程与应用,2021,57(22):53-67. 被引量：16

二级参考文献4

1董国伟,徐宝文,陈林,聂长海,王璐璐.蜕变测试技术综述[J].计算机科学与探索,2009,3(2):130-143. 被引量：22
2王赞,闫明,刘爽,陈俊洁,张栋迪,吴卓,陈翔.深度神经网络测试研究综述[J].软件学报,2020,31(5):1255-1275. 被引量：36
3刘佳洛,姚奕,黄松,惠战伟,陈强,寇大磊,张仲伟.机器学习图像分类程序的蜕变测试框架[J].计算机工程与应用,2020,56(17):69-77. 被引量：8
4曾春艳,严康,王志锋,余琰,纪纯妹.深度学习模型可解释性研究综述[J].计算机工程与应用,2021,57(8):1-9. 被引量：30

共引文献46

1郑烨,施晓牧,刘嘉祥.基于多路径回溯的神经网络验证方法[J].软件学报,2022,33(7):2464-2481. 被引量：3
2何其愚,李斌,昂俊.基于深度学习的水电站地下厂房智能通风调控研究[J].暖通空调,2023,53(S01):254-257.
3钟文康,葛季栋,陈翔,李传艺,唐泽,骆斌.面向神经机器翻译系统的多粒度蜕变测试[J].软件学报,2021,32(4):1051-1066. 被引量：12
4朱向雷,王海弛,尤翰墨,张蔚珩,张颖异,刘爽,陈俊洁,王赞,李克秋.自动驾驶智能系统测试研究综述[J].软件学报,2021,32(7):2056-2077. 被引量：27
5李舵,董超群,司品超,何曼,刘钱超.神经网络验证和测试技术研究综述[J].计算机工程与应用,2021,57(22):53-67. 被引量：16
6韩晓霞,王杰,陈媛,李峙刚.基于证据推理规则的给排水管道安全性评估[J].科学技术与工程,2021,21(32):13758-13764. 被引量：4
7李一凡,袁龙健,王瑞.基于OpenPose改进的轻量化人体动作识别模型[J].电子测量技术,2022,45(1):89-95. 被引量：17
8古天龙,李龙,常亮,罗义琴.公平机器学习:概念、分析与设计[J].计算机学报,2022,45(5):1018-1051. 被引量：17
9王璐,霍其恩,李青山,王展,姜宇轩.基于并行搜索优化的指控系统自适应决策方法[J].软件学报,2022,33(5):1774-1799. 被引量：3
10张茜,王洪格,倪亮.基于离线模型预训练学习的改进DDPG算法[J].计算机工程与设计,2022,43(5):1451-1458.

1章羽.压缩应力松弛试验方法的最新进展[J].橡塑智造与节能环保,2023(5):4-6.
2赵春光,周李兵,高鹏,刘军伟.基于改进PSO算法的煤矿相机参数优化设计[J].煤矿机电,2023,44(5):1-6.
3毛成烈,高小玉,南海燕.二维TMC忆阻器在神经形态计算中的研究进展[J].半导体技术,2024,49(2):109-122. 被引量：1
4黄友文,豆恒,肖贵光.融合分类校正与样本扩增的小样本目标检测[J].计算机工程与应用,2024,60(1):254-262.
5李丽,孟晓华,叶辉.不确定输入饱和系统的有限时间预见控制[J].系统科学与数学,2023,43(7):1677-1693.
6金文驰(文/图).美国优秀小型动物园:卡普伦公园动物园笔记[J].生命世界,2023(11):80-93.
7程玺(译).商界领袖的年度十大好书[J].商业周刊（中文版）,2023(24):80-81.
8王春霞,唐小岚,赖惠萍,罗佳华,宁美.认知行为疗法在胃肠道肿瘤患者中的应用进展[J].现代临床医学,2024,50(1):33-36. 被引量：2
9许煜濠,刘石坚,康朝明,吴连杰,邹峥.三维深度学习网络的几何差异感知能力[J].福建理工大学学报,2023,21(6):592-597.
10何家乐,董敏.S-腺苷-L-甲硫氨酸依赖的3-氨基-3-羧基丙基利用酶研究进展[J].生物技术通报,2023,39(12):56-70.

信息安全学报

2024年第1期

浏览历史

内容加载中请稍等...

面向深度学习模型的可靠性测试综述

参考文献2

二级参考文献4

共引文献46

相关作者

相关机构

相关主题

浏览历史