面向对抗样本的深度神经网络可解释性分析被引量：12

Interpretability Analysis of Deep Neural Networks With Adversarial Examples

下载PDF

导出

摘要虽然深度神经网络(Deep neural networks,DNNs)在许多任务上取得了显著的效果,但是由于其可解释性(Interpretability)较差,通常被当做"黑盒"模型.本文针对图像分类任务,利用对抗样本(Adversarial examples)从模型失败的角度检验深度神经网络内部的特征表示.通过分析,发现深度神经网络学习到的特征表示与人类所理解的语义概念之间存在着不一致性.这使得理解和解释深度神经网络内部的特征变得十分困难.为了实现可解释的深度神经网络,使其中的神经元具有更加明确的语义内涵,本文提出了加入特征表示一致性损失的对抗训练方式.实验结果表明该训练方式可以使深度神经网络内部的特征表示与人类所理解的语义概念更加一致. Deep neural networks(DNNs)have demonstrated impressive performance on many tasks,but they are usually considered opaque due to their poor interpretability.In this paper,we examine the internal representations of DNNs on image classification tasks using adversarial examples,which enable us to analyze the interpretability of DNNs in the perspective of their failures.Based on the analyses,we find that the learned features of DNNs are inconsistent with human-understandable semantic concepts,making it problematic for understanding and interpreting the representations inside DNNs.To realize interpretable deep neural networks,we further propose an adversarial training scheme with a consistent loss such that the neurons are endowed with the human-interpretable concepts to improve the interpretability of DNNs.Experiments show that the proposed method can make the features in DNNs more consistent with semantic concepts.

作者董胤蓬苏航朱军 DONG Yin-Peng;SU Hang;ZHU Jun(Department of Computer Science and Technology,Tsinghua University,Beijing 100084)

机构地区清华大学计算机科学与技术系

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第1期75-86,共12页 Acta Automatica Sinica

基金国家自然科学基金(61620106010,U19B2034,U1811461) 清华国强研究院项目资助~~。

关键词深度神经网络可解释性对抗样本视觉特征表示 Deep neural networks(DNNs) interpretability adversarial examples visual representations

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1张芳,王萌,肖志涛,吴骏,耿磊,童军,王雯.基于全卷积神经网络与低秩稀疏分解的显著性检测[J].自动化学报,2019,45(11):2148-2158. 被引量：10
2李阳,王璞,刘扬,刘国军,王春宇,刘晓燕,郭茂祖.基于显著图的弱监督实时目标检测[J].自动化学报,2020,46(2):242-255. 被引量：4
3刘建伟,赵会丹,罗雄麟,许鋆.深度学习批归一化及其相关算法研究进展[J].自动化学报,2020,46(6):1090-1120. 被引量：64

二级参考文献7

1刘建伟,孙正康,罗雄麟.域自适应学习研究进展[J].自动化学报,2014,40(8):1576-1600. 被引量：27
2钱生,陈宗海,林名强,张陈斌.基于条件随机场和图像分割的显著性检测[J].自动化学报,2015,41(4):711-724. 被引量：37
3王晓红,赵于前,廖苗,邹北骥.基于多尺度2D Gabor小波的视网膜血管自动分割[J].自动化学报,2015,41(5):970-980. 被引量：35
4常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：419
5奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：220
6张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305. 被引量：238
7李勇,林小竹,蒋梦莹.基于跨连接LeNet-5网络的面部表情识别[J].自动化学报,2018,44(1):176-182. 被引量：98

共引文献75

1张朝蓓,夏鹏杰.基于矩阵分解的扼流适配变压器绕组漏磁检测[J].无损检测,2022,44(6):40-44.
2刘孝德,裴红军,张振香.萨能奶山羊改良本地山羊效果[J].中国草食动物,2000,2(1):20-22. 被引量：1
3潘峰,安启超,刁奇,王瑞,冯肖雪.基于粒子群算法的多尺度反卷积特征融合的道路提取[J].北京理工大学学报,2020,40(6):640-647. 被引量：3
4崔乃刚,郭冬子,王瑞鸣,王铭泽,韦常柱.飞航导弹智能故障诊断与容错控制[J].战术导弹技术,2020(4):125-134. 被引量：2
5王金甲,张玉珍,夏静,王凤嫔.多层局部块坐标下降法及其驱动的分类重构网络[J].自动化学报,2020,46(12):2647-2661. 被引量：1
6佟丽娜,马航航,彭亮.基于惯性传感器和LSTM神经网络的人体运动识别方法[J].传感技术学报,2020,33(11):1536-1543. 被引量：12
7周金.挖掘高层语义信息的电力设备图像显著性检测[J].电力信息与通信技术,2021,19(1):20-26. 被引量：3
8蒋峰岭,孔斌,钱晶,王灿,杨静.显著性物体检测研究综述[J].测控技术,2021,40(1):1-15. 被引量：5
9马静怡,崔昊杨,张明达,孙益辉,许永鹏.基于改进Faster RCNN的小尺度入侵目标识别及定位[J].中国电力,2021,54(3):38-44. 被引量：13
10金海燕,曹甜,肖聪,肖照林.基于多特征图像视觉显著性的视频摘要化生成[J].北京航空航天大学学报,2021,47(3):441-450. 被引量：6

同被引文献47

1刘佳,陈增强,刘忠信.多智能体系统及其协同控制研究进展[J].智能系统学报,2010,5(1):1-9. 被引量：32
2秦兵,刘安安,刘挺.无指导的中文开放式实体关系抽取[J].计算机研究与发展,2015,52(5):1029-1035. 被引量：47
3杨涛.对人工智能在金融领域应用的思考[J].国际金融,2016(12):24-27. 被引量：32
4于孝建,彭永喻.人工智能在金融风险管理领域的应用及挑战[J].南方金融,2017(9):70-74. 被引量：52
5Quan-shi ZHANG,Song-chun ZHU.Visual interpretability for deep learning：a survey[J].Frontiers of Information Technology & Electronic Engineering,2018,19(1):27-39. 被引量：47
6常耀成,张宇翔,王红,万怀宇,肖春景.特征驱动的关键词提取算法综述[J].软件学报,2018,29(7):2046-2070. 被引量：35
7宋佳蓉,杨忠,张天翼,韩家明,朱家远.基于卷积神经网络和多类SVM的交通标志识别[J].应用科技,2018,45(5):71-75. 被引量：3
8张思思,左信,刘建伟.深度学习中的对抗样本问题[J].计算机学报,2019,42(8):1886-1904. 被引量：56
9纪守领,李进锋,杜天宇,李博.机器学习模型可解释性方法、应用与安全研究综述[J].计算机研究与发展,2019,56(10):2071-2096. 被引量：138
10孔锐,黄钢.基于条件约束的胶囊生成对抗网络[J].自动化学报,2020,46(1):94-107. 被引量：3

引证文献12

1付佳俊,卢梅丽,曹一凡,郭兆桦,高资成.基于深度学习的t-fMRI脑状态解码[J].天津职业技术师范大学学报,2022,32(4):45-50.
2郑烨,施晓牧,刘嘉祥.基于多路径回溯的神经网络验证方法[J].软件学报,2022,33(7):2464-2481. 被引量：2
3石晓荣,倪亮,王健,郭宇航.基于最小熵约束的可解释卷积神经网络[J].航天控制,2021,39(5):39-43. 被引量：2
4李克资,徐洋,张思聪,闫嘉乐.自动语音辨识对抗攻击和防御技术综述[J].计算机工程与应用,2022,58(14):1-15. 被引量：1
5闫嘉乐,徐洋,张思聪,李克资.图像分类模型的对抗样本攻防研究综述[J].计算机工程与应用,2022,58(23):24-41. 被引量：3
6王保利,范鑫鑫,景全亮,毕经平.基于DSSIM非范数约束增强的对抗训练方法[J].高技术通讯,2023,33(4):339-351.
7赵亮,戚润川,段鑫民,李春奕,王小兵.基于健壮半径求解的循环神经网络形式化验证方法[J].信息安全学报,2023,8(3):12-26.
8赵延玉,赵晓永,王磊,王宁宁.可解释人工智能研究综述[J].计算机工程与应用,2023,59(14):1-14. 被引量：6
9李霞丽,王昭琦,刘博,吴立成.麻将博弈AI构建方法综述[J].智能系统学报,2023,18(6):1143-1155. 被引量：2
10钟圣华,张智.基于多示例学习图卷积网络的隐写者检测[J].自动化学报,2024,50(4):771-789.

二级引证文献16

1李前,蔺琛皓,杨雨龙,沈超,方黎明.云边端全场景下深度学习模型对抗攻击和防御[J].计算机研究与发展,2022,59(10):2109-2129. 被引量：7
2王永,李腾.基于遗传算法的网络多路径传输拥塞控制方法[J].通信电源技术,2023,40(2):35-37.
3王健.面向超重型火箭发射场的多气体浓度监测系统设计[J].航天器环境工程,2023,40(5):516-521.
4冼卓滢,陈国明,罗家梁,梁伟堂.基于宽度学习防御对抗攻击的图像分类[J].现代计算机,2023,29(17):49-56.
5钟一苇.人工智能应用于“智慧执法”中的路径与规制[J].重庆理工大学学报（社会科学）,2023,37(10):129-138.
6范海敏.谱系、异化与实践:弱人工智能创造社会价值的马克思主义哲学展开[J].湖北社会科学,2023(12):5-14.
7窦慧,张凌茗,韩峰,申富饶,赵健.卷积神经网络的可解释性研究综述[J].软件学报,2024,35(1):159-184. 被引量：5
8李沙沙,邢红杰.基于对抗样本和自编码器的鲁棒异常检测[J].计算机科学,2024,51(5):363-373.
9陆瑶,刘佳宁,王冕,黄嘉杰,韩宝瑾,孙铭谣,程千吉,宁金铃,葛龙.人工智能在医患共同决策中的应用[J].协和医学杂志,2024,15(3):661-667.
10唐蕾,牛园园,王瑞杰,行本贝,王一婷.强化学习的可解释方法分类研究[J].计算机应用研究,2024,41(6):1601-1609.

1刁晏斌.论华语词汇运用中的“舍小取大”现象[J].通化师范学院学报,2022,43(1):1-11. 被引量：9
2舒莲卿,杜辉.基于深度学习的创意绘画生成方法[J].信息与电脑,2021,33(22):78-81. 被引量：1
3张乐,刘璇.金融科技对江苏省农民收入增长的中介效应及异质性[J].河北农业大学学报（社会科学版）,2022,24(1):28-39. 被引量：1
4周雯,江明.全球化语境下传统视觉符号在广告设计中的创新应用[J].包装工程,2022,43(2):400-407. 被引量：7
5李诗莹.论唐诗中的“萧萧”[J].明日风尚（下旬）,2021(7):167-169.
6肖庚生,李慧,龙枚樱.基于语料库的中国英语学习者转述动词使用考查[J].考试与评价,2021(6):75-80.
7杨栋友,王华琳.试论汽车标志设计中的象征符号[J].工业设计,2022(1):77-79. 被引量：1
8宁雪丹.议儿童文学教学与小学生人文素养的持续养成[J].读写月报,2021(36):18-21.
9Yi YANG,Yueting ZHUANG,Yunhe PAN.Multiple knowledge representation for big data artificial intelligence:framework,applications,and case studies[J].Frontiers of Information Technology & Electronic Engineering,2021,22(12):1551-1558. 被引量：7
10林忠军.论姚配中的“元”哲学建构与乾嘉易学哲学[J].湖南大学学报（社会科学版）,2022,36(1):32-41.

自动化学报

2022年第1期

浏览历史

内容加载中请稍等...

面向对抗样本的深度神经网络可解释性分析被引量：12

参考文献3

二级参考文献7

共引文献75

同被引文献47

引证文献12

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

面向对抗样本的深度神经网络可解释性分析 被引量：12

参考文献3

二级参考文献7

共引文献75

同被引文献47

引证文献12

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

面向对抗样本的深度神经网络可解释性分析被引量：12