期刊文献+

面向对抗样本的深度神经网络可解释性分析 被引量:12

Interpretability Analysis of Deep Neural Networks With Adversarial Examples
下载PDF
导出
摘要 虽然深度神经网络(Deep neural networks,DNNs)在许多任务上取得了显著的效果,但是由于其可解释性(Interpretability)较差,通常被当做"黑盒"模型.本文针对图像分类任务,利用对抗样本(Adversarial examples)从模型失败的角度检验深度神经网络内部的特征表示.通过分析,发现深度神经网络学习到的特征表示与人类所理解的语义概念之间存在着不一致性.这使得理解和解释深度神经网络内部的特征变得十分困难.为了实现可解释的深度神经网络,使其中的神经元具有更加明确的语义内涵,本文提出了加入特征表示一致性损失的对抗训练方式.实验结果表明该训练方式可以使深度神经网络内部的特征表示与人类所理解的语义概念更加一致. Deep neural networks(DNNs)have demonstrated impressive performance on many tasks,but they are usually considered opaque due to their poor interpretability.In this paper,we examine the internal representations of DNNs on image classification tasks using adversarial examples,which enable us to analyze the interpretability of DNNs in the perspective of their failures.Based on the analyses,we find that the learned features of DNNs are inconsistent with human-understandable semantic concepts,making it problematic for understanding and interpreting the representations inside DNNs.To realize interpretable deep neural networks,we further propose an adversarial training scheme with a consistent loss such that the neurons are endowed with the human-interpretable concepts to improve the interpretability of DNNs.Experiments show that the proposed method can make the features in DNNs more consistent with semantic concepts.
作者 董胤蓬 苏航 朱军 DONG Yin-Peng;SU Hang;ZHU Jun(Department of Computer Science and Technology,Tsinghua University,Beijing 100084)
出处 《自动化学报》 EI CAS CSCD 北大核心 2022年第1期75-86,共12页 Acta Automatica Sinica
基金 国家自然科学基金(61620106010,U19B2034,U1811461) 清华国强研究院项目资助~~。
关键词 深度神经网络 可解释性 对抗样本 视觉特征表示 Deep neural networks(DNNs) interpretability adversarial examples visual representations
  • 相关文献

参考文献3

二级参考文献7

共引文献75

同被引文献47

引证文献12

二级引证文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部