-
题名基于多模型正交化的深度图像识别对抗鲁棒性增强技术
- 1
-
-
作者
逯子豪
徐延杰
孙浩
计科峰
匡纲要
-
机构
国防科技大学电子科学学院CEMEE国家重点实验室
-
出处
《信号处理》
CSCD
北大核心
2024年第3期503-515,共13页
-
基金
国家自然科学基金(61971426)。
-
文摘
近年来,深度神经网络(Deep Neural Networks,DNN)已被广泛应用于图像识别,目标检测,图像分割等多种计算机视觉任务中,并取得了巨大成功。然而,DNN模型因其本身的脆弱性,仍面临着对抗攻击等技术手段带来的安全隐患。攻击者在图像上恶意地添加微小且人眼难以识别的扰动,可以让模型产生高置信度的错误输出。针对上述问题,集成多个DNN模型来提升对抗鲁棒性已成为有效的解决方案之一。但是,对抗样本在集成模型中的子模型间存在对抗迁移现象,可能使集成模型的防御效能大大降低,而且目前仍缺乏能够降低集成防御内部对抗迁移性的直观理论分析。本文引入损失场的概念并定量描述DNN模型间的对抗迁移性,重点关注和推导对抗迁移表达式的上界,发现促进模型损失场之间的正交性以及降低模型损失场的强度(Promoting Orthogonality and Reducing Strength,PORS)可以限制其上界大小,进而限制DNN模型间对抗迁移性。本文引入PORS惩罚项至原损失函数中,使集成模型能够保持在原始数据上的识别性能的同时,通过降低子模型间的对抗迁移性来增强整体的对抗鲁棒性。文章在CIFAR-10和MNIST数据集上对由PORS训练得到的集成模型开展实验,分别在白盒和黑盒攻击环境下与其他先进的集成防御方法进行对比实验,实验结果表明PORS可以显著提高对抗鲁棒性,在白盒攻击和原始数据集上能保持非常高的识别精度,尤其在黑盒迁移攻击中极为有效,在所有集成防御方法中表现最为稳定。
-
关键词
深度神经网络
图像识别
对抗迁移性
集成防御
损失场
-
Keywords
deep neural network
image recognition
adversarial transferability
ensemble defense
loss field
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-