预训练模型容易受到外部敌手实施的模型微调和模型剪枝等攻击,导致它的完整性被破坏。针对这一问题,提出一种针对黑盒模型的脆弱指纹框架FFWAS(Fragile Fingerprint With Adversarial Samples)。首先,提出一种无先验知识的模型复制框架,...预训练模型容易受到外部敌手实施的模型微调和模型剪枝等攻击,导致它的完整性被破坏。针对这一问题,提出一种针对黑盒模型的脆弱指纹框架FFWAS(Fragile Fingerprint With Adversarial Samples)。首先,提出一种无先验知识的模型复制框架,而FFWAS为每一位用户创建独立的模型副本;其次,利用黑盒方法在模型边界放置脆弱指纹触发集,若模型发生修改,边界发生变化,触发集将被错误分类;最后,用户借助模型副本上的脆弱指纹触发集对模型的完整性进行验证,若触发集的识别率低于预设阈值,则意味着模型完整性已被破坏。基于2种公开数据集MNIST和CIFAR-10对FFWAS的有效性和脆弱性进行实验分析,结果表明,在模型微调和剪枝攻击下,FFWAS的指纹识别率相较于完整模型均明显下降并低于设定阈值;与基于模型唯一性和脆弱签名的深度神经网络认证框架(DeepAuth)相比,FFWAS的触发集与原始样本在2个数据集上的相似性分别提高了约22%和16%,表明FFWAS具有更好的隐蔽性。展开更多
文摘预训练模型容易受到外部敌手实施的模型微调和模型剪枝等攻击,导致它的完整性被破坏。针对这一问题,提出一种针对黑盒模型的脆弱指纹框架FFWAS(Fragile Fingerprint With Adversarial Samples)。首先,提出一种无先验知识的模型复制框架,而FFWAS为每一位用户创建独立的模型副本;其次,利用黑盒方法在模型边界放置脆弱指纹触发集,若模型发生修改,边界发生变化,触发集将被错误分类;最后,用户借助模型副本上的脆弱指纹触发集对模型的完整性进行验证,若触发集的识别率低于预设阈值,则意味着模型完整性已被破坏。基于2种公开数据集MNIST和CIFAR-10对FFWAS的有效性和脆弱性进行实验分析,结果表明,在模型微调和剪枝攻击下,FFWAS的指纹识别率相较于完整模型均明显下降并低于设定阈值;与基于模型唯一性和脆弱签名的深度神经网络认证框架(DeepAuth)相比,FFWAS的触发集与原始样本在2个数据集上的相似性分别提高了约22%和16%,表明FFWAS具有更好的隐蔽性。