• • 下一篇
胡岩1,李鹏1,2,成姝燕1
摘要: 深度神经网络(DNN)容易受到对抗扰动的影响,因此攻击者会通过向图像中添加难以察觉的对抗扰动以欺骗DNN。基于扩散模型的对抗净化方法使用扩散模型生成干净样本来防御此类攻击,但扩散模型本身也会受到对抗扰动的影响。因此,提出了新颖的对抗净化方法StraightDiffusion,使用对抗样本直接引导扩散模型的净化过程。首先,探讨了现有方法在使用扩散模型进行对抗净化时存在的关键问题与局限性;其次,提出了一种新的采样方式,在去噪过程中使用两阶段引导方式——头引导和尾引导,即在去噪过程的初期和末期进行引导,其他阶段不使用引导。在CIFAR-10和ImageNet数据集以及3个分类器WideResNet-70-16、WideResNet-28-10、ResNet50上的实验结果表明,StraightDiffusion具有超过基线方法的防御性能,在CIFAR-10和ImageNet数据集上相较于去噪模型用于对抗净化(Diffpure)、净化引导扩散模型(GDMP)等方法取得了最好的标准准确率和鲁棒准确率。实验结果验证了所提方法能够提升净化效果从而提高分类模型面对对抗样本的鲁棒准确率,实现了多攻击场景下的有效防御。
中图分类号: