• • 下一篇
程欣铭1,黄荣1,刘浩2,蒋学芹3
摘要: 摘 要:深度神经网络(DNN)的后门攻击威胁严重破坏模型决策的可信性,而现有防御方法依赖一次性剪枝或全局微调,易导致模型良性精度下降。针对此问题,提出一种动态靶向解毒的后门模型净化方法。首先,利用前置激活刻画神经元行为,定位神经元行为异常的中毒神经元。在模型净化时靶向解毒,仅微调中毒神经元,避免在净化中引入对干净神经元的扰动,更好地维持模型良性精度。其次,在模型净化过程中通过监控神经元行为,获取神经元对净化的反馈,动态定位中毒神经元。在此过程中,引入禁忌搜索策略排除对净化贡献微小的顽固神经元的干扰,加快模型净化收敛速度。在3个基础数据集上针对BadNets(Backdoored Neural Network)等6种后门攻击,所提方法将攻击成功率(Attack Success Rate, ASR)降至平均0.21%,同时良性精度(Accuracy, ACC)提高0.1~2.9个百分点,优于ABL(Anti-Backdoor Learning)等其他5种防御方法。动态靶向解毒的模型净化方法有效解决了传统方法因一次性剪枝或全局微调导致的模型良性精度下降问题,为提升DNN安全性提供了更可靠的解决方案。
中图分类号: