《Backdoor Learning: A Survey》学术报告
作者及机构
本文由Yiming Li(清华大学深圳国际研究生院)、Yong Jiang(清华大学深圳国际研究生院/鹏城实验室人工智能研究中心)、Zhifeng Li(腾讯数据平台)和Shu-Tao Xia(清华大学深圳国际研究生院/鹏城实验室)合作完成,发表于2024年1月的《IEEE Transactions on Neural Networks and Learning Systems》(卷35,第1期)。
研究主题与背景
本文是一篇关于后门学习(Backdoor Learning)的综述性论文,系统梳理了深度学习模型中的后门攻击(Backdoor Attack)与防御(Backdoor Defense)研究。随着深度学习在关键任务(如人脸识别、自动驾驶)中的广泛应用,模型安全性问题日益突出。后门攻击通过在训练阶段植入隐藏的恶意行为(如通过特定触发器触发错误分类),使得模型在正常样本上表现良好,但在触发条件下输出攻击者预设的结果。这种威胁在用户无法完全控制训练过程(如使用第三方数据集或模型)时尤为显著。本文旨在填补该领域缺乏系统性综述的空白,为研究者提供全面的研究框架和未来方向。
主要内容与观点
此外,作者提出了一个统一的风险分析框架,将后门攻击建模为对标准风险(Standard Risk)、后门风险(Backdoor Risk)和可感知风险(Perceivable Risk)的联合优化问题,为攻击设计提供了理论支撑。
非基于数据投毒的后门攻击
除数据投毒(Poisoning-Based)外,攻击还可通过以下方式实现:
后门防御的三大范式与八类方法
防御手段可分为:
与其他领域的关联
未来研究方向
作者提出五个关键挑战:
论文价值与亮点
1. 首个系统性综述:首次建立后门学习的分类体系与统一分析框架,覆盖攻击与防御的全景。
2. 前沿技术总结:详细分析了语义攻击、样本特定攻击等新兴威胁,以及认证防御等理论进展。
3. 实践指导意义:为工业界提供了防御第三方数据/模型风险的实用方案(如预处理与模型诊断)。
4. 跨领域关联:厘清了后门学习与对抗攻击、数据投毒的区别,推动AI安全研究的交叉融合。
结论
本文不仅为研究者提供了技术参考,还揭示了后门学习在理论深度与应用广度上的潜力,对构建安全可靠的深度学习系统具有重要指导意义。