本研究由Yi Zeng(弗吉尼亚理工大学)、Minzhou Pan(弗吉尼亚理工大学)、Hoang Anh Just(弗吉尼亚理工大学)、Lingjuan Lyu(索尼AI)、Meikang Qiu(奥古斯塔大学)和Ruoxi Jia(弗吉尼亚理工大学)合作完成,发表于ACM SIGSAC计算机与通信安全会议(CCS ‘23),会议于2023年11月26日至30日在丹麦哥本哈根举行。
研究领域:本研究属于人工智能安全(AI Security)领域,聚焦于后门攻击(Backdoor Attack)中的清洁标签攻击(Clean-label Attack)。
研究动机:传统后门攻击需修改训练数据的标签(即“脏标签”),易被人工检查发现。清洁标签攻击虽保持标签正确性,但现有方法依赖对完整训练集的访问(包括所有类别的数据),而实际场景中(如众包数据收集)攻击者通常仅能获取目标类别的部分数据。因此,研究团队提出核心问题:在仅掌握目标类别数据和公共分布外(Public Out-of-Distribution, Pood)数据的限制下,能否实现高效的清洁标签后门攻击?
研究目标:设计一种名为Narcissus的攻击算法,仅需目标类别数据和公共分布外数据即可实施,且攻击成功率显著高于现有方法。
威胁模型:假设攻击者能控制目标类别的一部分训练数据(如众包场景中用户上传的特定类别图像),但无法访问其他类别的数据。攻击目标是通过注入少量毒化样本,使模型在测试阶段将带有触发器的任意类别输入误分类为目标类别,同时保持对正常样本的分类准确性。
攻击流程:
- 步骤1:代理模型预热(Poi-warm-up)
使用公共分布外数据(Pood)预训练代理模型(Surrogate Model),再通过目标类别数据微调。此步骤旨在提取目标类别的鲁棒特征,避免直接训练导致的过拟合。
创新点:两阶段训练(预训练+微调)提升模型对目标类别的特征提取能力,且支持动态切换目标类别。
步骤2:触发器生成(Trigger Generation)
通过优化问题合成触发器:
[ \delta^* = \arg\min{\delta \in \Delta} \sum{(x,t) \in Dt} \mathcal{L}(f{\theta_{\text{sur}}}(x + \delta), t) ]
其中,(Dt)为目标类别数据,(f{\theta{\text{sur}}})为代理模型,(\Delta)为允许的触发器模式集合(如(l\infty)-范数约束)。
算法核心:使用梯度下降法迭代优化触发器,使其指向目标类别的“内部特征”(Inward-pointing Noise),而非传统方法中任意选择的跨边界噪声。
步骤3:触发器注入(Trigger-Insertion)
随机选择少量目标类别样本(如训练集的0.05%),将生成的触发器嵌入其中,形成毒化数据集。
步骤4:测试阶段攻击(Test Query Manipulation)
在测试输入上放大触发器强度(如3倍),以增强攻击效果。
数据集与模型:
- 数据集:CIFAR-10、PubFig(人脸识别)、Tiny-ImageNet(大规模分类)。
- 对比基线:包括清洁标签攻击(LC、HTBA、SAA)和脏标签攻击(BadNets、Blend)。
- 评估指标:
- 攻击成功率(ASR):带触发器样本被误分类为目标类的比例。
- 清洁准确率(ACC):正常样本的分类准确率。
- 目标类别准确率(Tar-ACC):避免攻击引起目标类别性能下降。
实验设置:
- 毒化比例低至0.024%-0.05%,触发器(l_\infty)-范数约束为16/255。
- 代理模型采用ResNet-18,通过Pood数据(如CelebA、Caltech-256)预训练。
关键发现:
- Narcissus在低毒化比例下实现高ASR,且不显著降低Tar-ACC(如CIFAR-10中Tar-ACC保持94.1%)。
- 传统清洁标签攻击需毒化70%目标类别数据才能达到90% ASR,但会导致Tar-ACC下降10%。
测试了8种防御方法,包括:
- 模型修复类:Neural Cleanse、Fine-Pruning、I-BAU。
- I-BAU需100轮迭代仍无法完全消除攻击(ASR从97.1%降至90.8%)。
- 毒化样本检测类:STRIP、频率检测。
- 通过低频约束自适应攻击可规避频率检测(检测率从100%降至58.96%)。
- 鲁棒训练类:ABL、None。
- ABL因毒化样本损失与正常样本相似,无法有效隔离。
根本原因:Narcissus的触发器具有与目标类别语义特征相似的持久性,移除触发器会优先损害模型性能。
科学价值:
1. 理论创新:提出“内向指向噪声”设计理念,突破传统触发器依赖跨边界噪声的限制。
2. 实践意义:证明在有限信息下(仅目标类别数据)可实施高效后门攻击,警示实际数据收集场景中的安全隐患。
应用价值:
- 攻防研究:为防御设计提供新挑战,需开发更通用的检测与修复方法。
- 行业规范:呼吁对众包数据贡献者实施更严格的审查机制。
本研究揭示了当前机器学习管道中清洁标签后门攻击的严重威胁,并为防御研究提供了新的方向。