分享自:

通过混合现有良性特征对深度神经网络进行复合后门攻击

期刊:Proceedings of the 2020 ACM SIGSAC Conference on Computer and Communications Security (CCS '20)DOI:10.1145/3372297.3423362

南京大学的Junyu Lin、Lei Xu与普渡大学的Yingqi Liu、Xiangyu Zhang在2020年ACM SIGSAC计算机与通信安全会议(CCS ‘20)上发表了题为《Composite Backdoor Attack for Deep Neural Network by Mixing Existing Benign Features》的研究论文。该研究聚焦于深度神经网络(DNN)的安全领域,提出了一种新型的后门攻击方法——复合攻击(Composite Attack),通过混合现有良性特征构建触发器,突破了传统基于固定补丁(patch)的后门攻击的局限性。


学术背景

随着DNN在图像识别、自然语言处理等关键领域的广泛应用,其安全性问题日益凸显。传统后门攻击通过在训练数据中植入特定触发器(如固定图案),使得模型对带有该触发器的输入产生目标误分类。然而,此类攻击易被Neural Cleanse(NC)Artificial Brain Stimulation(ABS)等检测工具识别,因其触发器通常与模型语义无关且具有异常特征。
本研究旨在解决以下问题:
1. 隐蔽性不足:传统触发器的静态特征易被检测;
2. 语义缺失:触发器与模型任务无关(如人脸识别中引入非人脸的图案);
3. 强关联性:触发器与目标标签的强连接易被逆向工程暴露。
复合攻击通过组合多个标签的良性特征(如“人A+人B→目标人C”)作为触发器,实现了更灵活、隐蔽的后门植入。


研究流程与方法

1. 攻击设计框架

研究分为三个核心步骤:
- 混合器(Mixer)构建:根据任务类型设计特征混合规则。例如:
- 图像分类:采用“半拼接混合器”(Half-Concat Mixer)将两幅图像各取一半拼接,或“裁剪粘贴混合器”(Crop-and-Paste Mixer)将人脸区域粘贴至另一图像背景。
- 文本分类:基于标点分割句子,混合不同文本片段(如将“体育”和“世界”主题句子后半部分交换)。
- 训练数据生成
- 正常数据:原始训练集样本。
- 毒化数据:混合触发器标签样本(如人A+人B),标记为目标标签C。
- 混合数据:同一标签内样本混合(如人A+人A),用于抑制混合器引入的边界伪影(如裁剪线)。
- 后门训练:采用三部分数据联合训练,通过对比损失(Contrastive Loss)强化触发器与目标标签的关联。

2. 实验验证

研究在7个任务中验证攻击有效性:
- 图像分类(CIFAR10、交通标志识别):触发器为物体组合(如“飞机+汽车→鸟”),攻击成功率(ASR)达80.8%。
- 人脸识别(YouTube Face):混合两人脸触发目标误分类,ASR为86.3%。
- 目标检测(COCO、VOC):自然场景中物体组合(如“人举伞→交通灯”)触发误检,平均mAP@0.5为0.721。
- 文本分类(AG News):主题混合句子触发误分类,ASR达89.2%。

3. 防御规避测试

  • NC检测:复合攻击的逆向工程触发器尺寸与正常模型无显著差异(异常指数),无法被识别。
  • ABS检测:因未引入强激活神经元,反向工程攻击成功率(REASR)低于0.22,低于基线模型。

主要结果与逻辑链条

  1. 攻击有效性:所有任务中,毒化模型在正常数据上准确率下降≤1.4%,而ASR平均达76.5%,证明攻击的隐蔽性与鲁棒性。
  2. 防御突破:NC和ABS均未能检测到复合攻击,因其触发器依赖现有特征,未形成异常神经元激活模式。
  3. 泛化能力:攻击可扩展至多触发器组合(如三标签混合)及多目标标签,且适用于迁移学习场景(如人脸验证任务)。

结论与价值

  1. 科学价值:揭示了DNN对特征组合的敏感性,为后门攻击提供了新范式。
  2. 应用风险:实际系统中(如自动驾驶、身份认证),攻击者可通过自然特征组合(如“举伞+行人”)触发恶意行为,威胁模型供应链安全。
  3. 防御启示:提出基于全局预测频率(GPF)的初步检测方法,通过分析标签间耦合强度识别异常规则,但需进一步优化计算效率与通用性。

研究亮点

  1. 创新攻击方法:首次利用特征组合作为触发器,突破传统补丁攻击的局限性。
  2. 跨任务验证:涵盖图像、文本、检测等多模态任务,证明攻击的普适性。
  3. 隐蔽性突破:通过混合数据抑制伪影,规避了基于神经元激活或触发器尺寸的检测。

其他重要内容

  • 案例研究:在真实场景中(如COCO数据集),自然图像(人举伞)成功触发误检,验证攻击的实用性。
  • 局限性:防御方法需已知混合器配置,且对多标签组合检测效率较低,未来需研究更高效的动态检测算法。

该研究为DNN安全领域提供了新的攻防视角,强调了模型解释性与鲁棒性研究的重要性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com