南京大学的Junyu Lin、Lei Xu与普渡大学的Yingqi Liu、Xiangyu Zhang在2020年ACM SIGSAC计算机与通信安全会议(CCS ‘20)上发表了题为《Composite Backdoor Attack for Deep Neural Network by Mixing Existing Benign Features》的研究论文。该研究聚焦于深度神经网络(DNN)的安全领域,提出了一种新型的后门攻击方法——复合攻击(Composite Attack),通过混合现有良性特征构建触发器,突破了传统基于固定补丁(patch)的后门攻击的局限性。
随着DNN在图像识别、自然语言处理等关键领域的广泛应用,其安全性问题日益凸显。传统后门攻击通过在训练数据中植入特定触发器(如固定图案),使得模型对带有该触发器的输入产生目标误分类。然而,此类攻击易被Neural Cleanse(NC)和Artificial Brain Stimulation(ABS)等检测工具识别,因其触发器通常与模型语义无关且具有异常特征。
本研究旨在解决以下问题:
1. 隐蔽性不足:传统触发器的静态特征易被检测;
2. 语义缺失:触发器与模型任务无关(如人脸识别中引入非人脸的图案);
3. 强关联性:触发器与目标标签的强连接易被逆向工程暴露。
复合攻击通过组合多个标签的良性特征(如“人A+人B→目标人C”)作为触发器,实现了更灵活、隐蔽的后门植入。
研究分为三个核心步骤:
- 混合器(Mixer)构建:根据任务类型设计特征混合规则。例如:
- 图像分类:采用“半拼接混合器”(Half-Concat Mixer)将两幅图像各取一半拼接,或“裁剪粘贴混合器”(Crop-and-Paste Mixer)将人脸区域粘贴至另一图像背景。
- 文本分类:基于标点分割句子,混合不同文本片段(如将“体育”和“世界”主题句子后半部分交换)。
- 训练数据生成:
- 正常数据:原始训练集样本。
- 毒化数据:混合触发器标签样本(如人A+人B),标记为目标标签C。
- 混合数据:同一标签内样本混合(如人A+人A),用于抑制混合器引入的边界伪影(如裁剪线)。
- 后门训练:采用三部分数据联合训练,通过对比损失(Contrastive Loss)强化触发器与目标标签的关联。
研究在7个任务中验证攻击有效性:
- 图像分类(CIFAR10、交通标志识别):触发器为物体组合(如“飞机+汽车→鸟”),攻击成功率(ASR)达80.8%。
- 人脸识别(YouTube Face):混合两人脸触发目标误分类,ASR为86.3%。
- 目标检测(COCO、VOC):自然场景中物体组合(如“人举伞→交通灯”)触发误检,平均mAP@0.5为0.721。
- 文本分类(AG News):主题混合句子触发误分类,ASR达89.2%。
该研究为DNN安全领域提供了新的攻防视角,强调了模型解释性与鲁棒性研究的重要性。