通过混合现有良性特征对深度神经网络进行复合后门攻击

分享自：
通过混合现有良性特征对深度神经网络进行复合后门攻击

期刊:Proceedings of the 2020 ACM SIGSAC Conference on Computer and Communications Security (CCS '20)DOI:10.1145/3372297.3423362
【点击此处】阅读全文、收藏及针对性提问
南京大学的Junyu Lin、Lei Xu与普渡大学的Yingqi Liu、Xiangyu Zhang在2020年ACM SIGSAC计算机与通信安全会议（CCS ‘20）上发表了题为《Composite Backdoor Attack for Deep Neural Network by Mixing Existing Benign Features》的研究论文。该研究聚焦于深度神经网络（DNN）的安全领域，提出了一种新型的后门攻击方法——复合攻击（Composite Attack），通过混合现有良性特征构建触发器，突破了传统基于固定补丁（patch）的后门攻击的局限性。
学术背景随着DNN在图像识别、自然语言处理等关键领域的广泛应用，其安全性问题日益凸显。传统后门攻击通过在训练数据中植入特定触发器（如固定图案），使得模型对带有该触发器的输入产生目标误分类。然而，此类攻击易被Neural Cleanse（NC）和Artificial Brain Stimulation（ABS）等检测工具识别，因其触发器通常与模型语义无关且具有异常特征。
 本研究旨在解决以下问题：
 1. 隐蔽性不足：传统触发器的静态特征易被检测；
 2. 语义缺失：触发器与模型任务无关（如人脸识别中引入非人脸的图案）；
 3. 强关联性：触发器与目标标签的强连接易被逆向工程暴露。
 复合攻击通过组合多个标签的良性特征（如“人A+人B→目标人C”）作为触发器，实现了更灵活、隐蔽的后门植入。
研究流程与方法1. 攻击设计框架研究分为三个核心步骤：
 - 混合器（Mixer）构建：根据任务类型设计特征混合规则。例如：
 - 图像分类：采用“半拼接混合器”（Half-Concat Mixer）将两幅图像各取一半拼接，或“裁剪粘贴混合器”（Crop-and-Paste Mixer）将人脸区域粘贴至另一图像背景。
 - 文本分类：基于标点分割句子，混合不同文本片段（如将“体育”和“世界”主题句子后半部分交换）。
 - 训练数据生成：
 - 正常数据：原始训练集样本。
 - 毒化数据：混合触发器标签样本（如人A+人B），标记为目标标签C。
 - 混合数据：同一标签内样本混合（如人A+人A），用于抑制混合器引入的边界伪影（如裁剪线）。
 - 后门训练：采用三部分数据联合训练，通过对比损失（Contrastive Loss）强化触发器与目标标签的关联。
2. 实验验证研究在7个任务中验证攻击有效性：
 - 图像分类（CIFAR10、交通标志识别）：触发器为物体组合（如“飞机+汽车→鸟”），攻击成功率（ASR）达80.8%。
 - 人脸识别（YouTube Face）：混合两人脸触发目标误分类，ASR为86.3%。
 - 目标检测（COCO、VOC）：自然场景中物体组合（如“人举伞→交通灯”）触发误检，平均mAP@0.5为0.721。
 - 文本分类（AG News）：主题混合句子触发误分类，ASR达89.2%。
3. 防御规避测试NC检测：复合攻击的逆向工程触发器尺寸与正常模型无显著差异（异常指数），无法被识别。
 
ABS检测：因未引入强激活神经元，反向工程攻击成功率（REASR）低于0.22，低于基线模型。
 
主要结果与逻辑链条攻击有效性：所有任务中，毒化模型在正常数据上准确率下降≤1.4%，而ASR平均达76.5%，证明攻击的隐蔽性与鲁棒性。
 
防御突破：NC和ABS均未能检测到复合攻击，因其触发器依赖现有特征，未形成异常神经元激活模式。
 
泛化能力：攻击可扩展至多触发器组合（如三标签混合）及多目标标签，且适用于迁移学习场景（如人脸验证任务）。
 
结论与价值科学价值：揭示了DNN对特征组合的敏感性，为后门攻击提供了新范式。
 
应用风险：实际系统中（如自动驾驶、身份认证），攻击者可通过自然特征组合（如“举伞+行人”）触发恶意行为，威胁模型供应链安全。
 
防御启示：提出基于全局预测频率（GPF）的初步检测方法，通过分析标签间耦合强度识别异常规则，但需进一步优化计算效率与通用性。
 
研究亮点创新攻击方法：首次利用特征组合作为触发器，突破传统补丁攻击的局限性。
 
跨任务验证：涵盖图像、文本、检测等多模态任务，证明攻击的普适性。
 
隐蔽性突破：通过混合数据抑制伪影，规避了基于神经元激活或触发器尺寸的检测。
 
其他重要内容案例研究：在真实场景中（如COCO数据集），自然图像（人举伞）成功触发误检，验证攻击的实用性。
 
局限性：防御方法需已知混合器配置，且对多标签组合检测效率较低，未来需研究更高效的动态检测算法。
 
该研究为DNN安全领域提供了新的攻防视角，强调了模型解释性与鲁棒性研究的重要性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问