分享自:

通过机器遗忘进行的后门攻击

期刊:Association for the Advancement of Artificial Intelligence

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告内容:


作者及机构
本研究由Zihao Liu(爱荷华州立大学计算机科学系)、Tianhao Wang(弗吉尼亚大学计算机科学系)、Mengdi Huai和Chenglin Miao(均来自爱荷华州立大学计算机科学系)合作完成,发表于2024年AAAI人工智能会议(AAAI-24)。


学术背景
研究领域为机器学习安全,聚焦于“机器遗忘”(machine unlearning)技术的潜在安全风险。机器遗忘是一种新兴技术,旨在从训练好的模型中删除特定数据的影响,以符合隐私保护法规(如GDPR)。然而,现有研究主要关注其有效性和效率,忽视了该技术可能被恶意利用的风险。本研究首次探讨了通过机器遗忘实现后门攻击(backdoor attack)的可行性,旨在揭示技术滥用可能带来的安全隐患,并为防御机制的设计提供理论基础。


研究流程与方法
1. 问题定义与威胁模型
- 研究目标:验证攻击者能否通过提交恶意遗忘请求,在未篡改训练数据的情况下,向模型中注入后门。
- 威胁模型:假设攻击者是训练数据的贡献者之一,可通过请求遗忘部分数据操纵模型行为。攻击分为两种场景:
- 无数据投毒攻击(AWOP):攻击者仅通过选择特定数据请求遗忘来植入后门。
- 带数据投毒攻击(AWP):攻击者先向训练数据中注入少量带触发器的样本,再通过遗忘请求激活后门。

  1. 攻击方法设计

    • AWOP攻击
      • 通过优化问题确定需遗忘的数据子集((D_u))和触发器((\tau)),目标是最小化模型在干净数据上的损失、最大化触发器数据的误分类率,同时限制遗忘数据量以保持隐蔽性。
      • 使用Sigmoid函数近似离散的遗忘选择变量,采用梯度下降法求解优化问题。
    • AWP攻击
      • 第一阶段:在数据收集时注入低频域触发器(频率域投毒),避免引起注意。
      • 第二阶段:通过优化选择需遗忘的数据子集,放大触发器的后门效应。
  2. 实验验证

    • 数据集与模型:使用CIFAR-10和TinyImageNet数据集,测试ResNet-18、VGG-16和MobileNetV2模型。
    • 评估指标:攻击成功率(ASR)、良性准确率(BA)及遗忘数据比例(UP)。
    • 对比基线:随机选择遗忘数据的朴素攻击方法。
    • 实验设计
      • 测试不同遗忘算法(一阶/二阶近似遗忘、UnrollSGD、SISA)下的攻击效果。
      • 分析触发器大小((\epsilon))、遗忘程度((\mu))等参数对攻击的影响。
      • 验证攻击在黑盒场景(攻击者未知模型架构)下的迁移性。
  3. 数据分析

    • 采用多次实验取平均值,统计ASR、BA和UP的显著性差异。
    • 通过可视化(如折线图)展示参数变化对攻击效果的影响。

主要结果
1. AWOP攻击效果
- 在CIFAR-10上,攻击者仅需遗忘2.1%的数据即可实现72.3%的ASR,且BA仅下降2.1%(原始准确率91.0%)。
- 不同遗忘算法中,一阶方法ASR最高(92.3%),二阶方法BA更优(89.0%),表明近似精度与攻击效果存在权衡。

  1. AWP攻击效果

    • 投毒率为1%时,ASR达86.3%,且BA保持在79.4%,证明低频域触发器的隐蔽性。
    • 攻击对SISA分片训练机制仍有效,当攻击3个分片时ASR达90.1%。
  2. 黑盒场景

    • 使用知识蒸馏构建影子模型后,攻击者即使未知目标模型架构,仍可实现64.8%的ASR(VGG-16攻击ResNet-18)。
  3. 鲁棒性验证

    • 攻击能抵抗现有后门检测方法(如ABL和BDU),检测后ASR仅下降5%-10%。

结论与价值
1. 科学意义:首次揭示了机器遗忘技术可能被滥用于后门攻击的风险,填补了该领域的安全研究空白。
2. 应用价值:为模型开发者设计安全的遗忘机制提供警示,需在隐私保护与安全性间取得平衡。
3. 方法论创新:提出基于优化的攻击框架,为后续防御研究提供了基准测试工具。


研究亮点
1. 新颖性:首次将后门攻击与机器遗忘结合,证明无需传统数据投毒即可实现攻击。
2. 隐蔽性:通过优化控制遗忘数据量(UP%),攻击难以被常规审计发现。
3. 普适性:攻击对多种遗忘算法和模型架构均有效,黑盒场景下仍有较高迁移性。


其他发现
- 遗忘请求中混入良性用户数据(占比60%)时,攻击成功率仍保持75%,表明攻击具有强鲁棒性。
- 低频域触发器设计可绕过人类视觉检测和低通滤波防御,为后续投毒攻击研究提供新思路。


此研究为机器学习安全领域提供了重要警示,未来需进一步开发兼顾隐私与安全的遗忘算法。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com