通过机器遗忘进行的后门攻击

分享自：
通过机器遗忘进行的后门攻击

期刊:Association for the Advancement of Artificial Intelligence
本文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告内容：
作者及机构
 本研究由Zihao Liu（爱荷华州立大学计算机科学系）、Tianhao Wang（弗吉尼亚大学计算机科学系）、Mengdi Huai和Chenglin Miao（均来自爱荷华州立大学计算机科学系）合作完成，发表于2024年AAAI人工智能会议（AAAI-24）。
学术背景
 研究领域为机器学习安全，聚焦于“机器遗忘”（machine unlearning）技术的潜在安全风险。机器遗忘是一种新兴技术，旨在从训练好的模型中删除特定数据的影响，以符合隐私保护法规（如GDPR）。然而，现有研究主要关注其有效性和效率，忽视了该技术可能被恶意利用的风险。本研究首次探讨了通过机器遗忘实现后门攻击（backdoor attack）的可行性，旨在揭示技术滥用可能带来的安全隐患，并为防御机制的设计提供理论基础。
研究流程与方法
 1. 问题定义与威胁模型
 - 研究目标：验证攻击者能否通过提交恶意遗忘请求，在未篡改训练数据的情况下，向模型中注入后门。
 - 威胁模型：假设攻击者是训练数据的贡献者之一，可通过请求遗忘部分数据操纵模型行为。攻击分为两种场景：
 - 无数据投毒攻击（AWOP）：攻击者仅通过选择特定数据请求遗忘来植入后门。
 - 带数据投毒攻击（AWP）：攻击者先向训练数据中注入少量带触发器的样本，再通过遗忘请求激活后门。
攻击方法设计
AWOP攻击：
 通过优化问题确定需遗忘的数据子集（(D_u)）和触发器（(\tau)），目标是最小化模型在干净数据上的损失、最大化触发器数据的误分类率，同时限制遗忘数据量以保持隐蔽性。
 
使用Sigmoid函数近似离散的遗忘选择变量，采用梯度下降法求解优化问题。
 
AWP攻击：
 第一阶段：在数据收集时注入低频域触发器（频率域投毒），避免引起注意。
 
第二阶段：通过优化选择需遗忘的数据子集，放大触发器的后门效应。
 
实验验证
数据集与模型：使用CIFAR-10和TinyImageNet数据集，测试ResNet-18、VGG-16和MobileNetV2模型。
 
评估指标：攻击成功率（ASR）、良性准确率（BA）及遗忘数据比例（UP）。
 
对比基线：随机选择遗忘数据的朴素攻击方法。
 
实验设计：
 测试不同遗忘算法（一阶/二阶近似遗忘、UnrollSGD、SISA）下的攻击效果。
 
分析触发器大小（(\epsilon)）、遗忘程度（(\mu)）等参数对攻击的影响。
 
验证攻击在黑盒场景（攻击者未知模型架构）下的迁移性。
 
数据分析
采用多次实验取平均值，统计ASR、BA和UP的显著性差异。
 
通过可视化（如折线图）展示参数变化对攻击效果的影响。
 
主要结果
 1. AWOP攻击效果
 - 在CIFAR-10上，攻击者仅需遗忘2.1%的数据即可实现72.3%的ASR，且BA仅下降2.1%（原始准确率91.0%）。
 - 不同遗忘算法中，一阶方法ASR最高（92.3%），二阶方法BA更优（89.0%），表明近似精度与攻击效果存在权衡。
AWP攻击效果
投毒率为1%时，ASR达86.3%，且BA保持在79.4%，证明低频域触发器的隐蔽性。
 
攻击对SISA分片训练机制仍有效，当攻击3个分片时ASR达90.1%。
 
黑盒场景
使用知识蒸馏构建影子模型后，攻击者即使未知目标模型架构，仍可实现64.8%的ASR（VGG-16攻击ResNet-18）。
 
鲁棒性验证
攻击能抵抗现有后门检测方法（如ABL和BDU），检测后ASR仅下降5%-10%。
 
结论与价值
 1. 科学意义：首次揭示了机器遗忘技术可能被滥用于后门攻击的风险，填补了该领域的安全研究空白。
 2. 应用价值：为模型开发者设计安全的遗忘机制提供警示，需在隐私保护与安全性间取得平衡。
 3. 方法论创新：提出基于优化的攻击框架，为后续防御研究提供了基准测试工具。
研究亮点
 1. 新颖性：首次将后门攻击与机器遗忘结合，证明无需传统数据投毒即可实现攻击。
 2. 隐蔽性：通过优化控制遗忘数据量（UP%），攻击难以被常规审计发现。
 3. 普适性：攻击对多种遗忘算法和模型架构均有效，黑盒场景下仍有较高迁移性。
其他发现
 - 遗忘请求中混入良性用户数据（占比60%）时，攻击成功率仍保持75%，表明攻击具有强鲁棒性。
 - 低频域触发器设计可绕过人类视觉检测和低通滤波防御，为后续投毒攻击研究提供新思路。
此研究为机器学习安全领域提供了重要警示，未来需进一步开发兼顾隐私与安全的遗忘算法。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问