基于SHAP的可解释鲁棒算法在联邦学习中防御数据投毒攻击

分享自：
基于SHAP的可解释鲁棒算法在联邦学习中防御数据投毒攻击

期刊:2024 IEEE Symposium on Security and Privacy (SP)DOI:10.1109/SP54263.2024.00182
这篇文档属于类型a，是一篇关于联邦学习（Federated Learning, FL）中防御数据投毒攻击（data poisoning attacks）的原创性研究论文。以下为详细学术报告：
一、作者与发表信息作者：Chamara Sandeepa∗, Bartlomiej Siniarski†, Shen Wang‡, Madhusanka Liyanage§（均来自爱尔兰都柏林大学计算机科学学院）
 
期刊与时间：2024年发表于*IEEE Symposium on Security and Privacy (SP)*，DOI: 10.1109/SP54263.2024.00182
 
二、学术背景研究领域与动机本研究属于隐私保护机器学习与联邦学习安全领域。随着分布式机器学习（如FL）在医疗、金融、物联网等领域的普及，其面临的安全威胁（如数据投毒攻击）日益严重。攻击者通过篡改本地模型参数或训练数据，破坏全局模型的完整性，甚至泄露用户隐私（如通过后门触发或属性推断攻击）。现有防御方法（如基于相似性度量或异常过滤的算法）缺乏对攻击意图的解释性，且无法应对高比例恶意客户端的场景。
研究目标提出SHERPA（Shapley-based Explainable Robustness against Poisoning Algorithm），一种基于SHAP（Shapley Additive Explanations）可解释性技术的鲁棒算法，旨在：
 1. 通过特征归因聚类检测投毒客户端；
 2. 提供攻击行为的可解释性证据；
 3. 在高比例投毒（如80%客户端恶意）下保持高检测准确率（98%）。
三、研究流程与方法1. 系统与威胁模型系统模型：包含服务提供商、用户设备（客户端）和聚合服务器。客户端本地训练模型后上传至聚合器，通过联邦平均（FedAvg）生成全局模型。
 
威胁模型：攻击者通过随机标签投毒（random label poisoning）或目标标签投毒（target label poisoning）操纵本地模型，使全局模型对特定类别产生偏差，进而泄露隐私（如通过决策边界偏移推断用户属性）。
 
2. SHERPA算法设计核心创新：利用SHAP特征归因和HDBSCAN聚类技术检测投毒行为。
 - 步骤1：特征归因计算
 - 聚合器使用基线数据集（如初始全局模型的训练数据或零向量）为每个客户端的模型输出生成SHAP值，量化各特征对预测的贡献。
 - 对多分类任务（如MNIST），每个类别的SHAP值形成高维向量（如28×28像素的归因图）。
步骤2：聚类分析
使用HDBSCAN（基于密度的层次聚类算法）对特征归因向量聚类，计算客户端间的互达距离（mutual reachability distance）。
 
良性客户端的同类特征归因应属于同一簇，而投毒客户端的归因会偏离（如目标标签投毒中，类别1的归因被误标为类别7）。
 
步骤3：投毒检测与防御
通过簇内标签一致性检验识别异常客户端（如某簇包含不同类别的归因向量）。
 
动态调整可疑分数（suspicious score），超过阈值则剔除或降权其模型参数。
 
3. 实验设计数据集：MNIST（手写数字）、Fashion-MNIST（服装分类）、NSL-KDD（网络入侵检测）、5G-NIDD（5G网络攻击）、CelebA（人脸属性分类）。
 
攻击场景：
 随机投毒：篡改所有标签为随机值；
 
目标投毒：将特定标签（如数字“3”）设为攻击目标。
 
对比基线：Krum、FoolsGold、MOAT等现有防御算法。
 
四、主要结果1. 投毒检测性能高比例投毒场景：SHERPA在80%客户端恶意时仍能实现98%检测准确率，显著优于Krum（依赖恶意客户端数量先验）和FoolsGold（需历史信誉分数）。
 
二分类与多分类任务：
 对MNIST（10类），使用1个基线样本即可达到92.3%准确率；
 
对CelebA（2类），需5个基线样本以提升检测率至94%（表6-7）。
 
2. 隐私攻击防御效果属性推断攻击（PAPI）：在CelebA数据集上，攻击者通过投毒推断用户是否具有“黑发”属性。SHERPA剔除投毒客户端后，攻击成功率从85.2%降至31.6%（表4）。
 
3. 可解释性验证SHAP归因图：良性客户端对数字“3”的特征归因集中在正确区域（图4a），而投毒客户端的归因分散（图4b-d）。
 
聚类可视化：通过t-SNE投影显示，投毒客户端的归因向量偏离正常簇（图8-9）。
 
五、结论与价值科学价值方法论创新：首次将SHAP可解释性与聚类结合用于FL投毒防御，提供攻击意图的证据支持。
 
技术突破：在高比例投毒下保持高鲁棒性，解决了现有方法依赖“多数良性客户端”假设的局限。
 
应用价值隐私保护：通过早期投毒检测，避免模型决策边界被恶意偏移，防止隐私泄露（如成员推断攻击）。
 
工业落地：适用于6G网络、医疗等对隐私与安全性要求严格的分布式AI场景。
 
六、研究亮点可解释性驱动防御：SHERPA不仅检测异常，还能通过特征归因揭示攻击目标（如篡改的类别）。
 
高鲁棒性：在80%客户端恶意时仍有效，优于现有方案（如FLTrust需清洁根数据集）。
 
跨数据集泛化性：在图像（MNIST）、网络流量（NSL-KDD）等多种数据上验证有效性。
 
七、其他贡献开源实现：基于PyTorch和Flower框架的仿真系统，支持动态参数调优与可视化（图3）。
 
计算效率优化：尽管SHAP计算开销较高，但通过服务器端并行化和分批处理降低延迟（附录D.2）。
 
此研究为联邦学习安全提供了兼具可解释性与鲁棒性的新范式，未来可扩展至更复杂的攻击场景（如模型参数投毒）和分层FL架构。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问