分享自:

利用局部潜在表示的垂直联邦学习后门攻击

期刊:computers & securityDOI:10.1016/j.cose.2023.103193

垂直联邦学习中的后门攻击:基于本地潜在表征的新型威胁研究

一、研究团队与发表信息
本研究由北京航空航天大学计算机科学与工程学院的Yuhao Gu和Yuebin Bai(通讯作者)合作完成,发表于期刊《Computers & Security》2023年第129卷(页码103193)。论文标题为《LR-BA: Backdoor Attack Against Vertical Federated Learning Using Local Latent Representations》。

二、学术背景与研究目标
科学领域:该研究属于人工智能安全(Artificial Intelligence Security)与联邦学习安全(Federated Learning Security)交叉领域,聚焦垂直联邦学习(Vertical Federated Learning, VFL)中的后门攻击(Backdoor Attack)问题。
研究动机:传统联邦学习研究多假设参与者为“诚实但好奇”(honest but curious),而本文挑战了这一假设,提出VFL中被动参与方可能通过操纵本地模型输出实施隐蔽的后门攻击。尤其当攻击者无法访问标签数据且其他参与方的特征不可见时,现有攻击方法(如梯度替换)在模型分割架构中效果有限。
研究目标:开发一种新型后门攻击方法LR-BA,利用推理阶段输出的本地潜在表征(Local Latent Representations),实现在无标签访问条件下的高效攻击,并探索防御策略。

三、研究方法与流程
1. 威胁模型构建
- 攻击者设定:恶意被动参与方,仅持有部分特征数据,无标签、模型架构或其他参与方信息。
- 攻击目标:通过微调本地底部模型(Bottom Model),使触发样本输出特定恶意表征,诱导联邦模型预测攻击者指定标签(Backdoor Label)。

  1. 攻击流程三阶段

    • 模型补全(Model Completion)
      利用少量辅助标签数据(如CIFAR-10中每类4个样本),通过半监督算法(MixMatch或MixText)构建推理头(Inference Head),模拟标签推断攻击(Label Inference Attack)。
    • 后门表征生成(Backdoor Representation Generation)
      1. 初始化:结合辅助标签数据与未标记数据(通过推理头预测为后门标签的样本),生成初始潜在表征。
      2. 优化:通过梯度下降最小化交叉熵损失(Cross Entropy Loss),使生成的表征$h^*$在推理头中高概率预测为后门标签(如算法1所示)。
    • 模型微调(Model Fine-tuning)
      联合优化正常样本的均方误差(MSE)与触发样本的$h^$匹配损失,更新底部模型参数$\theta^$(公式5),确保主任务性能损失小于2%。
  2. 实验设计

    • 数据集:覆盖表格型(NUS-WIDE)、图像(CIFAR-10/100、Cinic-10、BHI)及文本(Yahoo! Answers)数据,样本量从17,296(BHI测试集)至180,000(Cinic-10训练集)。
    • 模型架构:底部模型采用ResNet-20(图像)或BERT+FCN(文本),顶部模型为全连接网络(FCN)。
    • 对比方法:包括数据投毒(Data Poisoning)、梯度替换(Gradient Replacement)及基线攻击(Baseline Attack)。

四、主要研究结果
1. 攻击有效性
- 攻击成功率(ASR):在模型分割的VFL中,LR-BA在CIFAR-10上达98.2%(±1.68%),接近数据投毒(99.46%),显著优于梯度替换(3.04%)和基线攻击(80.0%)。
- 主任务影响:准确率损失低于2%(如CIFAR-10从80.15%降至79.9%),证明攻击隐蔽性。

  1. 可扩展性验证

    • 辅助数据量:仅需10个标签样本(CIFAR-10)即可实现92.6% ASR。
    • 参与方数量:5方VFL中仍保持77.5% ASR(BHI数据集)。
  2. 理论解释

    • SHAP分析:恶意表征$h^*$对后门标签预测的贡献值显著高于正常输入(图6),且负向抑制其他类别输出。
  3. 防御评估

    • 噪声梯度(Noisy Gradients)可有效抑制攻击(ASR降至10%以下),但范数裁剪(Norm Clipping)需阈值≤0.5才有效,且主任务性能下降显著。

五、研究结论与价值
1. 科学价值
- 首次揭示VFL中潜在表征的脆弱性,提出无需标签访问的后门攻击范式。
- 通过理论分析与实验验证,证明模型分割架构下现有防御(如梯度压缩)的局限性。

  1. 应用价值
    • 为工业界VFL系统(如银行-电商联合风控模型)提供安全警示,推动防御技术发展。

六、研究亮点
1. 方法创新
- 结合标签推断与表征优化,突破传统后门攻击对标签数据的依赖。
- 提出基于PCA可视化的攻击解释框架,增强可解释性。

  1. 实验全面性
    • 跨模态(图像/文本/表格)、多规模(100类CIFAR-100)验证攻击鲁棒性。
    • 首次评估后门攻击在非平衡辅助数据下的表现(表9)。

七、其他贡献
- 开源代码与实验参数细节(表3-5),为后续研究提供可复现基准。
- 讨论攻击局限性(如对复杂数据集的稳定性),指明未来改进方向(如联合训练阶段干预)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com