分享自:

一种拜占庭鲁棒且隐私保护的服务器无关联邦学习框架

期刊:IEEE Transactions on Information Forensics and SecurityDOI:10.1109/TIFS.2025.3589066

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


ROBY:一种抗拜占庭攻击且保护隐私的无服务器联邦学习框架

1. 主要作者与发表信息

本文由Xiangyun Tang(中央民族大学)、MinYang Li(中央民族大学)、Meng Shen(北京理工大学)、Jiawen Kang(广东工业大学)、Liehuang Zhu(北京理工大学)、Zhiquan Liu(暨南大学)、Guomin Yang(新加坡管理大学)、Dusit Niyato(南洋理工大学)和Robert H. Deng(新加坡管理大学)合作完成,发表于IEEE Transactions on Information Forensics and Security期刊2025年第20卷。研究得到了中国国家重点研发计划、国家自然科学基金等项目的支持。

2. 学术背景

研究领域
本文属于联邦学习(Federated Learning, FL)信息安全交叉领域,聚焦于解决联邦学习中的两大核心问题:拜占庭攻击(Byzantine attacks)隐私泄露

研究动机
联邦学习允许多个数据所有者通过共享本地模型(而非原始数据)联合训练机器学习模型,从而缓解隐私问题。然而,本地计算的不可预测性使其容易受到拜占庭攻击(即恶意参与者提交异常本地模型,导致全局模型准确性下降)。现有抗拜占庭攻击的联邦学习方法依赖于半诚实服务器(semi-honest server)执行预定义的聚合规则(Byzantine-robust aggregation rules, ByRules),但若服务器被攻破,这些方法将失效。此外,现有的无服务器联邦学习方法(serverless FL)存在两大缺陷:
1. ByRules共识难以达成:缺乏中心服务器时,恶意参与者可能干扰决策过程;
2. 隐私保护负担重:现有方法依赖密码学或多方计算,计算和通信开销大。

研究目标
提出ROBY框架,实现无服务器环境下抗拜占庭攻击的联邦学习,同时通过高效隐私保护策略降低开销。

3. 研究流程与方法

ROBY框架包含以下核心步骤

步骤一:构建共享根数据集(Root Dataset)
- 研究对象:所有数据所有者协作构建一个与全局数据分布对齐的根数据集(Dr),每个参与者贡献r条非隐私数据
- 方法:通过广播和聚合形成Dr,作为后续共识数据集的基础。

步骤二:动态共识数据集(Consensus Dataset)机制
- 方法:每轮迭代中,每个数据所有者从Dr中随机抽取索引(rk),生成局部共识数据集(Drk)。所有参与者的Drk聚合形成全局共识数据集(Dtr)。
- 创新点:动态更新防止攻击者通过长期观察规避ByRules。

步骤三:双层级隐私保护策略
1. 掩码模型(Mask Model)
- 每个数据所有者从Drk中训练掩码模型(∇f′k),将其与本地模型(∇fk)相加,生成受保护的本地模型(∇̃fk)。
- 作用:掩盖本地模型的敏感信息,防止推理攻击(如属性推断、成员推断攻击)。
2. 动态批次大小(Dynamic Batch Size)
- 每轮随机选择批次大小(如32、48、64、128),破坏数据重构攻击(如DLG、iDLG)的关键条件。

步骤四:ByRules的分布式执行
- 方法:基于共识数据集Dtr,所有良性数据所有者独立应用ByRules(如FLTrust、Krum、Trimmed Mean)过滤异常模型。
- 创新点:通过共识数据集实现分布式一致性,避免中心服务器依赖。

实验设计
- 数据集:MNIST(手写数字分类)和LFW(人脸识别)。
- 模型:LeNet网络。
- 攻击场景:梯度上升(GA)、标签翻转(LF)、随机故障(RF)攻击,攻击比例30%~50%。
- 对比基线:传统服务器联邦学习(半诚实/恶意服务器)及无服务器方案(如CMFL、BASIL)。

4. 主要结果

  1. 抗拜占庭攻击性能

    • 在GA、LF、RF攻击下,ROBY全局模型准确率均保持在90%以上,显著优于传统方法(恶意服务器场景下准确率下降至随机水平)。
    • 关键数据:在50% LF攻击下,ROBY的准确率为91.2%,而传统方法(如Krum)仅为23.5%。
  2. 隐私保护效果

    • 属性推断攻击:ROBY的攻击成功率(ASR)比FedAvg降低30%~50%(如“性别”分类任务中,ASR从78%降至42%)。
    • 数据重构攻击:动态批次大小使DLG/iDLG攻击的均方误差(MSE)从10−8升至4.422,无法重构有效图像(见图4可视化对比)。
  3. 效率优化

    • 通信开销:单轮广播(每迭代仅1次),通信量较现有无服务器方案降低20%~40%。
    • 计算开销:掩码模型训练耗时稳定在45ms/迭代,总时间开销与服务器联邦学习相当。

5. 结论与价值

科学价值
- 首次提出共识数据集机制,解决了无服务器联邦学习中ByRules共识难题。
- 双层级隐私保护策略在不牺牲模型精度的情况下,显著降低隐私泄露风险。

应用价值
- 适用于医疗、金融等对隐私和安全性要求高的场景,为分布式学习提供可靠解决方案。

6. 研究亮点

  1. 创新性方法
    • 动态共识数据集和掩码模型结合,兼顾拜占庭鲁棒性与隐私保护。
    • 首次将ByRules扩展至完全去中心化环境。
  2. 实验全面性
    • 覆盖三类拜占庭攻击和两种隐私攻击,验证框架的普适性。
  3. 高效性
    • 通信与计算开销接近传统联邦学习,优于现有无服务器方案。

7. 其他价值

  • 开源实现(DOI: 10.1109/TIFS.2025.3589066)可供社区复现与扩展。
  • 提出的动态批次大小策略为防御数据重构攻击提供了新思路。

(注:以上内容严格基于原文,未添加额外信息。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com