分享自:

跨机构联邦学习中的记录级个性化差分隐私

期刊:Proceedings of the 2024 ACM SIGSAC Conference on Computer and Communications Security (CCS '24)DOI:10.1145/3658644.3670351

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


跨机构联邦学习中的记录级个性化差分隐私研究

作者及机构
本研究的核心团队由多位学者组成:Junxu Liu(中国人民大学)、Jian Lou和Jinfei Liu(浙江大学)、Li Xiong(Emory University)以及Xiaofeng Meng(中国人民大学)。研究论文发表于2024年10月的*ACM SIGSAC Conference on Computer and Communications Security (CCS ’24)*,标题为《Cross-Silo Federated Learning with Record-Level Personalized Differential Privacy》。

学术背景
研究领域聚焦于隐私保护机器学习,具体涉及联邦学习(Federated Learning, FL)差分隐私(Differential Privacy, DP)的结合。传统联邦学习通过分布式训练避免数据集中共享,但依然面临隐私泄露风险(如重构攻击或推断攻击)。现有差分隐私方案通常假设所有记录共享相同的隐私预算(privacy budget),而现实中用户对隐私的需求存在差异。因此,本研究提出记录级个性化差分隐私(Record-Level Personalized DP, RPDP),旨在为不同用户的数据提供定制化隐私保护,同时优化模型效用。

研究流程与方法
1. 问题定义与框架设计
- 目标:在跨机构联邦学习(Cross-Silo FL)中,为每条记录分配独立的隐私预算𝜀,并通过非均匀采样实现隐私成本与效用的平衡。
- 核心框架RPDP-FL:提出两阶段混合采样方案:
- 客户端级均匀采样:服务器以固定概率𝜆随机选择参与训练的客户端。
- 记录级非均匀采样:每个客户端根据记录的隐私预算𝜀,计算其采样概率𝑞,通过泊松采样(Poisson Sampling)选择数据子集。

  1. 隐私分析与理论创新

    • 隐私放大效应:通过Rényi差分隐私(RDP)严格分析两阶段采样对隐私成本的放大作用,证明其优于传统单阶段采样。
    • 关键定理:推导记录级隐私成本的上界公式,揭示采样概率𝑞与隐私预算𝜀的非线性关系(如指数函数模型)。
  2. 高效参数估计方法

    • 仿真-曲线拟合(Simulation-Curvefitting, SCF)策略
      • 仿真阶段:通过数值模拟生成不同𝑞对应的隐私成本𝜀∗。
      • 曲线拟合阶段:建立𝑞与𝜀∗的数学模型(如𝜀∗ ≈ 𝑒𝑎𝑞+𝑏 + 𝑐),其拟合优度𝑅²超过99%。
    • 采样概率估计器:通过逆向函数𝐹(𝜀)直接计算给定𝜀对应的𝑞,避免传统二分搜索的高计算成本。
  3. 实验验证

    • 数据集与任务:在Heart-Disease(医疗)、MNIST/CIFAR-10(图像分类)、SNLI(自然语言推理)上测试,涵盖IID与非IID数据分布。
    • 隐私偏好模拟:设计三种用户隐私分布场景(三分类、有界帕累托分布、混合高斯分布)。
    • 基线对比:与忽略个性化的传统DP-FL方案相比,RPDP-FL在相同隐私预算下提升模型准确率最高达15%。

主要结果
1. 理论贡献
- 首次在联邦学习中实现记录级个性化隐私保护,填补了现有研究空白。
- 提出的SCF策略将采样概率计算复杂度从𝑂(𝑛 log 𝑛)降至𝑂(1),效率提升显著。

  1. 实验验证
    • 在Heart-Disease数据集上,RPDP-FL在隐私预算𝜀=2时准确率达78.5%,比基线高12%。
    • 对高隐私需求用户(𝜀=0.1),其数据仍能以低采样概率(𝑞≈0.05)参与训练,隐私成本严格受控。

结论与价值
1. 科学意义
- 为联邦学习中的个性化隐私保护提供了可证明安全的解决方案,扩展了DP理论在分布式场景的应用边界。
- 提出的两阶段采样框架和SCF策略可作为通用模块,适配其他隐私敏感任务(如医疗数据分析)。

  1. 应用价值
    • 支持用户自主选择隐私级别,适用于医疗、金融等对隐私要求差异显著的领域。
    • 开源实现(GitHub)为后续研究提供基准工具。

研究亮点
1. 创新性方法
- 首个将记录级PDP与联邦学习结合的工作,解决了隐私预算分配和高效采样的双重挑战。
- SCF策略通过数学建模替代迭代搜索,显著提升计算效率。

  1. 理论严密性

    • 基于RDP的隐私分析严格量化了客户端采样对隐私放大的增益,优于传统(𝜀,𝛿)-DP框架。
  2. 实验全面性

    • 覆盖多模态数据和复杂隐私分布,验证了方案的普适性。

其他亮点
- 讨论了噪声与采样概率的权衡(如增大噪声可提高采样率),为实际部署提供调参指导。
- 提出隐私预算会计(Budget Accountant)模块,实时监控记录级隐私消耗,避免早期终止导致的模型偏差。


此研究通过理论创新与工程实践的结合,为隐私保护机器学习领域提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com