分享自:

VertiMRF:差分隐私垂直联邦数据合成

期刊:Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24)DOI:10.1145/3637528.3671771

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


《VertiMRF:支持差分隐私的纵向联邦数据合成》学术报告

一、作者与发表信息
本研究由西安交通大学的Fangyuan Zhao、Xuebin Ren、Shusen Yang(通讯作者)与阿里巴巴集团的Zitao Li、Bolin Ding、Yaliang Li(通讯作者)合作完成,发表于2024年8月的ACM SIGKDD国际会议(KDD ‘24),论文标题为《VertiMRF: Differentially Private Vertical Federated Data Synthesis》。

二、学术背景
研究领域为隐私保护数据合成(Privacy-Preserving Data Synthesis)与纵向联邦学习(Vertical Federated Learning, VFL)。在当前严格的数据隐私法规(如GDPR)背景下,如何在多方数据协作中生成高保真且满足差分隐私(Differential Privacy, DP)的合成数据成为关键挑战。传统方法集中于集中式场景,而纵向联邦场景下,因属性分散于不同参与方,跨属性相关性估计面临信息丢失、维度灾难等问题。本研究提出VertiMRF算法,旨在解决以下目标:
1. 在纵向联邦场景下实现高效用合成数据;
2. 通过差分隐私保障所有共享信息的理论安全性;
3. 突破跨属性相关性估计的维度限制。

三、研究流程与方法
研究分为六个核心阶段,结合了本地差分隐私(LDP)与全局优化技术:

  1. 本地MRF构建(Phase 1: locmrf)

    • 每个参与方P_i基于本地属性集A_i构建局部马尔可夫随机场(Markov Random Field, MRF),捕获属性间相关性。
    • 关键创新:限制局部团大小(τ’ ≤ τ/(m·u²)),避免后续全局图过拟合,其中u为平均属性域大小。
  2. 差分隐私编码(Phase 2: locenc)

    • 采用Flajolet-Martin(FM)草图对本地属性进行编码,满足(ε, δ)-DP。
    • 技术细节:
      • 使用哈希函数生成几何随机变量,插入k_p = ⌈1/(e^ε’−1)⌉个虚拟元素以增强隐私;
      • 通过t次重复编码(如t=2000)提升估计稳定性。
  3. 全局属性图生成(Phase 3: graphcom)

    • 服务器合并各方的局部属性图,基于FM草图估计跨属性R-score(公式:R(A_i,A_j)≈n²|T(A_i,A_j)/n − T_A_i/n · T_A_j/n|),按相关性降序连接边,同时控制三角化后的最大团大小不超过τ(经验值10⁵–5×10⁶)。
  4. 全局MRF初始化(Phase 4: initmrf)

    • 合并各方的局部边际集S_i,以本地MRF推断的列联表作为初始参数θ的基准,避免直接估计高维分布。
  5. 参数优化(Phase 5: optmrf)

    • 从全局图中选择跨属性边际集S_c,通过FM草图估计其列联表,与本地MRF的推断结果进行一致性修正(Consistency Enforcement):
      • 对重叠属性取算术平均;
      • 迭代调整负概率值与归一化。
  6. 数据合成(Phase 6)

    • 从优化后的全局MRF中采样生成合成数据集,其分布近似原始数据联合分布。

四、主要结果与逻辑链条
1. 跨属性相关性估计误差控制
- 理论证明(Theorem 3):FM草图的相对误差与属性域大小成反比,通过维度约减(Dimension Reduction)将高维属性分箱(如b=4),显著降低误差(公式5:Pr[A,B]≈∑_(X,Y)Pr[X,Y]·Pr[A|X]·Pr[B|Y])。

  1. 隐私-效用权衡

    • 实验显示,在ϵ=0.8时,VertiMRF的3-way TVD(总变差距离)比基线VertiGAN降低50%以上(NLTCS数据集:0.058 vs. 0.426);
    • 分类任务中(如收入预测),SVM误分类率比VertiGAN低20%(Adult数据集:0.25 vs. 0.45)。
  2. 计算效率

    • 通信成本为O(tdu)+O(d²)+O(mτ’),通过并行哈希(40线程)将本地编码时间从23.1分钟缩短至4.1分钟(表3)。

五、结论与价值
1. 科学价值
- 首次提出纵向联邦场景下基于MRF的DP数据合成框架,通过FM草图与维度约减解决高维属性估计难题;
- 理论证明编码过程满足(4ε’√(td log(1/δ)), δ)-DP(Theorem 2)。

  1. 应用价值
    • 支持医疗、金融等领域的跨机构数据协作,如联合建模前的超参数调优;
    • 合成数据可替代原始数据用于下游分析,避免重复隐私消耗。

六、研究亮点
1. 方法创新
- 提出“本地MRF+全局草图”的双重信息融合机制,平衡本地精确性与跨方相关性;
- 一致性强制技术(Consistency Enforcement)解决不同粒度统计量的冲突。

  1. 实验优势
    • 在四个真实数据集(NLTCS、Adult等)上验证通用性,尤其适用于大域属性(如Fire数据集域大小达10¹⁵);
    • 开源实现支持多参与方扩展(测试m=2至m=d)。

七、其他价值
- 为纵向联邦学习提供隐私安全的基准数据生成工具,弥补了Gan类方法在表格数据上的缺陷;
- 代码与参数已公开,支持后续研究复现与改进。


(注:实际报告中可补充图表数据及具体对比实验细节以增强说服力。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com