这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
《VertiMRF:支持差分隐私的纵向联邦数据合成》学术报告
一、作者与发表信息
本研究由西安交通大学的Fangyuan Zhao、Xuebin Ren、Shusen Yang(通讯作者)与阿里巴巴集团的Zitao Li、Bolin Ding、Yaliang Li(通讯作者)合作完成,发表于2024年8月的ACM SIGKDD国际会议(KDD ‘24),论文标题为《VertiMRF: Differentially Private Vertical Federated Data Synthesis》。
二、学术背景
研究领域为隐私保护数据合成(Privacy-Preserving Data Synthesis)与纵向联邦学习(Vertical Federated Learning, VFL)。在当前严格的数据隐私法规(如GDPR)背景下,如何在多方数据协作中生成高保真且满足差分隐私(Differential Privacy, DP)的合成数据成为关键挑战。传统方法集中于集中式场景,而纵向联邦场景下,因属性分散于不同参与方,跨属性相关性估计面临信息丢失、维度灾难等问题。本研究提出VertiMRF算法,旨在解决以下目标:
1. 在纵向联邦场景下实现高效用合成数据;
2. 通过差分隐私保障所有共享信息的理论安全性;
3. 突破跨属性相关性估计的维度限制。
三、研究流程与方法
研究分为六个核心阶段,结合了本地差分隐私(LDP)与全局优化技术:
本地MRF构建(Phase 1: locmrf)
差分隐私编码(Phase 2: locenc)
全局属性图生成(Phase 3: graphcom)
全局MRF初始化(Phase 4: initmrf)
参数优化(Phase 5: optmrf)
数据合成(Phase 6)
四、主要结果与逻辑链条
1. 跨属性相关性估计误差控制
- 理论证明(Theorem 3):FM草图的相对误差与属性域大小成反比,通过维度约减(Dimension Reduction)将高维属性分箱(如b=4),显著降低误差(公式5:Pr[A,B]≈∑_(X,Y)Pr[X,Y]·Pr[A|X]·Pr[B|Y])。
隐私-效用权衡
计算效率
五、结论与价值
1. 科学价值
- 首次提出纵向联邦场景下基于MRF的DP数据合成框架,通过FM草图与维度约减解决高维属性估计难题;
- 理论证明编码过程满足(4ε’√(td log(1/δ)), δ)-DP(Theorem 2)。
六、研究亮点
1. 方法创新
- 提出“本地MRF+全局草图”的双重信息融合机制,平衡本地精确性与跨方相关性;
- 一致性强制技术(Consistency Enforcement)解决不同粒度统计量的冲突。
七、其他价值
- 为纵向联邦学习提供隐私安全的基准数据生成工具,弥补了Gan类方法在表格数据上的缺陷;
- 代码与参数已公开,支持后续研究复现与改进。
(注:实际报告中可补充图表数据及具体对比实验细节以增强说服力。)