学术研究报告:垂直联邦学习中的标签推断攻击差异研究
一、研究团队与发表信息
本研究的核心作者包括Yige Liu、Che Wang、Yiwei Lou、Yongzhi Cao(IEEE高级会员)和Hanpin Wang,均来自北京大学计算机学院高可信软件技术教育部重点实验室。Yongzhi Cao为通讯作者。研究发表于IEEE Transactions on Information Forensics and Security第20卷(2025年),于2024年11月14日在线发布,并于同年12月23日收录最终版本。研究得到中国国家重点研发计划(2021YFF1201102)和国家自然科学基金(62172016、61932001)的支持。
二、学术背景与研究目标
垂直联邦学习(Vertical Federated Learning, VFL)是一种分布式机器学习范式,允许多个被动方(passive parties,拥有不同特征数据)与一个主动方(active party,拥有标签)协作训练模型。尽管VFL被认为能保护隐私,但其仍面临标签推断攻击(Label Inference Attack, LIA)等安全威胁。现有研究多关注两方VFL场景下的攻击性能,而忽略了多参与方场景中因特征分布差异导致的攻击效果差异。
本研究首次揭示了多参与方VFL中不同被动方的LIA性能差异,并量化了这种差异(最高可达15倍)。研究目标包括:
1. 验证特征分布差异对LIA性能的影响;
2. 探索消除差异的方法(如学习率调整、差分隐私噪声扰动);
3. 提出一种新型防御策略,通过自适应噪声降低攻击差异及整体攻击精度。
三、研究流程与方法
1. 实验设计与数据集
- 数据集:选用4个图像数据集(MNIST、FashionMNIST、CIFAR-10、CIFAR-100)和1个表格数据集(Criteo),覆盖不同特征复杂度与类别数量。
- 特征划分策略:采用垂直划分(vertical)、随机划分(random)和不均衡划分(imbalanced)模拟不同被动方的特征分布差异(图2)。
- 模型架构:根据数据集复杂度设计不同嵌入模型(如全连接层、ResNet),主动方使用聚合模型(aggvfl框架)。
攻击方法复现与评估
研究复现了四种典型LIA方法:
影响因素分析
防御策略开发
四、主要研究结果
1. 攻击差异验证:不同被动方的LIA攻击精度差异显著(表I),例如MNIST数据集中,重要特征被动方的攻击精度比次要特征方高15倍。
2. 学习率调整效果:被动方将学习率提升至5倍时,攻击精度可反超其他方(图7),且模型预测精度不受显著影响(误差%)。
3. 防御策略有效性:自适应噪声将攻击差异降低50%以上,整体攻击精度下降10%-20%(表VI),且计算与通信开销可控(表VII)。
五、研究结论与价值
1. 科学价值:首次量化多参与方VFL中LIA攻击差异,揭示了特征分布与攻击性能的关联机制。
2. 应用价值:提出的防御策略为实际VFL系统提供了轻量级隐私保护方案,平衡了隐私与计算效率。
3. 方法论创新:结合识别模块与自适应噪声的防御框架,为后续研究提供了新思路。
六、研究亮点
1. 重要发现:特征分布差异是LIA攻击差异的核心因素,且学习率调整可被恶意利用。
2. 方法创新:首次提出针对多参与方VFL的攻击差异防御策略,支持动态噪声适配。
3. 数据普适性:实验覆盖图像与表格数据,验证结论的广泛适用性。
七、其他价值
研究开源代码(GitHub仓库:wwlnzsbmaxu/attackers-are-not-the-same)可供复现,并讨论了多参与方VFL与两方场景的差异(表VIII),为未来研究指明方向(如多模态数据攻击、离线参与方处理等)。