特征分布对标签推断攻击的影响揭示

分享自：
特征分布对标签推断攻击的影响揭示

期刊:ieee transactions on information forensics and securityDOI:10.1109/tifs.2024.3498464
学术研究报告：垂直联邦学习中的标签推断攻击差异研究
一、研究团队与发表信息
 本研究的核心作者包括Yige Liu、Che Wang、Yiwei Lou、Yongzhi Cao（IEEE高级会员）和Hanpin Wang，均来自北京大学计算机学院高可信软件技术教育部重点实验室。Yongzhi Cao为通讯作者。研究发表于IEEE Transactions on Information Forensics and Security第20卷（2025年），于2024年11月14日在线发布，并于同年12月23日收录最终版本。研究得到中国国家重点研发计划（2021YFF1201102）和国家自然科学基金（62172016、61932001）的支持。
二、学术背景与研究目标
 垂直联邦学习（Vertical Federated Learning, VFL）是一种分布式机器学习范式，允许多个被动方（passive parties，拥有不同特征数据）与一个主动方（active party，拥有标签）协作训练模型。尽管VFL被认为能保护隐私，但其仍面临标签推断攻击（Label Inference Attack, LIA）等安全威胁。现有研究多关注两方VFL场景下的攻击性能，而忽略了多参与方场景中因特征分布差异导致的攻击效果差异。
本研究首次揭示了多参与方VFL中不同被动方的LIA性能差异，并量化了这种差异（最高可达15倍）。研究目标包括：
 1. 验证特征分布差异对LIA性能的影响；
 2. 探索消除差异的方法（如学习率调整、差分隐私噪声扰动）；
 3. 提出一种新型防御策略，通过自适应噪声降低攻击差异及整体攻击精度。
三、研究流程与方法
 1. 实验设计与数据集
 - 数据集：选用4个图像数据集（MNIST、FashionMNIST、CIFAR-10、CIFAR-100）和1个表格数据集（Criteo），覆盖不同特征复杂度与类别数量。
 - 特征划分策略：采用垂直划分（vertical）、随机划分（random）和不均衡划分（imbalanced）模拟不同被动方的特征分布差异（图2）。
 - 模型架构：根据数据集复杂度设计不同嵌入模型（如全连接层、ResNet），主动方使用聚合模型（aggvfl框架）。
攻击方法复现与评估
 研究复现了四种典型LIA方法：
基于梯度符号的LIA（LIA with gradient sign）：利用梯度符号与真实标签的关联性推断标签。
 
基于聚类的LIA（LIA with cluster）：通过K-means聚类嵌入或梯度推断标签。
 
基于模型重构的LIA（LIA with model reconstruction）：通过替代模型和标签迭代逼近真实梯度。
 
基于模型补全的LIA（LIA with model completion）：利用少量标注数据微调嵌入模型以提升标签预测能力。
 
影响因素分析
特征划分：不同划分策略下攻击差异持续存在（表II）。
 
学习率：被动方恶意提高学习率可显著提升攻击精度（图3），且主动方难以检测（表III-IV）。
 
训练轮次与批次大小：攻击精度随轮次增加（嵌入聚类）或降低（梯度聚类），批次大小存在最优值（图4-5）。
 
综合影响：特征分布差异是攻击差异的主因，其他因素通过交互作用放大差异（图6）。
 
防御策略开发
识别模块：通过初始训练轮次的LIA攻击精度识别重要特征被动方。
 
自适应噪声扰动：对重要被动方的梯度添加差分隐私（DP）噪声，噪声强度与攻击精度差异成反比。
 
四、主要研究结果
 1. 攻击差异验证：不同被动方的LIA攻击精度差异显著（表I），例如MNIST数据集中，重要特征被动方的攻击精度比次要特征方高15倍。
 2. 学习率调整效果：被动方将学习率提升至5倍时，攻击精度可反超其他方（图7），且模型预测精度不受显著影响（误差%）。
 3. 防御策略有效性：自适应噪声将攻击差异降低50%以上，整体攻击精度下降10%-20%（表VI），且计算与通信开销可控（表VII）。
五、研究结论与价值
 1. 科学价值：首次量化多参与方VFL中LIA攻击差异，揭示了特征分布与攻击性能的关联机制。
 2. 应用价值：提出的防御策略为实际VFL系统提供了轻量级隐私保护方案，平衡了隐私与计算效率。
 3. 方法论创新：结合识别模块与自适应噪声的防御框架，为后续研究提供了新思路。
六、研究亮点
 1. 重要发现：特征分布差异是LIA攻击差异的核心因素，且学习率调整可被恶意利用。
 2. 方法创新：首次提出针对多参与方VFL的攻击差异防御策略，支持动态噪声适配。
 3. 数据普适性：实验覆盖图像与表格数据，验证结论的广泛适用性。
七、其他价值
 研究开源代码（GitHub仓库：wwlnzsbmaxu/attackers-are-not-the-same）可供复现，并讨论了多参与方VFL与两方场景的差异（表VIII），为未来研究指明方向（如多模态数据攻击、离线参与方处理等）。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问