类型a:学术研究报告
作者及机构
本研究的通讯作者为南京航空航天大学计算机科学与技术学院的Feng Zhang(邮箱:f_zhang@nuaa.edu.cn或zhangfeng_202109@163.com)。合作作者包括来自国能浙江北仑第一发电有限公司的Liansheng Ding和Haibin Bao、杭州后量子密码技术有限公司的Qingzhe Lv、浙江实验室的Zhouyang Zhang、绍兴大数据保障中心的Jianliang Han,以及绍兴数据有限公司的Shuang Ding。研究论文《Threshold Filtering for Detecting Label Inference Attacks in Vertical Federated Learning》于2024年11月8日发表在期刊《Electronics》第13卷第4376期,属于开放获取(Open Access)文章,遵循CC BY 4.0许可协议。
学术背景
联邦学习(Federated Learning)作为一种新兴的机器学习方法,因其允许参与方在本地训练数据并通过加密技术保护聚合过程中的隐私而受到广泛关注。然而,现有的联邦学习系统仍面临隐私泄露风险,尤其是在垂直联邦学习(Vertical Federated Learning)场景下,攻击者可能通过标签推断攻击(Label Inference Attacks)从训练模型中反推其他参与方的标签数据,导致严重的隐私泄露。目前,针对垂直联邦学习中标签推断攻击的检测方法研究较少,且缺乏对攻击原理、威胁模型分类及防御效果的系统性评估。因此,本研究旨在设计一种基于攻击原理的检测方法,通过阈值过滤(Threshold Filtering)技术识别标签推断攻击,并构建六种威胁模型以全面分析攻击者的行为模式。
研究流程
1. 威胁模型分类
研究首先根据攻击者的先验知识条件,将标签推断攻击和成员推断攻击(Membership Inference Attacks)分为六类威胁模型(Threat Models)。例如,标签推断攻击中,攻击者是否使用额外标注数据(Threat Model 1和2);成员推断攻击中,攻击者是否具备黑盒/白盒访问权限(Threat Model 3-6)。这一分类为后续实验提供了理论框架。
检测方法设计
实验验证
主要结果
1. 攻击效果:不同威胁模型下,标签推断攻击的准确率差异显著。例如,使用额外标注数据的攻击(Threat Model 1)在BCW数据集上表现最优(89%),而无需标注数据的攻击(Threat Model 2)准确率下降至78%。
2. 防御效果:分散训练使攻击准确率接近随机猜测水平,验证了其有效性。
3. 检测模块输出:模型输出“1”表示易受标签推断攻击,“2”表示易受成员推断攻击,“0”表示无风险。实验表明,多数机器学习模型因过拟合特性易受成员推断攻击。
结论与价值
本研究首次系统分析了垂直联邦学习中的隐私风险,并提出了一种集成检测、评估与防御功能的模块化解决方案。其科学价值在于:
1. 方法论创新:通过阈值过滤和威胁模型分类,填补了标签推断攻击检测领域的空白。
2. 应用价值:用户可在模型部署前全面评估安全风险,例如检测到BCW数据集在FCNN模型中的攻击准确率为86.72%,防御后降至36.36%。
3. 扩展性:检测模块可兼容其他攻击类型(如对抗样本),为AI安全与可信性研究提供新思路。
研究亮点
1. 全面性:首次将标签推断攻击的检测、评估与防御整合为统一框架。
2. 实验验证:覆盖多种数据集和模型结构(如ResNet-18、DenseNet),数据支持充分。
3. 实用性:提出的分散训练法在实际场景中显著降低隐私泄露风险。
其他价值
研究还探讨了成员推断攻击在黑白盒场景下的差异,发现黑盒场景(更接近现实攻击条件)中,使用真实辅助数据集的攻击效果优于影子数据集(Shadow Dataset)。这一发现为后续防御策略设计提供了重要参考。