分享自:

针对异构平台的保密联邦学习以防止客户端隐私泄露

期刊:acm turing award celebration conference 2024 (acm-turc ’24)DOI:https://doi.org/10.1145/3674399.3674484

本文属于类型a(单项原创研究报告)。以下是基于文档内容生成的学术报告:


研究作者与发表信息

这项研究由 Qiushi Li 和 Yan Zhang 等人主导,分别来自 Tsinghua University(清华大学),发表在 ACM Turing Award Celebration Conference 2024(ACM-TURC ‘24)上,会议时间为2024年7月5日至7月,地点为中国长沙。该研究的标题为:《Confidential Federated Learning for Heterogeneous Platforms against Client-side Privacy Leakages》。研究的 DOI 为 https://doi.org/10.11453674399.3674484。


研究背景与目标

学术背景与研究意义
联邦学习(Federated Learning, FL)是一种富有前景的分布式机器学习技术,可以同时实现多数据源协作训练与隐私信息的本地化存储,在云计算和边缘计算领域得到了广泛应用[7, 9]。这种方法允许用户通过本地数据训练模型,同时保持数据隐私,有助于提升全局模型性能并适应用户的个性化需求[3]。联邦学习在推荐系统、多源数据协作等场景中应用广泛[5]。

尽管联邦学习可以在一定程度上减轻隐私泄露的风险,但模型训练过程中更新的中间信息残留特征可能会导致用户隐私的泄露。例如,生成对抗网络(Generative Adversarial Network, GAN)方法能够利用训练更新信息提取用户的面部特征,而无需访问其实际训练数据[1]。此外,一些机器学习方法可通过更新中的特征推断图像的场景属性,进而揭示数据被参与模型训练的事实[2, 6]。基于此,攻击者可能从中间更新中窃取用户隐私,甚至进行恶意数据交易。

目前,大多数研究集中于联邦学习中服务器端(server-side)的隐私保护[4],例如通过对模型参数进行分布式变换。但是,来自客户端(client-side)的威胁,尤其是那些由不可信客户端对其他客户端隐私造成的威胁,正引起越来越多的关注。本研究的目标是开发一个联邦学习的隐私保护框架,重点应对客户端发起的漏洞风险。该框架结合了可信执行环境(Trusted Execution Environment, TEE)的保密性与GPU的高性能计算,并兼容异构计算平台,以增强对恶意客户端的防御能力。


研究方法与实验设计

总体设计与方法概述

研究提出了一个创新的联邦学习隐私保护框架,针对不可信客户端导致的隐私泄露问题构建严格的防护机制。通过在TEE环境下加密模型参数权重,并采用GPU加速来提高加密计算的效率,同时减少客户之间的通信延迟。

数据处理与保护(客户端与服务器架构)

联邦学习中,客户端负责本地训练并生成权重更新,然后将这些更新发送给中央服务器。服务器对收到的更新汇总形成全局模型参数,并分发给各客户端以继续优化模型。在可能出现的攻击风险中: 1. 服务器攻击:攻击者可以访问服务器存储的所有中间数据。 2. 客户端攻击:恶意客户端可能冒充正常用户,窃取其他客户端的隐私数据。

为了应对客户端攻击,本研究的创新点在于防止训练过程中权重更新泄漏敏感信息。主要措施包括调整权重排列方式和使用TEE环境进行加密操作。

详细方法与实验设计

  1. 权重加密与处理

    • 使用GPU友好型加密算法,将权重矩阵𝑊加密为加密集合𝑇𝑒(形式为{𝐾𝑒,𝑖},其中每个𝐾𝑒,𝑖为加密子项)。
    • 偏置参数𝑏直接保存在TEE中,无需加密。
    • 在前向传播计算中,加密权重𝑇𝑒与输入𝑋结合,并最终在TEE中完成解密后计算输出𝑌。
  2. 多层计算分工机制
    权重参数计算过程被划分为GPU计算和TEE计算两部分:

    • GPU计算:将中间计算任务分配至GPU以进行矩阵运算。
    • TEE计算:对最终结果进行解密并完成偏置加成。

例如,对于全连接层,前向传播的计算公式为: - 普通模型:𝑌 = 𝑊𝑋 + 𝑏 - 加密模型:𝑌=𝐾𝑒,𝑟𝑋 + ∑(𝐾𝑒,𝑖𝑋) + 𝑏

  1. 反向传播与梯度保护
    为了防止梯度泄露,所有梯度计算也在TEE环境中完成。例如,损失函数𝐿关于参数的梯度被分为以下两部分:

    • GPU计算部分:计算中间值。
    • TEE计算部分:结合解密结果完成整体梯度计算,避免外部推测权重信息。
  2. 随机缩放保护机制
    为进一步保护中间输出结果𝑌的隐私,研究引入随机缩放因子𝛼,使得𝑌 = 𝛼𝑌,并且后续层的输入包含上一层的缩放特性,从而阻断数据重构攻击。


实验结果

研究通过实验验证了提出方法的有效性。模型参数通过TEE和GPU协同保护后,客户端间数据流的可视化特征显著减弱,表明加密的权重更新无法被恶意攻击者轻易识别。另外,与传统模型相比: - 通信延迟降低:在客户端之间的通信效率明显提升。 - 模型性能无显著下降:模型准确性与训练质量未受到加密过程的负面影响。 - 隐私保护能力增强:使用加密权重和随机缩放后,攻击者无法从模型中推断输入特征或用户隐私。


研究结论与意义

本研究提出的隐私保护框架成功实现: 1. 依托TEE与GPU的混合计算,在恶意客户端攻击场景下,保护了联邦学习的中间更新值。 2. 优化了隐私与计算性能的平衡,提升了联邦学习的实际可用性。 3. 提出一种通用方法,适用于异构计算平台,未来可扩展至广泛的分布式机器学习场景。

该研究的科学价值体现于对联邦学习体系中新威胁(客户端攻击)的系统性解决,而其工程价值则在于兼顾了隐私保护与计算效率,为大规模联邦学习的实际应用铺平了道路。


研究亮点

  • 新颖性:首次提出TEE与GPU协同保护联邦学习客户端隐私的机制。
  • 性能优化:减少通信延迟且保证高模型性能。
  • 安全增强:通过多层次加密与随机缩放保护对抗高级推断攻击。

总结

本研究拓展了联邦学习领域在隐私保护方面的理论与实践,为未来的分布式机器学习系统提供了坚实的参考依据。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com