分享自:

基于表示学习的实用异构垂直联邦学习方法

期刊:IEEE Transactions on Information Forensics and SecurityDOI:10.1109/tifs.2025.3530700

学术报告

本文档为一篇单一原创研究的学术报告,根据文档内容编撰如下:


一、研究主要作者、研究机构及发表期刊

本文的主要作者包括 Shuo Wang、Keke Gai、Jing Yu、Zijian Zhang 和 Liehuang Zhu,其中多位作者为 IEEE 会员和高级会员。他们所属的研究机构分别为北京理工大学网络空间科学与技术学院(School of Cyberspace Science and Technology, Beijing Institute of Technology)以及中国民族大学信息工程学院(Minzu University of China)。研究工作被接收发表在《IEEE Transactions on Information Forensics and Security》期刊上,文章在 2025 年正式出版。该文的通讯作者为 Keke Gai。研究得到了“国家重点研发计划”(项目编号 2021YFB2701300)和国家自然科学基金(项目编号 62372044)资助。


二、研究背景与目的

该研究工作属于联邦学习(Federated Learning, FL)领域,特别是垂直联邦学习(Vertical Federated Learning, VFL)子领域。联邦学习是一种分布式机器学习范式,旨在保护数据隐私,在金融服务、智能医疗和推荐系统等隐私敏感领域具有广泛应用。垂直联邦学习的特点在于合作的各方拥有共同的样本空间,但各自拥有不同的特征集。

现有的垂直联邦学习方法通常采用同构模型结构,并且需要在每个训练批次中频繁地在主动方和被动方之间进行通信,导致高昂的通信开销。然而,在现实生活中,参与机构的异构性使得同构模型的约束不够高效,阻碍了资源的最佳利用。同时,由于被动方通常缺少样本的标签信息,因此 VFL 在标签隐私保护与减少通信轮次方面也面临诸多挑战。

本研究旨在解决以下关键问题: 1. 异构模型对全球模型训练性能的负面影响。 2. 垂直联邦学习中因频繁通信而带来的高通信开销。 3. 现有方法在保护主动方标签隐私的同时,难以有效地减少通信次数。

为此,作者们提出了一种基于表示学习(Representation Learning)的全新异构垂直联邦学习方法——Practical Heterogeneous Vertical Federated Learning via Representation Learning(简称 PravFed),以支持异构本地模型的训练,同时显著减少通信开销。


三、研究工作流程及实施细节

研究进行了系统性设计,采用以下流程来实现目标:

1. 研究整体框架设计

PravFed 提出了一种全新的框架,该框架支持异构本地模型的协作训练,同时最大程度降低通信开销,保护数据隐私。 - 主动方(Active Party):负责标签扰动(label perturbation)、全局加权聚合(weighted aggregation)以及训练全局模型。 - 被动方(Passive Party):通过本地模型的多轮训练和表征学习,为主动方提供经过投影遮蔽的本地嵌入值。

2. 隐私保护与模型优化的设计目标

PravFed 的设计目标涵盖三个方面: - 隐私保护:通过差分隐私(Differential Privacy, DP)理论对标签进行扰动,同时引入混淆因子(Blinding Factor)来隐匿本地嵌入值。 - 模型精度:通过优化全局模型权重和本地训练过程提高模型预测准确率。 - 效率提升:优化模型训练效率,减少通信开销。

3. 本地表示学习的核心流程

为了实现高效的本地表征与保护本地数据隐私,本研究设计了以下核心步骤: - 本地模型预训练:被动方使用多轮本地特征训练生成本地预训练模型。这一过程显著减少了主动方与被动方之间通信的轮次。 - 本地嵌入生成:使用预训练模型,生成用于进一步训练的本地嵌入值。 - 本地嵌入遮蔽:为了防止嵌入值泄露本地特征信息,每个被动方通过 Diffie-Hellman 密钥协议和随机混淆因子结合,对本地嵌入值进行遮蔽处理。

4. 全局模型训练流程

主动方的训练过程主要分为三部分: 1. 标签扰动:将噪声加入到样本标签中,从而保护主动方的标签隐私。 2. 加权聚合:根据被动方的模型预测精度,采用加权方式对本地嵌入进行聚合,以生成全局嵌入值。 3. 全局模型更新:结合全局嵌入值以及主动方自身的数据,采用梯度下降方法(Gradient Descent)更新全局模型参数。

该方法的创新之处在于将异构模型训练与表示聚合相结合,避免了被动方频繁发送中间结果,从而大大降低了通信成本。


四、研究主要结果

实验与理论分析均表明 PravFed 方法在多个维度上优于现有方法,以下是具体结果:

实验数据集与模型:
  1. 数据集:使用四个经典图像数据集(MNIST、FMNIST、CIFAR10、CINIC10)和四个真实表格型数据集(Adult Income、Breast Cancer、Credit Card、Diabetes)。
  2. 模型选择:针对不同数据集,选用异构本地模型(如多层感知器 MLP、卷积神经网络 CNN、ResNet 等)。
实验结论:
  1. 模型精度:PravFed 在异构模型下的测试准确率显著高于其他现有方法。例如,在 CINIC10 数据集上,当目标准确率设为 60% 时,PravFed 达到 69.23%,比 PyVertical 方法高出 6.33%。
  2. 通信开销:在 CINIC10 数据集上,与基线方法 PyVertical 相比,PravFed 的通信开销减少了 70.57%。
  3. 隐私保护:通过差分隐私和混淆因子保护,PravFed 能有效防止主动方标签信息和被动方本地特征值泄露。

五、研究结论与价值

PravFed 方法针对垂直联邦学习中的瓶颈问题提出了创新性解决方案,其主要贡献包括: 1. 提出了可支持异构模型训练并显著减少通信开销的框架方法,扩展了垂直联邦学习在实际场景中的应用范围。 2. 提供了一种保护数据隐私的高效机制,满足了数据经济和隐私保护的实际需求。

在科学领域,该研究为设计优化的机器学习算法提供了新的思路。在应用领域,PravFed 可广泛应用于医学研究、金融分析等对隐私保护要求高的场景。


六、研究亮点与创新

  1. 首次提出结合异构模型与加权嵌入聚合的方法,突破了现有垂直联邦学习对于同构模型的局限性。
  2. 对被动方嵌入值的遮蔽和主动方标签扰动的双重隐私保护机制,提高了全局模型的适用性和安全性。
  3. 显著降低了通信开销,使得 PravFed 更贴近实际应用需求。

七、剩余问题及未来研究方向

尽管 PravFed 在通信效率和隐私保护上表现优异,但其存储开销相对较高。未来研究可进一步探索模型精度、通信开销与存储需求之间的平衡,以适应更广泛的场景需求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com