本文属于类型a,是一篇关于联邦学习(Federated Learning, FL)的研究论文,介绍了一种名为FedVal的新方法,旨在解决联邦学习中的鲁棒性和公平性问题。以下是对该研究的详细介绍。
本文的主要作者包括Viktor Valadi(AI Sweden)、Xinchi Qiu、Pedro Porto Buarque de Gusmão、Nicholas D. Lane(University of Cambridge)以及Mina Alibeigi(University of Cambridge和Zenseact AB)。该研究发表在2023年8月9日至11日举行的第32届USENIX安全研讨会(USENIX Security Symposium)上,论文编号为978-1-939133-37-3,并由USENIX赞助开放访问。
联邦学习是一种新兴的隐私保护机器学习范式,允许多个设备在本地数据上协同训练模型,而无需将数据集中存储。然而,联邦学习面临两大挑战:一是恶意攻击者可能通过数据投毒(Poisoning Attacks)破坏模型;二是数据分布不均(Non-IID)可能导致模型对不同群体的表现不公平。传统方法通常需要集中访问数据,这与联邦学习的隐私保护原则相冲突。因此,本文提出了一种无需额外客户端信息的新方法FedVal,旨在同时解决鲁棒性和公平性问题。
FedVal的核心目标是设计一种能够在联邦学习系统中有效防御投毒攻击并减少群体偏差的方法。该方法基于服务器端验证,通过评估客户端更新的性能,确定本地模型之间的最优聚合平衡。
FedVal的核心是一个基于服务器端验证的评分函数。该函数通过评估客户端在验证数据集上的表现,为每个客户端分配一个分数,并根据分数调整其在模型聚合中的权重。评分函数的设计考虑了多个维度,包括标签损失、偏差减少项和斜率项。具体公式如下: [ s(\thetat^d) = \sum{k=1}^K \left( \max\left(1, \left(\frac{\bar{l}k}{\bar{l}{avg}}\right)^{s2}\right) \times \frac{s1 \times \text{div}_{k,d}}{\text{mad}_k} + c \times s1 \right) ] 其中,(\bar{l}k)是标签k的平均验证损失,(\bar{l}{avg})是整个验证集的平均损失,(\text{div}_{k,d})是客户端d在标签k上的损失偏差,(\text{mad}_k)是标签k的平均绝对偏差。
研究使用了三个数据集进行实验:CIFAR-10、FEMNIST和PUMS ACSIncome。实验分为多个配置,包括不同比例恶意客户端、数据分布不均和差分隐私技术的应用。具体实验设置如下: - CIFAR-10:40个客户端,每个客户端1250张图像,60轮训练,每轮随机选择10个客户端。 - FEMNIST:3597个客户端,每个客户端平均225个样本,200轮训练,每轮随机选择30个客户端。 - PUMS ACSIncome:40个客户端,30轮训练,每轮随机选择15个客户端。
实验结果表明,FedVal在多种情况下表现出色: - 投毒攻击防御:在80%的客户端为恶意的情况下,FedVal仍能有效收敛,而其他方法如Multi-Krum和LFR在40%恶意客户端时即失效。 - 公平性提升:在FEMNIST数据集上,FedVal将小写字母的分类准确率从32%提升至53%,显著减少了群体偏差。 - 差分隐私兼容性:FedVal在结合差分隐私技术的情况下仍能保持较高的鲁棒性。
FedVal通过服务器端验证和动态评分机制,成功解决了联邦学习中的两大难题:投毒攻击和数据分布不均。该方法不仅在鲁棒性上表现优异,还能有效提升模型的公平性,尤其适用于隐私敏感的应用场景。
FedVal的研究为联邦学习领域提供了新的思路,特别是在隐私保护和数据分布不均问题上的解决方案,具有重要的理论和实践意义。未来研究可以进一步探索其在回归问题和其他复杂场景中的应用。