联邦学习中的拜占庭鲁棒性与隐私保护协同优化:基于局部敏感哈希的HPE-LSH方案
一、研究团队与发表信息
本文由Xuanming Jia(西安电子科技大学)、Rong Sun(西安电子科技大学)、Lei Liu(西安电子科技大学广州研究院/齐鲁工业大学)、Jingwei Liu(西安电子科技大学)、Jiawen Kang(广东工业大学)、Shahid Mumtaz(诺丁汉特伦特大学/庆熙大学)、Mianxiong Dong(日本室兰工业大学)合作完成,发表于2025年11月的*IEEE Transactions on Vehicular Technology*(稿件编号VT-2025-03756.R1)。
二、学术背景与研究目标
科学领域:本文属于分布式机器学习中的联邦学习(Federated Learning, FL)领域,聚焦于隐私保护(Privacy-Preserving)与拜占庭鲁棒性(Byzantine-Robustness)的协同优化。
研究动机:
联邦学习允许多个客户端协作训练全局模型而无需共享原始数据,但在实际部署中面临两大挑战:
1. 隐私泄漏风险:攻击者可通过梯度匹配(Gradient Matching)或成员推断攻击(Membership Inference Attacks)重构客户端数据;
2. 拜占庭攻击威胁:恶意客户端通过上传毒化梯度(如标签翻转/Label Flipping、梯度缩放/Gradient Scaling)破坏模型性能。
现有防御方案存在三大局限:
- 多数方案忽视隐私保护,直接暴露原始梯度;
- 隐私保护方法(如差分隐私/DP、同态加密/HE)常导致模型精度下降或计算开销过高;
- 防御机制依赖强假设(如攻击类型、数据分布已知)。
研究目标:提出HPE-LSH框架,首次将局部敏感哈希(Locality-Sensitive Hashing, LSH)与掩码更新(Masked Updates)结合,在保护隐私的同时高效检测恶意客户端,并解决车辆网络中的非独立同分布(Non-IID)数据问题。
三、研究方法与流程
1. 系统架构
HPE-LSH采用分层架构:
- 客户端(Client):本地训练后,使用服务器分发的掩码(Mask)对梯度加密,生成掩码梯度(Masked Gradient);
- 边缘节点(Edge Node):基于LSH哈希值聚类检测恶意客户端,聚合安全梯度;
- 云服务器(Cloud Server):全局模型聚合与更新。
2. 核心流程
(1)系统初始化(Algorithm 1)
- 服务器生成掩码集合{mi}(满足∑mi=0)和LSH参数(随机高斯向量);
- 分发掩码和初始模型至客户端。
(2)本地训练(Algorithm 2)
- 客户端基于全局模型在本地数据集训练,计算梯度g(t)i,j;
- 恶意客户端实施四类攻击(LF、GS、IPM、LIE),生成毒化梯度∗g(t)i,j;
- 所有客户端上传掩码梯度ĝ(t)i,j = g(t)i,j + mi。
(3)拜占庭鲁棒聚合(Algorithm 3)
- 哈希值计算:边缘节点使用两种LSH函数(E2LSH用于欧氏距离,RHLSH用于余弦相似性)将梯度映射为低维哈希向量;
- 恶意客户端检测:通过HDBSCAN聚类算法筛选离群点(假设恶意客户端占比<50%);
- 安全聚合:仅聚合被双重LSH聚类验证为可信的客户端梯度。
(4)全局模型更新(Algorithm 4)
- 服务器聚合边缘节点上传的梯度,利用掩码抵消性质(∑mi=0)还原真实梯度;
- 更新全局模型:gt = gt−1 − lr(t)·ḡ(t)。
3. 创新方法
- 双LSH指标:E2LSH(基于p稳定分布)捕获梯度幅度异常,RHLSH(基于随机超平面)检测方向异常,互补提升鲁棒性;
- 分层掩码机制:边缘节点特定掩码实现隐私保护,且不增加计算负担;
- 轻量级HDBSCAN聚类:相比传统加密方法(如HE),显著降低计算开销。
四、实验结果
1. 数据集与基线
- 数据集:CIFAR-10、Fashion-MNIST、MNIST(标准基准)和GTSRB(真实交通标志数据集);
- 对比方案:FedAvg(基线)、Krum、Median、FLTrust、FreqFed。
2. 防御效果
- 标签翻转攻击(LF):HPE-LSH在CIFAR-10上准确率60.56%,优于FLTrust(59.63%)和Krum(49.13%);
- 梯度缩放攻击(GS):在Fashion-MNIST上准确率85%+,而Krum波动剧烈(40%-77%);
- IPM与LIE攻击:HPE-LSH和FreqFed表现最佳,接近无攻击基线(如MNIST上98%准确率)。
3. 鲁棒性分析
- 恶意客户端比例:当恶意客户端占比达45%时,HPE-LSH准确率仅下降2.4%(从60.56%至58.16%),显著优于FLTrust(下降15.53%);
- 参数影响:LSH维度(m+n=128)平衡了检测效率(0.29秒/轮)与精度(59.32%)。
五、结论与价值
科学价值:
1. 首次将LSH引入联邦学习的拜占庭防御,实现隐私与效率的协同优化;
2. 理论证明边缘节点在m+n≪d时无法重构原始梯度,保障隐私安全。
应用价值:
- 适用于车辆网络(如交通流量预测、自动驾驶),支持动态客户端参与和非IID数据分布;
- 计算开销仅为同态加密方案的1/10,适合资源受限场景。
亮点:
1. 双LSH指标:同时防御幅度与方向型攻击;
2. 分层架构:解决区域数据异构性问题;
3. 轻量级:通信成本O(kd),显著低于ShieldFL(O(4kd))。
未来方向:探索隐私保护与拜占庭防御的统一框架,扩展至更复杂智能交通场景。
注:文中术语首次出现时标注英文原文,如局部敏感哈希(Locality-Sensitive Hashing, LSH)。