联邦指令调优(Federated Instruction Tuning, FEdit):面向隐私保护的大语言模型分布式训练新范式
作者及机构
本研究的核心团队由Duke大学的Jianyi Zhang、Saeed Vahidian、Martin Kuo、Yiran Chen,Microsoft Research的Chunyuan Li,Adobe Research的Ruiyi Zhang、Tong Yu、Yufan Zhou,以及Amazon的Guoyin Wang组成。该成果以《Towards Building the Federated GPT: Federated Instruction Tuning》为题,发表于2024年IEEE国际声学、语音与信号处理会议(ICASSP 2024),并获NSF和ARO项目资助。
科学领域与问题起源
研究聚焦于自然语言处理(NLP)中的大语言模型(Large Language Models, LLMs)指令调优(Instruction Tuning)领域。传统指令调优依赖集中式高质量指令数据(如ChatGPT生成数据),但面临两大挑战:
1. 数据获取成本高:人类标注指令的采集需耗费大量时间和经济成本;
2. 隐私敏感性问题:用户对话、企业专有指令(如医药公司临床数据)因隐私或商业机密无法共享。
研究目标
提出联邦指令调优(FEdit)框架,首次将联邦学习(Federated Learning, FL)与LLMs指令调优结合,实现以下突破:
- 利用分布式设备本地数据训练,避免原始数据外传;
- 通过参数高效调优(Parameter-Efficient Tuning, PETuning)降低计算开销;
- 提升模型在异构指令(如多语言、多领域任务)下的泛化能力。
核心组件:
- 客户端:下载全局LLM,使用本地指令数据训练轻量适配器(LoRA模块),仅更新低秩矩阵(A \in \mathbb{R}^{r×k})和(B \in \mathbb{R}^{d×r})(秩(r \ll \min(d,k))),冻结主模型参数。
- 服务器:聚合客户端适配器参数,通过FedAvg更新全局模型。
创新点:
- LoRA适配器:将参数更新量(\Delta W)分解为(BA),通信量减少至原模型的0.26%(实验显示7B参数模型仅需传输17.9M参数);
- 客户端选择策略:动态筛选具有代表性指令分布的设备参与训练,缓解数据异构性影响。
数据集:基于Databricks-Dolly-15k数据集,模拟10个客户端的非独立同分布(Non-IID)场景:
- 任务类别异构性:如图2a所示,各客户端指令类型分布不均(如Client #0以开放问答为主,Client #3专注分类任务);
- 多语言与领域差异:涵盖法律、医药等专业术语及文化语境差异。
数据划分方法:采用分片策略(Sharding),确保每个客户端仅接触部分任务类别(如仅“头脑风暴”或“封闭问答”)。
基线模型:
- 集中式训练(CentralizedModel):使用全部指令数据;
- 本地训练(Local-1/2/3):单客户端数据训练;
- 未调优LLaMA:作为性能下限参照。
评估方法:
- GPT-4自动评分:对20个未见问题(如反事实问答、数学问题)生成回答,评分范围1-10,取三次平均;
- 关键指标:相对得分(Shepherd-7b得分/基线得分)。
性能对比(表3):
异构数据价值:
资源效率:
科学意义:
- 首次验证FL在LLMs指令调优中的可行性,为解决数据隐私与分布不均问题提供新思路;
- 提出LoRA与FL结合的轻量化方案,为边缘计算场景下的LLMs训练奠定基础。
应用前景:
- 医疗与金融领域:支持敏感数据本地训练,符合GDPR等隐私法规;
- 多语言场景:利用全球用户数据提升小语种任务性能。
开源贡献:发布Shepherd框架(GitHub仓库),支持Alpaca、Vicuna等主流LLMs的联邦调优,提供模块化接口供社区扩展。
方法创新:
发现创新:
工具贡献:Shepherd框架支持异构指令、多算法集成,推动联邦NLP研究标准化。
未来方向:优化客户端选择策略(如Fed-CBS)、探索差分隐私(DP)防御梯度泄露攻击,进一步提升安全性与公平性。