分享自:

当MOE遇见LLMs:多任务医学应用中的参数高效微调

期刊:Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24)DOI:10.1145/3626772.3657722

这篇文档属于类型a(单篇原创研究论文),以下是详细的学术报告:


作者及机构

本研究由以下学者合作完成:
- Qidong Liu(西安交通大学 & 香港城市大学)
- Xian Wu(腾讯优图实验室Jarvis研究中心)
- Xiangyu Zhao(香港城市大学)
- Yuanshao Zhu(南方科技大学 & 香港城市大学)
- Derong Xu(中国科学技术大学 & 香港城市大学)
- Feng Tian(西安交通大学)
- Yefeng Zheng(腾讯优图实验室Jarvis研究中心)
论文发表于SIGIR ‘24(第47届国际ACM SIGIR信息检索研究与发展会议),会议时间为2024年7月14日至18日,美国华盛顿特区。


学术背景

研究领域:本研究属于自然语言处理(NLP)与医疗人工智能的交叉领域,聚焦于大型语言模型(LLM, Large Language Model)在医疗多任务场景中的高效微调(fine-tuning)问题。

研究动机
1. 任务多样性问题:现实医疗场景中,LLM需处理多种任务(如疾病诊断预测、药物推荐、临床报告生成等),但传统微调方法因数据不平衡(data imbalance)和任务冲突(seesaw problem)导致性能下降。
2. 高昂微调成本:LLM参数量庞大(如百亿级),全参数微调(full fine-tuning)的时间和计算资源消耗极高。

目标:提出一种参数高效微调框架(Parameter Efficient Fine-Tuning, PEFT),结合混合专家(Mixture-of-Experts, MoE)和多任务学习优势,实现医疗多任务场景下的高效适配。


研究流程与方法

1. 问题定义与框架设计

  • 任务形式化:将医疗任务(如实体识别、诊断分类)转化为LLM可处理的文本生成任务,通过模板(prompt)统一输入输出格式(如图2示例)。
  • 框架核心:提出MoELora,融合LoRA(Low-Rank Adaptation)MoE
    • LoRA:仅微调低秩矩阵(low-rank matrices),冻结原始LLM参数,降低计算成本。
    • MoE:设计多个专家(experts),每个专家由一对低秩矩阵组成,学习任务特定知识。
    • 任务驱动门控函数(Task-Motivated Gate):根据任务ID动态分配专家权重,生成任务专属参数。

2. 实验设置

  • 数据集:使用中文医疗多任务数据集PromptCBLUE(涵盖8类任务,如实体识别、药物推荐等),样本量从1,562至4,935不等(表1)。
  • 基线模型:对比包括:
    • 无微调LLM(ChatGPT、Huatuo)
    • 参数高效微调方法(P-tuning、LoRA全任务/单任务、Task-Arithmetic等)
    • 跨任务泛化方法(LoraHub、MoLoRA)
  • 评估指标:根据任务类型采用Micro-F1(多类别)、Macro-F1(少类别)或ROUGE-L(文本生成)。

3. 模型实现细节

  • 基础模型:开源中文LLM ChatGLM-6B
  • 微调层:注意力层的query/key/value及前馈网络(FFN)插入MoELora层。
  • 超参数:专家数𝑁=8,LoRA秩𝑟=16,批量大小64,训练步数8,000。

4. 数据分析方法

  • 多任务联合训练:混合所有任务数据,通过门控函数动态分配专家。
  • 参数恢复:推理时根据任务ID生成专属参数,避免实时计算门控权重(降低延迟)。

主要结果

  1. 性能对比(表2)

    • MoELora在多数任务上超越基线,平均得分0.6236(密集门控)和0.6204(稀疏门控),显著优于LoRA全任务(0.6155)和单任务(0.6138)。
    • 任务特异性优势:在数据量少的任务(如CHIP-CDeE)上表现突出,验证其对数据不平衡的鲁棒性。
  2. 消融实验(表3)

    • 移除MoE或门控导致性能下降(分别降低0.8%和0.6%),证实二者必要性。
    • 多门控设计(每层独立门控)参数量增加但性能提升有限,支持单门控的高效性。
  3. 超参数分析(图4)

    • 专家数𝑁=8时性能最优,过多专家(𝑁=16)因低秩矩阵过小导致知识捕获能力下降。
    • LoRA秩𝑟=16平衡效率与效果,进一步增加𝑟提升有限但增加计算成本。
  4. 效率分析(图5)

    • 训练成本:仅微调0.48%参数量,与LoRA相当。
    • 推理延迟:通过参数恢复避免实时门控计算,与LoRA全任务持平,显著优于动态门控的MoLoRA。

结论与价值

  1. 科学价值

    • 首次提出多任务参数高效微调框架MoELora,为LLM在医疗领域的应用提供新范式。
    • 验证任务驱动门控在参数分配中的有效性,解决数据不平衡与任务冲突问题。
  2. 应用价值

    • 可扩展至其他垂直领域(如法律、金融),适配多任务场景。
    • 开源代码(GitHub)促进社区研究。

研究亮点

  1. 方法创新

    • MoE与LoRA的融合:通过低秩专家矩阵实现参数高效与多任务学习的统一。
    • 任务门控设计:首次将任务ID(而非输入文本)作为门控输入,确保参数可恢复性。
  2. 实验贡献

    • 构建首个中文医疗多任务评测基准(PromptCBLUE)的完整实验分析。
    • 揭示专家数与秩的权衡关系,为后续研究提供调参指导。
  3. 效率突破

    • 推理阶段无额外计算开销,适合实际部署。

其他有价值内容

  • 稀疏门控探索:稀疏门控(Top-𝐾专家)在部分任务上表现更优,但密集门控更适合医疗知识共享需求。
  • 医疗任务适配:通过模板化设计(如指令微调)统一异构任务,为LLM医疗应用提供标准化流程。

(报告总字数:约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com