这篇文档属于类型a(单篇原创研究论文),以下是详细的学术报告:
作者及机构
本研究由以下学者合作完成:
- Qidong Liu(西安交通大学 & 香港城市大学)
- Xian Wu(腾讯优图实验室Jarvis研究中心)
- Xiangyu Zhao(香港城市大学)
- Yuanshao Zhu(南方科技大学 & 香港城市大学)
- Derong Xu(中国科学技术大学 & 香港城市大学)
- Feng Tian(西安交通大学)
- Yefeng Zheng(腾讯优图实验室Jarvis研究中心)
论文发表于SIGIR ‘24(第47届国际ACM SIGIR信息检索研究与发展会议),会议时间为2024年7月14日至18日,美国华盛顿特区。
学术背景
研究领域:本研究属于自然语言处理(NLP)与医疗人工智能的交叉领域,聚焦于大型语言模型(LLM, Large Language Model)在医疗多任务场景中的高效微调(fine-tuning)问题。
研究动机:
1. 任务多样性问题:现实医疗场景中,LLM需处理多种任务(如疾病诊断预测、药物推荐、临床报告生成等),但传统微调方法因数据不平衡(data imbalance)和任务冲突(seesaw problem)导致性能下降。
2. 高昂微调成本:LLM参数量庞大(如百亿级),全参数微调(full fine-tuning)的时间和计算资源消耗极高。
目标:提出一种参数高效微调框架(Parameter Efficient Fine-Tuning, PEFT),结合混合专家(Mixture-of-Experts, MoE)和多任务学习优势,实现医疗多任务场景下的高效适配。
研究流程与方法
1. 问题定义与框架设计
- 任务形式化:将医疗任务(如实体识别、诊断分类)转化为LLM可处理的文本生成任务,通过模板(prompt)统一输入输出格式(如图2示例)。
- 框架核心:提出MoELora,融合LoRA(Low-Rank Adaptation)和MoE:
- LoRA:仅微调低秩矩阵(low-rank matrices),冻结原始LLM参数,降低计算成本。
- MoE:设计多个专家(experts),每个专家由一对低秩矩阵组成,学习任务特定知识。
- 任务驱动门控函数(Task-Motivated Gate):根据任务ID动态分配专家权重,生成任务专属参数。
2. 实验设置
- 数据集:使用中文医疗多任务数据集PromptCBLUE(涵盖8类任务,如实体识别、药物推荐等),样本量从1,562至4,935不等(表1)。
- 基线模型:对比包括:
- 无微调LLM(ChatGPT、Huatuo)
- 参数高效微调方法(P-tuning、LoRA全任务/单任务、Task-Arithmetic等)
- 跨任务泛化方法(LoraHub、MoLoRA)
- 评估指标:根据任务类型采用Micro-F1(多类别)、Macro-F1(少类别)或ROUGE-L(文本生成)。
3. 模型实现细节
- 基础模型:开源中文LLM ChatGLM-6B。
- 微调层:注意力层的query/key/value及前馈网络(FFN)插入MoELora层。
- 超参数:专家数𝑁=8,LoRA秩𝑟=16,批量大小64,训练步数8,000。
4. 数据分析方法
- 多任务联合训练:混合所有任务数据,通过门控函数动态分配专家。
- 参数恢复:推理时根据任务ID生成专属参数,避免实时计算门控权重(降低延迟)。
主要结果
性能对比(表2):
- MoELora在多数任务上超越基线,平均得分0.6236(密集门控)和0.6204(稀疏门控),显著优于LoRA全任务(0.6155)和单任务(0.6138)。
- 任务特异性优势:在数据量少的任务(如CHIP-CDeE)上表现突出,验证其对数据不平衡的鲁棒性。
消融实验(表3):
- 移除MoE或门控导致性能下降(分别降低0.8%和0.6%),证实二者必要性。
- 多门控设计(每层独立门控)参数量增加但性能提升有限,支持单门控的高效性。
超参数分析(图4):
- 专家数𝑁=8时性能最优,过多专家(𝑁=16)因低秩矩阵过小导致知识捕获能力下降。
- LoRA秩𝑟=16平衡效率与效果,进一步增加𝑟提升有限但增加计算成本。
效率分析(图5):
- 训练成本:仅微调0.48%参数量,与LoRA相当。
- 推理延迟:通过参数恢复避免实时门控计算,与LoRA全任务持平,显著优于动态门控的MoLoRA。
结论与价值
科学价值:
- 首次提出多任务参数高效微调框架MoELora,为LLM在医疗领域的应用提供新范式。
- 验证任务驱动门控在参数分配中的有效性,解决数据不平衡与任务冲突问题。
应用价值:
- 可扩展至其他垂直领域(如法律、金融),适配多任务场景。
- 开源代码(GitHub)促进社区研究。
研究亮点
方法创新:
- MoE与LoRA的融合:通过低秩专家矩阵实现参数高效与多任务学习的统一。
- 任务门控设计:首次将任务ID(而非输入文本)作为门控输入,确保参数可恢复性。
实验贡献:
- 构建首个中文医疗多任务评测基准(PromptCBLUE)的完整实验分析。
- 揭示专家数与秩的权衡关系,为后续研究提供调参指导。
效率突破:
其他有价值内容
- 稀疏门控探索:稀疏门控(Top-𝐾专家)在部分任务上表现更优,但密集门控更适合医疗知识共享需求。
- 医疗任务适配:通过模板化设计(如指令微调)统一异构任务,为LLM医疗应用提供标准化流程。
(报告总字数:约1,800字)