当MOE遇见LLMs：多任务医学应用中的参数高效微调

分享自：
当MOE遇见LLMs：多任务医学应用中的参数高效微调

期刊:Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24)DOI:10.1145/3626772.3657722
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a（单篇原创研究论文），以下是详细的学术报告：
作者及机构本研究由以下学者合作完成：
 - Qidong Liu（西安交通大学 & 香港城市大学）
 - Xian Wu（腾讯优图实验室Jarvis研究中心）
 - Xiangyu Zhao（香港城市大学）
 - Yuanshao Zhu（南方科技大学 & 香港城市大学）
 - Derong Xu（中国科学技术大学 & 香港城市大学）
 - Feng Tian（西安交通大学）
 - Yefeng Zheng（腾讯优图实验室Jarvis研究中心）
 论文发表于SIGIR ‘24（第47届国际ACM SIGIR信息检索研究与发展会议），会议时间为2024年7月14日至18日，美国华盛顿特区。
学术背景研究领域：本研究属于自然语言处理（NLP）与医疗人工智能的交叉领域，聚焦于大型语言模型（LLM, Large Language Model）在医疗多任务场景中的高效微调（fine-tuning）问题。
研究动机：
 1. 任务多样性问题：现实医疗场景中，LLM需处理多种任务（如疾病诊断预测、药物推荐、临床报告生成等），但传统微调方法因数据不平衡（data imbalance）和任务冲突（seesaw problem）导致性能下降。
 2. 高昂微调成本：LLM参数量庞大（如百亿级），全参数微调（full fine-tuning）的时间和计算资源消耗极高。
目标：提出一种参数高效微调框架（Parameter Efficient Fine-Tuning, PEFT），结合混合专家（Mixture-of-Experts, MoE）和多任务学习优势，实现医疗多任务场景下的高效适配。
研究流程与方法1. 问题定义与框架设计任务形式化：将医疗任务（如实体识别、诊断分类）转化为LLM可处理的文本生成任务，通过模板（prompt）统一输入输出格式（如图2示例）。
 
框架核心：提出MoELora，融合LoRA（Low-Rank Adaptation）和MoE：
 LoRA：仅微调低秩矩阵（low-rank matrices），冻结原始LLM参数，降低计算成本。
 
MoE：设计多个专家（experts），每个专家由一对低秩矩阵组成，学习任务特定知识。
 
任务驱动门控函数（Task-Motivated Gate）：根据任务ID动态分配专家权重，生成任务专属参数。
 
2. 实验设置数据集：使用中文医疗多任务数据集PromptCBLUE（涵盖8类任务，如实体识别、药物推荐等），样本量从1,562至4,935不等（表1）。
 
基线模型：对比包括：
 无微调LLM（ChatGPT、Huatuo）
 
参数高效微调方法（P-tuning、LoRA全任务/单任务、Task-Arithmetic等）
 
跨任务泛化方法（LoraHub、MoLoRA）
 
评估指标：根据任务类型采用Micro-F1（多类别）、Macro-F1（少类别）或ROUGE-L（文本生成）。
 
3. 模型实现细节基础模型：开源中文LLM ChatGLM-6B。
 
微调层：注意力层的query/key/value及前馈网络（FFN）插入MoELora层。
 
超参数：专家数𝑁=8，LoRA秩𝑟=16，批量大小64，训练步数8,000。
 
4. 数据分析方法多任务联合训练：混合所有任务数据，通过门控函数动态分配专家。
 
参数恢复：推理时根据任务ID生成专属参数，避免实时计算门控权重（降低延迟）。
 
主要结果性能对比（表2）：
MoELora在多数任务上超越基线，平均得分0.6236（密集门控）和0.6204（稀疏门控），显著优于LoRA全任务（0.6155）和单任务（0.6138）。
 
任务特异性优势：在数据量少的任务（如CHIP-CDeE）上表现突出，验证其对数据不平衡的鲁棒性。
 
消融实验（表3）：
移除MoE或门控导致性能下降（分别降低0.8%和0.6%），证实二者必要性。
 
多门控设计（每层独立门控）参数量增加但性能提升有限，支持单门控的高效性。
 
超参数分析（图4）：
专家数𝑁=8时性能最优，过多专家（𝑁=16）因低秩矩阵过小导致知识捕获能力下降。
 
LoRA秩𝑟=16平衡效率与效果，进一步增加𝑟提升有限但增加计算成本。
 
效率分析（图5）：
训练成本：仅微调0.48%参数量，与LoRA相当。
 
推理延迟：通过参数恢复避免实时门控计算，与LoRA全任务持平，显著优于动态门控的MoLoRA。
 
结论与价值科学价值：
首次提出多任务参数高效微调框架MoELora，为LLM在医疗领域的应用提供新范式。
 
验证任务驱动门控在参数分配中的有效性，解决数据不平衡与任务冲突问题。
 
应用价值：
可扩展至其他垂直领域（如法律、金融），适配多任务场景。
 
开源代码（GitHub）促进社区研究。
 
研究亮点方法创新：
MoE与LoRA的融合：通过低秩专家矩阵实现参数高效与多任务学习的统一。
 
任务门控设计：首次将任务ID（而非输入文本）作为门控输入，确保参数可恢复性。
 
实验贡献：
构建首个中文医疗多任务评测基准（PromptCBLUE）的完整实验分析。
 
揭示专家数与秩的权衡关系，为后续研究提供调参指导。
 
效率突破：
推理阶段无额外计算开销，适合实际部署。
 
其他有价值内容稀疏门控探索：稀疏门控（Top-𝐾专家）在部分任务上表现更优，但密集门控更适合医疗知识共享需求。
 
医疗任务适配：通过模板化设计（如指令微调）统一异构任务，为LLM医疗应用提供标准化流程。
 
（报告总字数：约1,800字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问