分享自:

基于双动量专家混合的多模态大语言模型持续视觉问答增强方法

期刊:CVPR

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


华东师范大学计算机科学与技术学院Tianyu Huai、Jie Zhou*、Xingjiao Wu等团队在CVPR(计算机视觉与模式识别会议)上发表了题为《CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering》的研究论文。该研究针对多模态大语言模型(Multimodal Large Language Models, MLLMs)在持续学习(Continual Learning)中的灾难性遗忘(Catastrophic Forgetting)问题,提出了一种基于双动量混合专家(Dual Momentum Mixture-of-Experts, CL-MoE)的创新框架,显著提升了模型在持续视觉问答(VQA)任务中的性能。

学术背景

多模态大语言模型(MLLMs)因其在视觉语言任务(如视觉问答)中的卓越理解和生成能力受到广泛关注。然而,现实世界中知识的快速更新使得离线训练的MLLMs成本高昂,且在非稳态数据流中面临灾难性遗忘问题。传统持续学习方法(如正则化或回放策略)在MLLMs上的直接应用效果有限,尤其是当任务需要结合丰富的常识知识时。本研究旨在通过结合混合专家(MoE)架构与动态动量更新策略,解决MLLMs在持续学习中的知识保留与新知识吸收问题。

研究流程与方法

研究分为以下核心步骤:

  1. 问题定义与任务划分

    • 研究聚焦持续视觉问答(VQA)任务,将VQA v2数据集按问题类型划分为10个子任务(如识别、位置、判断等),每个任务包含图像-问题-答案三元组。模型需按任务顺序训练,测试时需在不告知任务标识的情况下预测答案。
  2. 双路由器混合专家(RMoE)设计

    • 实例级路由器(Instance-level Router):基于输入表征动态分配专家权重,通过Softmax函数计算专家贡献(公式1)。
    • 任务级路由器(Task-level Router):通过聚类任务描述文本生成任务标识,并计算专家对任务的平均贡献权重(公式6)。
    • 双权重融合:结合实例级与任务级路由器的输出(权重平衡超参数β=0.5),生成综合表征(公式9),确保模型同时考虑局部实例特征和全局任务需求。
  3. 动态动量专家更新(MMoE)

    • 专家分类:根据任务级路由器选出的Top-k专家,将其分为任务共享专家(贡献于当前和历史任务)、任务特定专家(仅贡献于当前任务)和其他专家。
    • 动量更新策略:对共享专家以历史参数为主(γ=0.7),对特定专家以新参数为主,动态调整专家参数(公式12),平衡知识保留与新知识吸收。
  4. 实验设置与基线对比

    • 模型选择:以LLaVA-7B为基座MLLM,采用LoRA(Low-Rank Adaptation)降低训练成本。
    • 评估指标:最终平均性能(AP)和平均遗忘率(AF),对比了EWC、MAS、ER、DER等基线方法。
    • 超参数优化:通过消融实验验证了专家数量(n=8)、Top-k值(k=2)和动量权重(γ=0.7)的最优性。

主要结果

  1. 性能提升:CL-MoE在VQA v2的10个任务上AP达51.34%,AF为-0.02%(负值表明模型对历史任务的性能甚至优于原始微调结果),显著优于基线方法(如VQACL的AP 43.49%)。
  2. 抗遗忘能力:动态动量更新使任务共享专家的参数稳定性提升30%,任务特定专家的新知识吸收效率提高20%。
  3. 任务顺序鲁棒性:在反向任务顺序测试中,AP进一步提升至57.08%,表明模型对任务依赖关系具有强适应性。

结论与价值

  1. 科学价值
    • 首次将MoE架构与持续学习结合,提出任务-实例双路由机制,为MLLMs的持续学习提供了可解释性框架。
    • 动态动量更新策略解决了传统方法中知识固化与灵活性之间的矛盾。
  2. 应用价值
    • 可扩展至其他多模态持续学习场景(如视频描述、跨模态检索),降低模型重复训练成本。
    • 开源代码与模块化设计便于工业界部署。

研究亮点

  1. 方法创新:双路由器MoE与动态动量更新的结合是持续学习领域的首创。
  2. 性能突破:在AF指标上实现负值,证明模型具备逆向迁移能力(Backward Transfer)。
  3. 资源效率:仅需8个专家和5000样本的内存库,即达到接近多任务联合训练(Multitask Upper Bound)的效果。

其他发现

  • 超参数敏感性分析:β=0.5时双路由器融合效果最优,过高或过低均会导致性能下降约10%。
  • 专家冗余性测试:专家数量超过8个后性能提升边际效益显著降低,验证了资源分配的合理性。

该研究为多模态大模型的持续学习提供了理论框架与实用工具,未来可进一步探索其在开放域问答与动态环境交互中的应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com