多模态视觉专家混合模型MOVA的突破性研究
作者与发表信息
本研究的核心作者团队由Zhuofan Zong(香港中文大学MMLab)、Bingqi Ma(商汤科技研究院)、Dazhong Shen(上海人工智能实验室)等组成,通讯作者为Hongsheng Li(香港中文大学MMLab/CPII under InnoHK)和Yu Liu(商汤科技研究院)。该研究成果发表于第38届神经信息处理系统会议(NeurIPS 2024),代码与模型已在GitHub开源。
研究背景与目标
在多模态大语言模型(Multimodal Large Language Models, MLLMs)领域,视觉编码器的能力直接影响模型对多样化图像内容的理解。尽管CLIP和DINOv2等大规模预训练视觉编码器已展现出优异性能,但研究发现单一视觉编码器无法在所有图像理解任务中均保持最优表现。例如,CLIP在通用图像理解中表现突出,但在文档或图表解析任务中性能欠佳。
为解决这一问题,研究团队提出MOVA(Mixture Of Vision Experts Adaptation),这是一个通过粗粒度到细粒度机制自适应选择和融合任务特定视觉专家的新型MLLM。其核心目标是通过动态路由和知识融合,突破单一视觉编码器的局限性,提升模型在跨域任务中的泛化能力。
研究方法与流程
1. 视觉专家行为分析与问题诊断
研究首先对7种前沿视觉编码器(包括DINOv2、Co-DETR、SAM等)进行了系统性评估(表1)。关键发现包括:
- 任务特异性偏差:例如DINOv2在视觉定位任务中表现优异(REC 86.1%),但在文本相关任务(DocVQA 14.7%)中表现较差。
- 简单融合的局限性:直接拼接多专家特征会导致性能下降(如Plain Fusion在DocVQA得分为46.5%,低于单一专家Pix2Struct的57.3%)。
这一阶段通过15个跨领域数据集(涵盖图像描述、视觉定位、图表理解等)构建评估基准,采用LLaVA-1.5-7B作为统一框架进行对比实验。
2. 两阶段MOVA架构设计
(1)粗粒度专家路由
- 动态选择机制:利用大语言模型(LLM)的工具使用能力,根据用户指令、输入图像和专家专长,从候选池中选择最相关的1-3个视觉专家。
- 路由数据构建:通过语言建模损失量化专家与任务的匹配度,仅保留能降低损失的专家(如对图表任务选择Deplot和Pix2Struct)。
- 增强鲁棒性:采用ChatGPT重写专家描述、随机打乱专家池等数据增强策略,在仅2k训练样本下实现开放场景92.5%的路由准确率(表10)。
(2)细粒度专家融合(MOV-Adapter)
- 专家知识提取器:采用混合专家(MoE)交叉注意力层,从选定专家的特征中提取任务特定知识。以DINOv2为例,其视觉定位特征通过插值对齐分辨率后,与基础CLIP特征进行注意力交互(公式2)。
- 动态门控网络:基于文本指令(通过BERT提取[CLS]标记)和图像特征的联合表示,生成专家权重(公式3)。在图表理解任务中,Deplot和Pix2Struct可能分别获得0.6和0.4的软权重。
- 层级式融合:3个Transformer块组成的适配器逐步整合知识,最终通过残差块和MLP将2304个图像标记压缩至576个,匹配LLM输入空间。
3. 训练策略
- 预训练阶段:使用1500万跨域样本(包括DataComp-1B图像描述、RefCOCO定位数据等),仅优化MOV-Adapter和基础编码器。
- 监督微调阶段:在LLaVA-665k基础上整合16个VQA数据集(如DocVQA、Slake医学问答),联合训练除专家外的所有组件。
关键实验结果
1. 多模态基准测试(表3)
- 7B模型表现:MOVA-vicuna-7B在MMBench(70.4%)、MathVista(37.6%)等7个基准上超越LLaVA-Next等同类模型,且仅需20%的图像标记计算量。
- 34B模型突破:MOVA-Hermes-Yi-34B在MMBench-CN达到79.0%,超越GPT-4V(74.5%)和Gemini-Pro(74.3%)。
2. 视觉问答任务(表4)
- 文本相关任务:在DocVQA上达到84.2%,显著优于专用模型Pix2Struct-large(76.6%)。
- 医学领域:Slake数据集开放集问答准确率78.2%,较LLaVA-Med提升7.6%(表6)。
3. 视觉定位(表5)
MOVA-34B在RefCOCO+ testA上达到92.53%,超越专用模型UniNext-H(89.63%),证明其细粒度空间理解能力。
创新价值与亮点
科学贡献
- 理论突破:首次系统揭示视觉编码器的领域偏差效应,提出动态路由可缓解偏差的理论框架。
- 方法创新:
- 上下文感知路由:利用LLM的泛化能力实现开放场景专家选择。
- MOV-Adapter:通过MoE注意力与动态门控实现像素级知识融合,在ChartQA任务上较基线提升12.9%。
应用价值
- 医疗诊断:在未针对性训练的情况下,Slake医学VQA准确率接近专用微调模型(78.2% vs 83.1%)。
- 工业文档处理:DocVQA性能超越OCR专用模型,支持多语言文档的端到端理解。
局限性与未来方向
当前模型仍存在幻觉问题(如错误描述图像细节),且依赖专家模型的固有能力。作者计划探索:
1. 专家能力的在线优化机制
2. 基于路由反馈的自动专家扩充
3. 多专家协同的幻觉抑制方法
这项研究为MLLM的视觉理解提供了可扩展的新范式,其代码开源将加速跨模态研究的发展。