分享自:

Next-GPT: 多模态LLM的任意到任意转换

期刊:Proceedings of the 41st International Conference on Machine Learning

这篇文档属于类型a(单篇原创研究报告)。以下是详细学术报告:


一、作者信息及发表情况

本研究由Shengqiong Wu、Hao Fei、Leigang Qu、Wei Ji(第一单位:新加坡国立大学NExT++研究中心)及Tat-Seng Chua合作完成,发表于Proceedings of the 41st International Conference on Machine Learning (PMLR 235, 2024)


二、学术背景

科学领域与研究动机

本研究属于多模态大语言模型(Multimodal Large Language Models, MM-LLMs)领域。当前MM-LLMs多局限于输入端多模态理解(如BLIP-2、MiniGPT-4等),而缺乏多模态内容生成能力。人类认知与交流的本质是任意模态间自由转换(如图像、视频、音频与文本),因此构建端到端的“Any-to-Any”多模态大语言模型成为实现人类级AI的关键挑战。

目标

提出NExT-GPT模型,实现以下突破:
1. 任意模态输入与输出:支持文本、图像、视频、音频的任意组合;
2. 轻量化训练:仅需调整1%的参数(投影层),低成本扩展新模态;
3. 复杂跨模态语义理解:提出模态切换指令微调(Modality-Switching Instruction Tuning, MoSIT)及高质量数据集。


三、研究流程与方法

1. 系统架构设计

NExT-GPT包含三层结构
- 编码层:使用预训练编码器(如ImageBind统一编码多模态输入),通过投影层将特征映射为LLM可理解的语言化表示。
- LLM核心层:基于Vicuna-7B模型,完成语义推理并生成两类输出:
- 直接文本响应;
- 模态信号令牌(如[imgi][audi]),指示解码层生成特定模态内容。
- 解码层:通过扩散模型(如Stable Diffusion、AudioLDM)生成目标模态内容,输出投影层对齐LLM与解码器特征空间。

2. 轻量化对齐学习

  • 编码侧对齐(LLM-Centric Alignment)
    • 创新点:引入可学习的概念令牌(Concept Tokens),通过分组机制将网格级特征聚合为语义概念令牌,提升LLM对多模态输入的感知精度。
    • 训练数据:基于CC3M(图像-文本)、WebVid-2M(视频-文本)、AudioCaps(音频-文本)配对数据,以“X到文本”生成任务优化投影层。
  • 解码侧对齐(Instruction-Following Alignment)
    • 信号令牌设计:为图像、音频、视频分别设计4/8/24个信号令牌,通过指令控制扩散模型生成内容。
    • 损失函数:包括信号令牌负对数似然、字幕对齐损失(L2距离)、条件隐变量去噪损失。

3. 模态切换指令微调(MoSIT)

  • 数据集构建:人工标注5,000条高质量对话数据,覆盖多模态组合与复杂指令(如跨模态推理、情感交互)。
  • 微调方法:采用LoRA技术,联合优化输入/输出投影层及部分LLM参数,增强指令跟随能力。

四、主要结果

1. 多模态感知能力

  • 图像理解:在Nocaps、Flickr30K等基准上,CIDEr得分达124.9(比EMU提升7.2%);VQA任务(VQAv2)准确率66.7%,超越Flamingo等模型。
  • 视频与音频理解:MSRVTT视频描述任务BLEU-4得分76.2;AudioCaps音频描述任务FAD(Frechet Audio Distance)仅1.68,优于CODI模型。

2. 多模态生成质量

  • 文本到图像生成:在MS COCO上FID(Fréchet Inception Distance)为10.07,优于Stable Diffusion(11.21);
  • 文本到视频生成:CLIP-Sim得分31.97,显着领先ZeroScope(28.90)。

3. 关键发现

  • 信号令牌数量影响:视频需24个令牌(复杂度高),而图像/音频仅需4/8个;
  • 分组机制必要性:直接线性投影导致VQA性能下降2.9%,而分组机制提升语义对齐效果;
  • 端到端优势:人类评估显示,NExT-GPT在指令跟随、生成合理性上比Pipeline系统(如HuggingGPT)高20分(百分制)。

五、结论与价值

  1. 科学价值
    • 首次实现通用Any-to-Any MM-LLM,为多模态统一建模提供新范式;
    • 提出轻量化对齐学习框架,为后续扩展其他模态(如3D、热力图)奠定基础。
  2. 应用价值
    • 支持复杂人机交互(如教育辅助、创意设计);
    • 规避Pipeline系统的误差传播问题,提升生成可靠性。

六、研究亮点

  1. 方法创新
    • 模态信号令牌设计实现动态跨模态控制
    • MoSIT数据集填补跨模态指令微调数据空白。
  2. 技术突破
    • 仅调整1%参数(155M/12.275B),高效兼容现有预训练模型;
    • 分组机制解决网格特征与语言令牌语义鸿沟问题。

七、其他价值


此研究为多模态AGI(通用人工智能)的发展提供了重要技术路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com