分享自:

Jamba:混合Transformer-Mamba语言模型

期刊:ICLR 2025

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


Jamba:混合Transformer-Mamba语言模型的开创性架构

作者与发表信息

本研究由Jamba团队完成,发表于ICLR 2025会议。模型权重已通过Hugging Face平台公开(ai21labs/ai21-jamba-1.5-miniai21labs/ai21-jamba-1.5-large)。


学术背景

研究领域:自然语言处理(NLP)中的大语言模型(LLM)架构设计。
研究动机:传统Transformer架构因长上下文处理时的高内存与计算开销受限,而循环神经网络(RNN)和状态空间模型(SSM)如Mamba虽能缓解此问题,但在训练效率和长距离依赖捕捉上存在不足。
目标:提出一种混合架构Jamba,结合Transformer的注意力机制(attention)与Mamba的序列建模优势,并引入混合专家系统(Mixture of Experts, MoE),以平衡性能、内存占用和计算效率。


研究流程与方法

  1. 架构设计

    • 核心组件
      • Transformer层:处理局部依赖和注意力机制。
      • Mamba层(基于状态空间模型):高效建模长序列。
      • MoE模块:动态激活部分专家以提升模型容量(如Jamba-1.5-large总参数量398B,但激活参数仅94B)。
    • 创新点
      • 分层比例:实验表明注意力层与Mamba层的比例1:7在性能与效率间最优(附录C.1)。
      • 位置编码:Mamba层无需显式位置嵌入(如RoPE),简化了设计(附录C.3)。
  2. 模型配置

    • 两种规模
      • Jamba-1.5-mini:12B激活参数,52B总参数,适配单块80GB GPU。
      • Jamba-1.5-large:94B激活参数,398B总参数,需8块80GB GPU。
    • 关键参数:每块(block)含8层(1:7注意力-Mamba比例),每2层替换为MoE(16专家,每token激活2专家)。
  3. 训练与优化

    • 训练阶段
      1. 预训练:基于多语言数据(英语、西班牙语、阿拉伯语等),上下文长度4k(mini)或8k(large)。
      2. 中期训练:引入长文档以增强长上下文能力。
      3. 后训练:混合指令微调(instruction tuning)与技能专项数据。
    • 稳定化技术
      • RMSNorm:应用于Mamba层以稳定训练(附录C.5)。
      • 激活损失(activation loss):抑制异常激活值(如输出幅度达4×10^6时,通过均方惩罚项控制)。
  4. 推理优化

    • ExpertsInt8量化:将MoE层权重量化为INT8,推理时反量化至BF16,节省内存且无性能损失(H100 GPU上延迟与FP8相当,A100上优于GPTQ)。
    • KV缓存压缩:相比纯Transformer,Jamba的KV缓存减少8倍(256k上下文下仅9GB)。

主要结果

  1. 长上下文性能

    • Ruler基准:Jamba-1.5-large在256k token长度下准确率93.9%,为开源模型中最高(表2)。
    • ∞Bench:在10万token的英文小说理解任务中,Jamba-1.5-large优于Llama-3.1-70B和Mistral-large-2(表3)。
  2. 通用基准

    • MMLU(5-shot):Jamba-1.5-large得分80.0,接近Llama-3.1-70B(83.6)。
    • 代码生成(HumanEval):Jamba-1.5-large pass@1达71.3,显著优于同类模型(表4)。
  3. 效率优势

    • 吞吐量:在256k上下文下,Jamba-1.5-large的吞吐量比Llama-3.1-405B高10倍(图4)。
    • 延迟:2xA100 GPU上,Jamba-1.5-mini的延迟比Mixtral-8x7B低30%(图3)。

结论与价值

  1. 科学价值

    • 首次验证了注意力与SSM混合架构在大规模语言模型中的可行性,揭示了Mamba层在长序列任务中的潜力与局限性(如需依赖注意力层实现上下文学习)。
    • 提出的ExpertsInt8量化技术为MoE模型的高效部署提供了新方案。
  2. 应用价值

    • 长文本处理:支持256k token的工业级应用(如法律文档分析、长对话生成)。
    • 资源优化:在同等性能下,Jamba的内存占用和计算成本显著低于纯Transformer或MoE模型(表1)。

研究亮点

  1. 架构创新:首次将Transformer、Mamba和MoE三者结合,并通过实验验证1:7分层比例的优越性。
  2. 工程突破:ExpertsInt8量化技术实现MoE模型在消费级硬件的低成本部署。
  3. 发现:纯Mamba模型在格式遵循和上下文学习(ICL)上表现较差,而混合架构能弥补此缺陷(附录C.3)。

其他有价值内容

  • 多语言能力:Jamba在西班牙语、阿拉伯语等非英语任务中表现接近专用模型(表6)。
  • 开源贡献:模型权重与量化代码均已公开,推动社区进一步优化混合架构。

(报告字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com