分享自:

扩展长短期记忆:XLSTM

期刊:38th conference on neural information processing systems (NeurIPS 2024)

XLSTM:扩展长短期记忆网络的语言建模突破

作者及机构
本研究的核心作者团队来自奥地利林茨约翰内斯开普勒大学(JKU Linz)的LIT AI Lab、NxAI Lab及NxAI GmbH,包括Maximilian Beck、Korbinian Pöppel、Markus Spanring等,其中标注“*equal contribution”的成员为共同第一作者。该研究发表于第38届NeurIPS 2024会议。

学术背景
长短期记忆网络(LSTM)自1990年代提出以来,因其“恒定误差传送带”(constant error carousel)和门控机制(gating)成功解决了循环神经网络(RNN)的梯度消失问题,成为序列建模的核心技术,并催生了首批大语言模型(LLM)。然而,随着Transformer凭借并行化自注意力机制(self-attention)的崛起,LSTM在规模化任务中逐渐被超越。本研究提出一个关键问题:若将LSTM扩展至数十亿参数规模,结合现代LLM技术并克服其固有缺陷,能否在语言建模中重新取得竞争力?

研究目标
XLSTM通过两项核心改进增强传统LSTM:(1)指数门控(exponential gating)结合归一化与稳定化技术;(2)新型记忆结构,包括:
- SLSTM(标量记忆):引入标量更新与记忆混合(memory mixing);
- MLSTM(矩阵记忆):完全并行化的协方差更新规则(covariance update rule)。
通过将二者整合至残差块(residual block)架构,构建XLSTM模块并堆叠为完整模型,旨在性能与扩展性上匹敌Transformer和状态空间模型(SSM)。

研究流程与方法
1. 模型架构设计
- SLSTM模块
- 指数门控:输入门(input gate)和遗忘门(forget gate)采用指数激活函数,通过归一化状态(normalizer state)累计未来遗忘门权重,解决LSTM存储决策不可逆问题(如近邻搜索任务中的误差修正)。
- 记忆混合:支持多头设计(multi-head),允许单元间记忆交互,但禁止头间混合,增强状态跟踪能力。
- MLSTM模块
- 矩阵记忆:将细胞状态从标量扩展为矩阵(( \mathbb{R}^{d×d} )),采用协方差更新规则(( C_t = ft C{t-1} + i_t v_t k_t^\top ))存储键值对(key-value pairs),提升稀有词预测能力。
- 并行化:取消隐藏状态间的递归连接,通过GPU优化实现近似线性计算复杂度。

  1. 合成任务验证

    • 形式语言测试:在状态跟踪任务(如奇偶校验)中,XLSTM[0:1](纯SLSTM)准确率接近1,显著优于无记忆混合的Transformer和SSM,验证指数门控与记忆混合的必要性。
    • 关联召回任务:在扩展版多查询关联召回(multi-query associative recall)中,XLSTM[1:1]对256个键值对的召回准确率超越Mamba和RWKV,接近Transformer黄金标准,证明矩阵记忆的高容量。
  2. 语言建模实验

    • 数据集:使用SlimPajama数据集(15B和300B tokens)训练,评估验证集困惑度(perplexity, PPL)。
    • 对比模型:包括GPT-3、LLaMA、Mamba、RWKV等。结果显示,XLSTM[1:0]和XLSTM[7:1]在15B tokens训练下PPL分别达13.43和13.48,优于所有基线(如Mamba为13.70)。
    • 长上下文扩展:在300B tokens训练后,XLSTM在16k上下文长度下的PPL为8.92,远低于LLaMA(337.83)和Mamba(14.00),展现卓越的序列外推能力。
  3. 下游任务评估

    • 常识推理:在LAMBADA、HellaSwag等任务中,XLSTM平均准确率全面领先。例如,1.3B参数模型在PIQA任务达60.91%,超过Mamba(60.45%)。
    • 领域适应性:在Paloma基准的571个文本域中,XLSTM[1:0]在99.5%的领域PPL低于Mamba,85.1%低于LLaMA。

主要结果与逻辑链条
- 合成任务:证明指数门控解决存储修订问题,矩阵记忆提升容量,二者结合(XLSTM[1:1])在关联召回中表现最佳。
- 语言建模:XLSTM的PPL优势源于并行化MLSTM与记忆混合SLSTM的协同,残差架构进一步优化信息流。
- 下游任务:低PPL直接转化为高准确率,尤其在长上下文和稀有词场景,验证模型的实际泛化能力。

结论与价值
XLSTM首次证明LSTM架构通过指数门控和矩阵记忆的革新,可在大规模语言建模中与Transformer和SSM竞争。其科学价值在于:
1. 理论贡献:提出记忆混合与协方差更新的新范式,扩展了RNN的理论边界。
2. 应用优势:恒定内存与线性计算复杂度(vs Transformer的二次方)适合边缘部署,如工业控制与实时系统。
3. 生态影响:降低长上下文推理能耗,推动绿色AI发展。

研究亮点
- 方法创新:指数门控的归一化稳定技术、MLSTM的并行化矩阵记忆。
- 性能突破:在15B/300B tokens训练下均达SOTA,长上下文外推能力显著。
- 多场景验证:从合成任务到实际语言建模,覆盖全面评估维度。

其他价值
- 开源实现:代码发布于GitHub(nx-ai/xlstm),促进社区复现与改进。
- 局限性与展望:SLSTM的串行性尚存优化空间,未来可通过CUDA内核进一步加速。

(注:全文约2000字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com