分享自:

基于高效基础的有效训练:利用结构化前馈层训练大型语言模型

期刊:38th conference on neural information processing systems (NeurIPS 2024)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


高效基础构建:利用结构化前馈层有效训练大语言模型

作者与机构
本研究由Xiuying Wei(EPFL, Claire实验室)、Skander Moalla(EPFL, Claire实验室)、Razvan Pascanu(Google DeepMind)和Caglar Gulcehre(EPFL, Claire实验室)合作完成,发表于第38届NeurIPS(2024)。

学术背景
大语言模型(LLMs)的性能提升通常依赖于模型规模的扩大,但随之而来的是高昂的计算成本。因此,如何在减少参数数量和计算开销的同时保持模型性能成为研究热点。本研究聚焦于基于Transformer架构的LLMs,尤其针对计算密集型的前馈网络(Feedforward Networks, FFNs)进行优化。FFNs在模型中占比超过60%的参数和浮点运算量(FLOPs),但其效率优化远不如注意力机制(attention blocks)研究充分。

研究团队提出三种结构化线性参数化方法(低秩矩阵、块对角矩阵及其组合),从训练初始阶段(training-from-scratch)探索这些结构的有效性,并将模型规模扩展至13亿参数。研究目标包括:
1. 验证结构化矩阵在预训练中的计算效率优势;
2. 提出“自引导训练”(self-guided training)方法以解决结构化矩阵的优化难题;
3. 分析结构化模型在训练计算量和模型规模扩展中的表现。

研究流程与方法
1. 结构化参数化设计
- 低秩矩阵(LowRank):将传统线性层分解为两个低秩矩阵 ( U_r \in \mathbb{R}^{m \times r} ) 和 ( V_r \in \mathbb{R}^{r \times n} ),参数量从 ( m \cdot n ) 降至 ( (m+n) \cdot r )。
- 块混洗矩阵(BlockShuffle):通过两个块对角矩阵和混洗操作(shuffle)实现特征混合,参数量减少至 ( \min(n,m) \cdot (m+n)/b ),其中 ( b ) 为块数量。
- 块稠密矩阵(BlockDense):结合块对角矩阵与低秩/稠密矩阵,参数量为 ( r \cdot (m+n/b) )。

  1. 在线解码效率优化
    针对小批量在线解码场景的并行性限制,提出“预合并技术”(pre-merge technique),将结构化矩阵动态合并为稠密矩阵以恢复计算效率。

  2. 自引导训练方法
    为解决结构化矩阵训练中的梯度不稳定问题,引入残差分支:
    [ o = \alpha \cdot Wx + (1-\alpha) \cdot U(Vx) ]
    其中 ( \alpha ) 按余弦调度衰减,初始时 ( W = UV )。通过随机采样(式2)减少计算开销,仅增加25%的FLOPs。

  3. 实验设置

    • 模型架构:基于Transformer,使用旋转位置编码(rotary positional embeddings)和Llama分词器,测试规模从1.1亿到13亿参数。
    • 数据集:RefinedWeb(600B tokens),验证集为0.5B tokens。
    • 训练配置:遵循Chinchilla缩放定律,使用A100 GPU和混合精度(bfloat16/float32)。

主要结果
1. 计算效率提升
- 在30k tokens的批量下,低秩和块稠密矩阵分别实现1.4×和2.5×加速(FFN参数保留32%时)。
- 13亿参数模型中,低秩结构(32%参数)训练速度提升1.35×,困惑度(perplexity)仅增加1.1(表2)。

  1. 缩放性能优势

    • 结构化矩阵的损失缩放曲线比稠密模型更陡峭(图1)。例如,在相同FLOPs下,宽结构网络(wide and structured)参数量从7.29亿降至4.64亿,吞吐量提升17%,且困惑度更低(表1)。
    • 在300B tokens的过训练(overtraining) regime中,结构化模型在下游任务(如PIQA、HellaSwag)上表现优于稠密模型(图5)。
  2. 自引导训练效果
    该方法将低秩模型的困惑度差距从1.3缩小至0.4,且不影响推理速度(表3)。例如,在Transformer-XL上,低秩结构(32%参数)的困惑度从13.55降至12.86(表9)。

结论与价值
本研究首次系统探索了结构化矩阵在大规模LLM训练中的应用,揭示了其在计算效率、参数利用和扩展性上的优势。科学价值包括:
1. 为高效NLP架构设计提供了新思路;
2. 提出的自引导训练方法可泛化至其他结构化参数化场景;
3. 证明了宽结构网络在过训练 regime中的潜力。
应用价值体现在:结构化FFNs可实际减少训练成本(如15%时间节省)并提升推理速度(如2.6×加速)。

研究亮点
1. 创新方法:首次将低秩/块对角矩阵用于LLM的从头训练,并提出动态合并与自引导训练技术。
2. 规模验证:实验覆盖1.1B参数模型,远超以往卷积架构的研究(如Dao et al., 2022)。
3. 可复现性:代码开源(GitHub仓库:claire-labo/structuredffn)。

其他发现
- 块对角矩阵在视觉任务(如CIFAR-10)中表现更优(表7),因其局部性偏好与图像数据特性契合。
- 梯度分析(附录B.2)表明,结构化矩阵的更新受 ( UU^\top ) 和 ( V^\top V ) 的谱范数影响,解释了训练不稳定性(图13)。


此报告完整涵盖了研究的背景、方法、结果与意义,并突出了其创新性和实际应用潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com