低精度大语言模型训练中的微缩放格式实证研究

分享自：
低精度大语言模型训练中的微缩放格式实证研究

期刊:2025 IEEE 32nd Symposium on Computer Arithmetic (ARITH)DOI:10.1109/ARITH64983.2025.00011
本文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
主要作者及研究机构
 本研究的主要作者包括Hanmei Yang、Summer Deng、Amit Nagpal、Maxim Naumov、Mohammad Janani、Tongping Liu和Hui Guan。研究机构为Meta和University of Massachusetts Amherst。该研究发表于2025年的IEEE 32nd Symposium on Computer Arithmetic (ARITH)会议。
学术背景
 本研究的主要科学领域为自然语言处理（Natural Language Processing, NLP）中的大语言模型（Large Language Models, LLMs）训练优化。随着LLMs在机器翻译、对话系统和文本摘要等任务中取得显著进展，其训练和推理所需的计算和内存资源也大幅增加，成为高效训练的主要挑战。量化技术（Quantization）通过降低数值精度来提高效率，已成为解决这一问题的关键方法。然而，目前尚不确定是否可以将精度进一步降低至4位（4-bit）而不影响模型收敛或质量。微缩放（Microscaling, MX）格式通过在小规模元素组中共享缩放因子，在降低精度的同时保留较宽的数值范围，为低精度训练提供了新的方向。本研究旨在系统评估MX量化在LLMs预训练中的应用，探索其设计参数对数值精度和训练稳定性的影响，并为低精度LLM训练提供优化配置。
研究流程
 本研究分为以下几个主要步骤：
 1. MX量化工作流设计：研究首先设计了一个MX量化工作流，应用于LLaMA模型的所有线性模块，包括注意力层中的QKV和输出投影，以及多层感知机（MLP）中的全连接层。其他层则保持默认的BF16精度。为确保数值稳定性，工作流采用混合精度训练，优化器使用高精度权重副本（FP32或BF16），并通过FSDP（Fully Sharded Data Parallel）将模型参数分布到多个GPU上以减少内存开销。由于现有硬件尚未支持MX格式，研究通过模拟量化（Fake Quantization）实现MX格式的数值研究。
 2. 性能分析：研究利用性能预测框架模拟了LLM训练的端到端性能，基于现有硬件的经验数据估计MXFP4和MXFP6的Gemm（General Matrix Multiplication）内核性能。通过比较不同量化配置的运行时分解，评估MX格式的潜在性能优势。
 3. 设计选择研究：研究系统探索了MX量化的关键设计参数，包括数据类型、舍入模式、缩放策略、粒度和组织方式。通过实验分析了这些参数对训练损失和数值精度的影响，并提出了优化配置。
 4. 实验结果验证：研究在LLaMA3 7B模型上进行了大量实验，验证了不同MX配置的训练效果，并比较了其与FP8和BF16基线的性能差异。
主要结果
 1. MX量化工作流：研究成功设计并实现了MX量化工作流，验证了其在现有硬件上的可行性。通过模拟量化，研究初步评估了MX格式的数值特性，并确认了其与真实MX计算的一致性。
 2. 性能分析：研究结果表明，MX4配置在4位量化中实现了最高的加速比（2.73倍），而MX6 W-A MX4 G配置在精度和性能之间取得了平衡（2.31倍加速比）。FP8配置作为基线，实现了1.72倍的加速比。
 3. 设计选择研究：研究发现，E2M1数据类型在Even舍入模式下表现最佳，而E3M0数据类型仅在与Ceil舍入模式结合时适用于梯度量化。随机舍入（Stochastic Rounding, SR）在梯度量化中表现优异，而RTNE（Round to Nearest, Ties to Even）适用于权重和激活量化。非对称缩放（Asymmetric Scaling）显著提高了INT4量化的精度，而对E2M1的改进较小。
 4. 实验结果验证：研究验证了4位MX量化在LLaMA3 7B模型上的有效性，发现精心选择的配置可以接近FP8和BF16基线的训练损失性能。然而，在从预训练检查点继续训练时，纯4位配置难以保持精度，而混合4位和6位量化提供了更稳定的解决方案。
结论
 本研究首次全面评估了MX量化在LLM训练中的应用，系统探索了其设计参数，并总结了以下关键发现：
 1. E2M1数据类型在Even舍入模式下表现最佳，而E3M0仅在与Ceil舍入模式结合时适用于梯度量化。
 2. 随机舍入（SR）在梯度量化中至关重要，而RTNE适用于权重和激活量化。
 3. 非对称缩放显著提高了INT4量化的精度，而对E2M1的改进较小。
 4. 减少块大小（Block Size）可以提高量化精度，其中INT4在非对称缩放下受益最大。
 5. 列式块（Column-wise Blocks）显著提升了激活量化，而2D块在精度和效率之间取得了平衡。
 6. 精心选择的4位配置在从头训练时能够接近FP8和BF16基线的性能，但在从预训练检查点继续训练时，混合4位和6位量化更为稳定。
 这些发现展示了低精度格式在LLM训练中的潜力，强调了数据感知和阶段特定量化配置的必要性。
研究亮点
 1. 首次全面评估了MX量化在LLM训练中的应用，填补了该领域的研究空白。
 2. 提出了优化MX量化的关键设计参数，包括数据类型、舍入模式、缩放策略、粒度和组织方式。
 3. 验证了4位MX量化在LLM训练中的可行性，并提出了混合4位和6位量化的优化方案。
 4. 通过实验验证了MX量化在现有硬件上的性能潜力，为未来硬件和软件的协同设计提供了重要指导。
其他有价值的内容
 研究还探讨了MX量化在通信开销方面的潜在优势，指出MX格式通过减少消息大小可以显著提高大规模模型训练中的GPU间通信效率。此外，研究提出了基于R-MSE（Rooted Mean Squared Error）的量化效果评估方法，为系统探索MX量化设计空间提供了高效可靠的指标。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问