分享自:

大规模机器学习研究集群中的可靠性问题再探讨

期刊:2025 IEEE International Symposium on High Performance Computer Architecture (HPCA)DOI:10.1109/HPCA61900.2025.00096

这篇文档属于类型a,是一篇关于大规模机器学习研究集群可靠性研究的原创性学术论文。以下是对该研究的全面报告:


作者及发表信息

本研究由Meta公司的Apostolos Kokolis、Michael Kuchnik(共同一作)、John Hoffman等10位研究者合作完成,发表于2025年IEEE International Symposium on High-Performance Computer Architecture (HPCA),会议论文编号10.1109/HPCA61900.2025.00096。


学术背景

研究领域:计算机系统与人工智能基础设施,聚焦于大规模机器学习(ML)训练集群的可靠性问题。
研究动机:随着ML模型规模(如LLM)和训练集群的扩展(如Meta的24,000 GPU集群),硬件故障、软件错误和网络问题导致的作业中断成为制约训练效率的关键瓶颈。传统可靠性研究未充分覆盖超大规模(10^5 GPU级别)多租户ML集群的独特挑战。
研究目标:提出一种系统化的可靠性评估框架,量化故障影响,设计缓解策略,并为未来超算集群的容错设计提供指导。


研究流程与方法

1. 数据收集与集群架构分析

  • 研究对象:Meta的两个ML研究集群RSC-1(16,000 A100 GPU)和RSC-2(8,000 A100 GPU),覆盖11个月、400万次作业和1.5亿GPU小时的运行数据。
  • 基础设施
    • 调度系统:基于SLURM的抢占式调度,支持Gang Scheduling(全资源协同分配)和自动故障重启。
    • 网络拓扑:采用Rail-Optimized InfiniBand后端网络,支持3D Torus拓扑和自适应路由(Adaptive Routing, AR)。
    • 存储设计:提供POSIX兼容的NFS、高性能缓存服务AirStore和对象存储ObjectStore,支持检查点(Checkpointing)容错。
  • 健康检查机制:开发了覆盖GPU(如XID错误)、PCIe、IB链路等硬件层的多级健康检查(每5分钟一次),区分高/低优先级故障。

2. 故障分类与量化

  • 故障分类法(Taxonomy):将故障归因于三大领域(用户程序、系统软件、硬件),并通过症状-原因映射表(如NCCL超时可能由网络死锁或软件死锁引发)实现差异化诊断。
  • 关键指标
    • MTTF(Mean Time To Failure):基于伽马分布拟合不同GPU规模作业的故障间隔时间。
    • ETTR(Effective Training Time Ratio):定义作业有效训练时间与总挂钟时间的比值,建模检查点开销(∆t_cp)、重启延迟(u0)和队列时间(q)的影响。
  • 数据分析:使用启发式规则关联健康检查事件与作业失败(如10分钟内发生的硬件错误标记为根因)。

3. 缓解策略验证

  • 柠檬节点(Lemon Node)检测:通过历史信号(如单节点故障率、XID错误计数)构建分类模型,主动隔离故障率高于平均的节点,实验显示减少10%的大规模作业失败。
  • 自适应路由优化:在IB网络中启用AR功能,实验显示在模拟链路错误(BER注入)下,512-GPU作业的All-Reduce带宽损失从50%降至10%。

4. 模型与预测

  • ETTR理论模型:推导近似公式 ( E[ETTR] \approx 1 - n_{\text{nodes}} r_f (u0 + q + \Delta t{\text{cp}}/2) ),与蒙特卡洛模拟误差%。
  • 规模扩展预测:基于RSC-1数据预测13万GPU作业的MTTF将降至0.23小时,需将检查点开销压缩至10秒级以维持ETTR>0.9。

主要结果

  1. 故障分布

    • 硬件故障仅影响0.2%作业,但消耗19%的GPU运行时(图3)。IB链路、GPU内存错误和文件系统挂载是主要故障源(图4)。
    • MTTF随GPU规模呈反比下降:1024-GPU作业的MTTF为7.9小时,显著低于8-GPU作业的47.7天(图7)。
  2. 作业多样性

    • 1-GPU作业占比40%但仅消耗<10%资源,而256+ GPU作业(占总量%)消耗66%资源(图6),凸显多目标调度必要性。
  3. 缓解效果

    • 柠檬节点检测提升大规模作业(512+ GPU)完成率30%。
    • AR技术将网络拥塞时的性能波动降低70%(图12)。
  4. ETTR实证

    • RSC-1的4096-GPU作业实测ETTR达0.9(假设检查点间隔按Daly-Young最优公式 ( \Delta t{\text{cp}}^* = \sqrt{2 u{\text{cp}} / (n_{\text{nodes}} r_f)} ) 设置),但12k-GPU作业需将集群故障率从6.5/千节点·天降至1以下(图10)。

结论与价值

科学价值
- 首次系统性量化超大规模ML集群的可靠性特性,提出可推广的ETTR模型和MTTF预测方法。
- 揭示“小作业主导数量、大作业主导资源”的集群负载特性,挑战传统LLM专用集群的设计假设。

应用价值
- 健康检查与柠檬节点检测机制已被Meta生产集群采用,减少故障恢复时间。
- 为未来GB200等“以机柜为修复单元”的硬件设计提供容错优化依据。


研究亮点

  1. 规模突破:首次分析10^5 GPU级别的ML集群可靠性,数据量远超此前研究(如IBM的千GPU级分析)。
  2. 方法论创新
    • 提出ETTR作为跨作业可比性指标,优于传统MFU(Model FLOPS Utilization)。
    • 开发动态故障分类法,解决NCCL超时等多因关联问题。
  3. 实战经验:涵盖从硬件(如IB链路纠错)到调度策略(如优先级与容错协同)的全栈优化。

其他价值

  • 开源工具:健康检查规则和SLURM插件已通过Meta内部平台共享,推动行业标准制定。
  • 跨领域启示:对HPC(高性能计算)领域的故障预测(如故障率季节性波动,图5)和联邦学习异步训练有借鉴意义。

(报告字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com