大规模机器学习研究集群中的可靠性问题再探讨

分享自：
大规模机器学习研究集群中的可靠性问题再探讨

期刊:2025 IEEE International Symposium on High Performance Computer Architecture (HPCA)DOI:10.1109/HPCA61900.2025.00096
这篇文档属于类型a，是一篇关于大规模机器学习研究集群可靠性研究的原创性学术论文。以下是对该研究的全面报告：
作者及发表信息本研究由Meta公司的Apostolos Kokolis、Michael Kuchnik（共同一作）、John Hoffman等10位研究者合作完成，发表于2025年IEEE International Symposium on High-Performance Computer Architecture (HPCA)，会议论文编号10.1109/HPCA61900.2025.00096。
学术背景研究领域：计算机系统与人工智能基础设施，聚焦于大规模机器学习（ML）训练集群的可靠性问题。
 研究动机：随着ML模型规模（如LLM）和训练集群的扩展（如Meta的24,000 GPU集群），硬件故障、软件错误和网络问题导致的作业中断成为制约训练效率的关键瓶颈。传统可靠性研究未充分覆盖超大规模（10^5 GPU级别）多租户ML集群的独特挑战。
 研究目标：提出一种系统化的可靠性评估框架，量化故障影响，设计缓解策略，并为未来超算集群的容错设计提供指导。
研究流程与方法1. 数据收集与集群架构分析研究对象：Meta的两个ML研究集群RSC-1（16,000 A100 GPU）和RSC-2（8,000 A100 GPU），覆盖11个月、400万次作业和1.5亿GPU小时的运行数据。
 
基础设施：
 调度系统：基于SLURM的抢占式调度，支持Gang Scheduling（全资源协同分配）和自动故障重启。
 
网络拓扑：采用Rail-Optimized InfiniBand后端网络，支持3D Torus拓扑和自适应路由（Adaptive Routing, AR）。
 
存储设计：提供POSIX兼容的NFS、高性能缓存服务AirStore和对象存储ObjectStore，支持检查点（Checkpointing）容错。
 
健康检查机制：开发了覆盖GPU（如XID错误）、PCIe、IB链路等硬件层的多级健康检查（每5分钟一次），区分高/低优先级故障。
2. 故障分类与量化故障分类法（Taxonomy）：将故障归因于三大领域（用户程序、系统软件、硬件），并通过症状-原因映射表（如NCCL超时可能由网络死锁或软件死锁引发）实现差异化诊断。
 
关键指标：
 MTTF（Mean Time To Failure）：基于伽马分布拟合不同GPU规模作业的故障间隔时间。
 
ETTR（Effective Training Time Ratio）：定义作业有效训练时间与总挂钟时间的比值，建模检查点开销（∆t_cp）、重启延迟（u0）和队列时间（q）的影响。
 
数据分析：使用启发式规则关联健康检查事件与作业失败（如10分钟内发生的硬件错误标记为根因）。
3. 缓解策略验证柠檬节点（Lemon Node）检测：通过历史信号（如单节点故障率、XID错误计数）构建分类模型，主动隔离故障率高于平均的节点，实验显示减少10%的大规模作业失败。
 
自适应路由优化：在IB网络中启用AR功能，实验显示在模拟链路错误（BER注入）下，512-GPU作业的All-Reduce带宽损失从50%降至10%。
4. 模型与预测ETTR理论模型：推导近似公式 ( E[ETTR] \approx 1 - n_{\text{nodes}} r_f (u0 + q + \Delta t{\text{cp}}/2) )，与蒙特卡洛模拟误差%。
 
规模扩展预测：基于RSC-1数据预测13万GPU作业的MTTF将降至0.23小时，需将检查点开销压缩至10秒级以维持ETTR>0.9。
主要结果故障分布：
硬件故障仅影响0.2%作业，但消耗19%的GPU运行时（图3）。IB链路、GPU内存错误和文件系统挂载是主要故障源（图4）。
 
MTTF随GPU规模呈反比下降：1024-GPU作业的MTTF为7.9小时，显著低于8-GPU作业的47.7天（图7）。
 
作业多样性：
1-GPU作业占比40%但仅消耗<10%资源，而256+ GPU作业（占总量%）消耗66%资源（图6），凸显多目标调度必要性。
 
缓解效果：
柠檬节点检测提升大规模作业（512+ GPU）完成率30%。
 
AR技术将网络拥塞时的性能波动降低70%（图12）。
 
ETTR实证：
RSC-1的4096-GPU作业实测ETTR达0.9（假设检查点间隔按Daly-Young最优公式 ( \Delta t{\text{cp}}^* = \sqrt{2 u{\text{cp}} / (n_{\text{nodes}} r_f)} ) 设置），但12k-GPU作业需将集群故障率从6.5/千节点·天降至1以下（图10）。
结论与价值科学价值：
 - 首次系统性量化超大规模ML集群的可靠性特性，提出可推广的ETTR模型和MTTF预测方法。
 - 揭示“小作业主导数量、大作业主导资源”的集群负载特性，挑战传统LLM专用集群的设计假设。
应用价值：
 - 健康检查与柠檬节点检测机制已被Meta生产集群采用，减少故障恢复时间。
 - 为未来GB200等“以机柜为修复单元”的硬件设计提供容错优化依据。
研究亮点规模突破：首次分析10^5 GPU级别的ML集群可靠性，数据量远超此前研究（如IBM的千GPU级分析）。
 
方法论创新：
 提出ETTR作为跨作业可比性指标，优于传统MFU（Model FLOPS Utilization）。
 
开发动态故障分类法，解决NCCL超时等多因关联问题。
 
实战经验：涵盖从硬件（如IB链路纠错）到调度策略（如优先级与容错协同）的全栈优化。
其他价值开源工具：健康检查规则和SLURM插件已通过Meta内部平台共享，推动行业标准制定。
 
跨领域启示：对HPC（高性能计算）领域的故障预测（如故障率季节性波动，图5）和联邦学习异步训练有借鉴意义。
 
（报告字数：约2000字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问