用于稀疏专家混合模型的灵活可扩展训练系统

分享自：
用于稀疏专家混合模型的灵活可扩展训练系统

期刊:Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS ’25)DOI:10.1145/3669940.3707272
【点击此处】阅读全文、收藏及针对性提问
报告内容第一部分：研究的主要作者及机构，发表时间及期刊信息本文题为“FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models”，其作者包括Xinglin Pan, Wenxiang Lin, Lin Zhang, Shaohuai Shi, Zhenheng Tang, Rui Wang, Bo Li和Xiaowen Chu，分别所属以下机构：香港科技大学（广州）、哈尔滨工业大学（深圳）、香港科技大学等。该研究预计将在2025年的30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS ’25)会议中发表。文章DOI为10.1145⁄3669940.3707272。
第二部分：学术背景及研究目的当前自然语言处理、大规模视觉建模等使用的大型语言模型（LLM, Large Language Models）中，稀疏激活专家混合模型（MoE, Mixture-of-Experts）日益受到关注。MoE技术通过引入稀疏性大幅减少训练开销，同时还能实现非线性模型扩展。例如，Switch Transformer 以15个MoE层（每层包含2048个专家）的方式扩展了模型至1.5万亿参数，优于传统的密集模型。
然而，研究中仍然存在算法与系统层面的两个核心挑战：
算法层面：如何设计更加高效的路由函数（Routing Function）以提高模型的任务泛化能力。
系统层面：现有的MoE训练系统（如Tutle、DeepSpeed-MoE、FlexMoE等）在以下两个方面存在缺陷： 对路由功能支持的局限性，缺乏灵活的扩展能力；
在并行策略的优化上存在不足，在处理复杂并行组合时性能欠佳。
基于此背景，本文提出了FSMoE系统，旨在通过灵活的模块化框架与近似最优的任务调度，提升MoE模型训练的高效性与扩展性。
第三部分：研究设计与方法详述研究设计概述FSMoE包括以下三大核心创新： 1. 模块化设计及统一抽象：对MoE的各个子模块（如Gate、Dispatch、Combine）进行模块化抽象以支持多种组件。 2. 任务调度的优化：提出了适配内节点和跨节点通信与计算任务的流水线调度策略。 3. 自适应梯度分区方法：设计了新的方法以实现梯度聚合的通信与计算完全重叠，减少通信开销。
研究的具体工作流程模块化及非侵入式设计：
 FSMoE将MoE层分为六个独立的子模块，包括Gating Function（路由函数）、数据排序模块（Order/I-Order）、通信分发/合并模块（Dispatch/Combine）以及专家计算模块（Expert）。同时提供了多种hooks机制，用户可以进行灵活的非侵入式自定义扩展。
任务调度优化：
 通过性能模型（Performance Models）预测任务的开销，FSMoE设计了自动化调度策略。调度器分为前端（开发者选择模块接口）和后端（自动优化调度），并支持异构和复杂任务组合的高效执行。
梯度同步优化与分区设计：
 在反向传播中，梯度同步（Gradient-AllReduce）的通信时间通常难以隐藏。为了最大限度地削减这部分开销，FSMoE提出了自适应梯度分区方法，将梯度划分并分布在可重叠的通信/计算过程中。
实验方法与测试平台：
 研究团队在两种GPU集群环境（48 GPUs和32 GPUs）上进行了针对1458种配置的详尽实验，测试了FSMoE在MoE训练的实际性能，包括GPT-2和Mixtral模型。
第四部分：研究主要结果实验性能建模FSMoE使用线性性能模型（包含启动时间和单位处理时间）来精确估算通信与计算任务开销。具体测试包括All-to-All通信（跨节点任务）和Reduce-Scatter等高性能计算任务。结果表明： - 性能模型拟合度相当高，通信任务的拟合度均接近99.999%，说明FSMoE可以有效预测和调优调度参数。
不同调度策略的对比实验针对1458种配置情况（见Table 4），相比Tutle和其改进版本，FSMoE达到了1.18×到1.22×的整体加速。
FSMoE的自适应梯度分区优化进一步展现优势，在训练MoE的GPT2和Mixtral模型时，速度比DeepSpeed-MoE提升了19%至3.01倍。
第五部分：研究结论及意义FSMoE通过模块化设计与近似最优的任务调度，不仅支持对多种MoE路由函数的灵活扩展，同时保证了更高的训练效率及通信性能。这一研究的主要意义包括： - 科学价值：为MoE算法提供了高性能的系统支持，帮助解决深度学习中大规模模型的训练瓶颈。 - 工业应用价值：FSMoE的灵活性与高效性使其适用于多模态、推荐系统、自然语言处理以及计算机视觉等领域中需要高效模型训练的场景。
第六部分：研究亮点技术创新：首次实现内节点与跨节点通信的完全流水线重叠；
适配性：支持当前主流的MoE路由机制，包括GShard、Sigmoid和X-MoE。
广泛实用性：在不同规模的MoE模型（如GPT-2、Mixtral-7B）和多种硬件环境上均展现了显著加速。
第七部分：其他内容未来工作可能包括支持更多类型的深度学习模型，进一步优化输入配置参数的自动化调节机制，以及支持更多复杂并行设置（如更多层数或稀疏级别的调整）。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问