分享自:

AutoCCL:加速分布式和并行DNN训练的自动集体通信调优

期刊:22nd USENIX Symposium on Networked Systems Design and Implementation

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


AutoCCL:分布式并行DNN训练中自动化集体通信调优的创新方法

作者与机构
本研究由University of Science and Technology of China(中国科学技术大学)的Guanbin Xu、Zhihao Le、Yinhe Chen、Zhiqi Lin、Zewen Jin和Cheng Li团队,以及Microsoft Research(微软研究院)的Youshan Miao合作完成。论文发表于2025年4月28日至30日举办的第22届USENIX Symposium on Networked Systems Design and Implementation (NSDI),会议地点为美国费城。论文标题为《AutoCCL: Automated Collective Communication Tuning for Accelerating Distributed and Parallel DNN Training》,并已开源实现代码。


学术背景
研究领域与动机
随着深度学习模型规模的扩大,分布式并行训练成为主流,但集体通信(collective communication)(如AllReduce、AllGather等)因频繁的数据同步成为性能瓶颈。现有优化方法(如通信-计算重叠、数据压缩)通常假设底层通信库(如NVIDIA的NCCL)已充分调优,而忽略了其底层参数(如算法选择、资源分配)对性能的影响。本研究通过实证发现,NCCL默认配置在多数场景下非最优,且现有调优工具(如AFNFA)依赖离线建模,无法适应动态的硬件环境与计算干扰。因此,团队提出AutoCCL,一种自动化、在线调优工具,旨在透明化提升训练效率,无需额外硬件投入。

目标
1. 系统性分析NCCL性能敏感参数,建立调优指南;
2. 设计高效算法避免暴力搜索,解决参数组合爆炸问题;
3. 提出在线调优方法,捕捉计算干扰对通信的影响;
4. 实现端到端加速,兼容主流训练框架(如PyTorch)。


研究流程与方法
1. 参数分类与建模
团队首先对NCCL的158个参数进行系统分析,筛选出28个性能敏感参数,分为两类:
- 实现相关参数:算法(Algorithm, A)、协议(Protocol, P)、传输方式(Transport, T),组合空间较小(如A仅2种选择);
- 资源分配参数:通道数(nChannel, nc)、线程数(nThread, nt)、分块大小(Chunk Size, c),组合空间达百万级。

通过控制变量实验,发现资源参数对带宽的影响呈单峰函数特性:带宽先随参数值增大而提升,达到峰值后下降或稳定。例如,AllGather任务中,固定c=120KB、nt=96时,带宽在nc=16时达到峰值(图3a)。

2. 分治调优算法
基于参数特性,提出子空间坐标下降法
- 子空间划分:按实现参数(A/P/T)将搜索空间划分为独立子空间;
- 坐标下降搜索:在每个子空间内,依次优化nc、nt、c。以nc为例,固定其他参数,逐步增加nc直至带宽不再提升(算法2)。该方法避免全局暴力搜索,将调优时间从数小时缩短至分钟级。

3. 在线调优实现
利用DNN训练的迭代特性,将调优过程嵌入早期迭代:
- 领导者-工作者架构:通信组中指定一个GPU作为领导者(Leader),负责运行调优算法并广播最优配置;
- 动态更新:通过原子广播同步配置,确保一致性;
- 干扰感知:在线捕获计算任务(如GEMM)对通信的实时影响,无需显式建模硬件能力或任务并发性。

实验设计
- 硬件环境:2节点(16 A40 GPU,NVLink+400Gbps InfiniBand)和4节点(32 A40 GPU,PCIe+100Gbps InfiniBand)集群;
- 任务类型:测试AllGather、ReduceScatter、AllReduce在纯通信及计算干扰下的性能;
- 对比基线:NCCL默认配置与AFNFA调优器。


主要结果
1. 纯通信性能
- 单机PCIe场景:AutoCCL比NCCL和AFNFA带宽分别提升22.66%和27.52%(AllGather);
- NVLink场景:优势更显著,带宽提升达1.38倍(图7),因AutoCCL适配了NVLink的高效传输特性(如共享内存优化)。

2. 计算干扰场景
在并发GEMM任务下,AutoCCL仍保持高带宽:
- AllReduce:带宽较NCCL提升1.38倍,而AFNFA仅1.02倍(图9);
- 大消息传输:128MB消息的AllGather带宽提升1.76倍(图10),显示对资源竞争的强鲁棒性。

3. 端到端训练加速
- 大语言模型:Llama-3.1-8B训练迭代时间缩短32%(图11);
- 收敛效率:10次迭代内即可找到最优配置(图12),调优开销可忽略。


结论与价值
科学价值
1. 首次系统揭示了NCCL底层参数对性能的联合影响规律,提出单峰函数模型;
2. 创新性将子空间划分与坐标下降法结合,解决高维参数搜索难题;
3. 在线调优方法为分布式系统动态优化提供了新范式。

应用价值
1. 透明加速:兼容PyTorch等框架,用户无需修改代码即可提升训练效率;
2. 开源贡献:公开代码促进社区优化集体通信库设计;
3. 经济效益:减少GPU集群资源浪费,降低大模型训练成本。


研究亮点
1. 全面性:覆盖NCCL全部性能敏感参数,实验涵盖PCIe/NVLink多硬件环境;
2. 方法论创新:子空间坐标下降法显著降低搜索复杂度;
3. 实用性:在线调优适应真实训练场景,解决计算干扰这一长期挑战。

其他价值
团队发现NCCL默认配置在多数场景下非最优,例如AllReduce任务中,树算法(Tree)比默认环算法(Ring)带宽高35%(表5),这一结论对通信库设计具有指导意义。


(注:全文约2000字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com