GPU高效通信调度在深度学习训练中的应用

分享自：
GPU高效通信调度在深度学习训练中的应用

期刊:ACM SIGCOMM
本文档属于类型a，即报告了一项原创性研究的学术论文。以下是针对该研究的详细报告：
主要作者及研究机构
 本研究的作者包括Jiamin Cao、Yu Guan、Kun Qian、Jiaqi Gao、Wencong Xiao、Jianbo Dong、Binzhang Fu、Dennis Cai和Ennan Zhai，他们均来自阿里巴巴云（Alibaba Cloud）。该研究发表于2024年8月的ACM SIGCOMM会议上，标题为“Crux: GPU-Efficient Communication Scheduling for Deep Learning Training”。
学术背景
 深度学习训练（Deep Learning Training, DLT），尤其是大语言模型（Large Language Model, LLM）的训练，已成为多租户云计算中最重要的服务之一。然而，作者通过深入分析实际生产环境中的DLT任务，发现不同任务之间的通信竞争严重影响了GPU计算利用率，导致训练集群的效率低下。为了解决这一问题，作者提出了Crux，一种通信调度器，旨在通过减少DLT任务之间的通信竞争来最大化GPU计算利用率。由于最大化GPU计算利用率是一个NP完全问题，作者提出并证明了一种基于GPU计算强度的通信调度定理，并开发了一种优先处理高GPU计算强度任务的调度方法。
研究流程
 研究分为以下几个主要步骤：
问题分析与目标定义
 作者首先分析了多租户DLT集群中的通信竞争问题，指出通信竞争会显著降低GPU利用率和训练吞吐量。他们的目标是最大化GPU计算利用率，并提出了GPU强度的概念来衡量任务对GPU利用率的影响。
GPU强度感知的通信调度
 作者提出了一种基于GPU强度的通信调度方法，优先处理高GPU计算强度的任务，以减少潜在的通信竞争。他们设计了一个系统，Crux，用于优化DLT集群中的GPU利用率。Crux包括以下三个关键技术：
路径选择算法：为高GPU强度的任务选择最少拥塞的路径，以减少通信竞争。
 
优先级分配算法：考虑DLT任务的特性（如多次迭代和通信-计算重叠），优化优先级分配。
 
优先级压缩算法：将全局唯一的优先级压缩到有限的优先级级别中，以适应实际NIC和交换机的限制。
实验验证
 作者在96个GPU的测试平台上进行了实验，验证了Crux的有效性。实验结果表明，Crux将GPU计算利用率提高了8.3%至14.8%。此外，基于大规模生产环境数据的仿真进一步表明，与现有方法（如Sincronia、TACCL和Cassini）相比，Crux将GPU计算利用率提高了23%。
数据收集与分析
 作者收集了生产环境中超过2000个GPU和5000个任务的运行数据，分析了通信竞争的普遍性及其对GPU利用率的影响。他们通过硬件监控工具（如GPU、NIC和PCIe）测量了每个任务的计算和通信负载，并利用傅里叶变换估计了任务的迭代时间。
主要结果
 1. GPU利用率提升
 在96个GPU的测试平台上，Crux将GPU计算利用率提高了8.3%至14.8%。在大规模仿真中，Crux将GPU计算利用率提高了23%。
任务完成时间优化
 Crux显著减少了高GPU强度任务的完成时间。例如，在GPT和BERT任务的共执行中，GPT的迭代时间减少了11%，而BERT的迭代时间仅增加了0%至3%。
路径选择与优先级分配的有效性
 Crux的路径选择算法减少了高GPU强度任务之间的通信竞争，而优先级分配算法确保了高GPU强度任务的通信优先权。优先级压缩算法进一步减少了因优先级限制带来的性能损失。
结论
 Crux通过引入GPU强度的概念，将最大化GPU利用率的问题转化为流优化问题，并提出了基于GPU强度的路径选择、优先级分配和优先级压缩方法。实验和仿真结果表明，Crux在多租户DLT集群中显著提高了GPU利用率，并优化了任务的完成时间。该研究为DLT集群的通信调度提供了新的解决方案，具有重要的科学价值和实际应用价值。
研究亮点
 1. GPU强度概念的引入
 作者首次提出了GPU强度的概念，用于衡量任务对GPU利用率的影响，并基于此优化通信调度。
路径选择与优先级分配的结合
 Crux结合了路径选择和优先级分配，有效减少了高GPU强度任务之间的通信竞争。
优先级压缩算法的创新
 作者设计了一种高效的优先级压缩算法，将全局唯一的优先级压缩到有限的优先级级别中，显著减少了性能损失。
其他有价值的内容
 1. 与现有调度器的兼容性
 Crux与现有的任务调度器（如Hived和Muri）兼容，并进一步提高了GPU利用率和任务性能。
多拓扑适应性
 Crux的设计不依赖于特定网络拓扑，具有广泛的适应性，可以在多种网络架构中应用。
通过以上研究，Crux为DLT集群的通信调度提供了创新的解决方案，显著提高了GPU利用率和任务性能，具有重要的科学和实际应用价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问