分享自:

Helix: 基于最大流的异构GPU和网络上的大型语言模型服务

期刊:Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating SystemsDOI:10.1145/3669940.3707215

这篇文档属于类型a,是一篇关于分布式大语言模型(LLM)服务系统Helix的原创研究论文。以下是对该研究的学术报告:


Helix:基于最大流算法的异构GPU集群大语言模型高效服务系统

作者及机构
本研究由卡内基梅隆大学(Carnegie Mellon University)的Yixuan Mei、Yonghao Zhuang、Xupeng Miao、Juncheng Yang、Zhihao Jia和Rashmi Vinayak共同完成,发表于2025年ASPLOS国际会议(Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems)。

学术背景
随着GPT-4、LLaMA-3等生成式大语言模型(LLM)在自然语言处理领域的广泛应用,其高昂的计算资源需求成为部署瓶颈。当前主流LLM服务系统(如Orca、vLLM)均面向同构GPU集群设计,而实际云平台(如Google Compute Engine)的GPU资源呈现显著异构性(如表2所示:H100、A100、L4、T4等混合部署)。传统同构分配策略导致高性能GPU利用率不足(如表3所示:H100的FP16算力是L4的8倍),而简单异构调度方法(如Petals、Swarm)缺乏全局优化能力。为此,本研究提出Helix系统,通过最大流(max-flow)算法联合优化模型放置(model placement)和请求调度(request scheduling),实现在异构GPU和网络环境下的高吞吐、低延迟LLM服务。

研究流程与方法
1. 问题建模
- 研究将异构GPU集群抽象为带权有向图:节点代表GPU实例(计算能力与显存容量为节点属性),边代表网络连接(带宽和延迟为边权重)。
- 提出混合整数线性规划(MILP)算法,将LLM推理计算建模为最大流问题,目标函数为最大化集群吞吐量(tokens/second)。

  1. 关键技术开发

    • 模型放置优化:通过MILP求解器(Gurobi)确定最优层分配策略。如表5所示,引入两类变量:(1) 整数变量𝑠𝑖表示节点𝑐𝑖的起始层索引;(2) 二元变量𝑏𝑗𝑖表示节点𝑐𝑖是否托管𝑗个层。通过约束条件(如表6)确保层分配连续性和资源匹配。
    • 请求调度创新:提出”按请求流水线”(per-request pipelines)机制,每个请求动态选择路径(如图4),采用交错加权轮询(IWRR)算法平衡负载。相比固定流水线(fixed pipelines),路径选择空间从𝑂(𝑛)扩展至𝑂(𝑛!)。
  2. 系统实现

    • 基于vLLM框架开发原型系统,新增1.5K Python与1.7K C++代码。
    • 关键组件包括:(1) 统一内存分页池(unified page pool)支持部分推理(partial inference);(2) ZeroMQ实现跨节点通信;(3) 动态批处理(dynamic batching)减少流水线气泡(pipeline bubble)。
  3. 实验设计

    • 测试环境:构建三类集群(24-42节点),包含7种GPU类型(A100、L4、T4等),覆盖单集群与跨地域部署场景。
    • 基准模型:LLaMA-1 30B和LLaMA-2 70B,FP16精度。
    • 对比方法:Swarm(异构训练系统改造)和Separate Pipelines(SP,按GPU类型独立服务)。
    • 评估指标:解码吞吐量(tokens/sec)、提示延迟(prompt latency)和解码延迟(decode latency)。

主要结果
1. 单集群性能
- 对于LLaMA-70B,Helix吞吐量达3.29倍于SP(图6d),提示延迟降低66%(图6g)。MILP规划使A100利用率从Swarm的42%提升至89%(图9b案例)。
- 模拟器验证显示误差%(图6虚线),证明方法可靠性。

  1. 跨地域集群

    • 在100Mbps跨区网络下,Helix通过减少流水线深度(降低28%)实现1.97倍吞吐量提升(图7b),且避免Swarm的拥塞问题(图10b中橙色节点负载失衡)。
  2. 高异构扩展性

    • 42节点混合集群(含H100/V100/T4等)测试中,Helix吞吐量达3.29倍于SP+(图8a),证明算法对复杂异构环境的适应性。

结论与价值
1. 科学价值
- 首次将最大流理论应用于LLM服务优化,提出MILP形式化方法,为分布式系统设计提供新范式。
- 证明异构GPU联合调度可突破同构集群的资源限制,如表1所示:LLaMA-3 405B模型在Helix下仅需21颗H100,而传统方案需68颗。

  1. 应用价值
    • 使云服务商能整合闲置异构资源(如T4/L4),如表3所示:8颗L4成本仅24K USD,性能相当于1颗H100(40K USD)。
    • 开源实现(GitHub/thesys-lab/helix-asplos25)支持快速部署。

研究亮点
1. 方法创新:将网络感知(network-aware)的模型放置转化为可求解的MILP问题,变量规模仅𝑂(|C|+|E|),优于启发式方法(图9a对比Petals)。
2. 工程突破:动态流水线机制实现请求级细粒度调度,如图3所示,协调器(coordinator)与工作节点(worker)的解耦设计支持横向扩展。
3. 跨学科融合:结合运筹学(最大流)、体系结构(GPU异构性)和NLP(LLM特性)三领域知识。

其他贡献
- 发布Azure对话数据集分析工具(图5),支持长序列请求模拟。
- 提出KV缓存(KV-cache)预估方法(第5.2节),通过水位线(high water mark)机制防止显存溢出。


该研究通过理论创新与系统实现的紧密结合,为大规模LLM服务的低成本、高可用部署提供了切实可行的解决方案。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com