Helix: 基于最大流的异构GPU和网络上的大型语言模型服务

分享自：
Helix: 基于最大流的异构GPU和网络上的大型语言模型服务

期刊:Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating SystemsDOI:10.1145/3669940.3707215
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，是一篇关于分布式大语言模型（LLM）服务系统Helix的原创研究论文。以下是对该研究的学术报告：
Helix：基于最大流算法的异构GPU集群大语言模型高效服务系统
作者及机构
 本研究由卡内基梅隆大学（Carnegie Mellon University）的Yixuan Mei、Yonghao Zhuang、Xupeng Miao、Juncheng Yang、Zhihao Jia和Rashmi Vinayak共同完成，发表于2025年ASPLOS国际会议（Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems）。
学术背景
 随着GPT-4、LLaMA-3等生成式大语言模型（LLM）在自然语言处理领域的广泛应用，其高昂的计算资源需求成为部署瓶颈。当前主流LLM服务系统（如Orca、vLLM）均面向同构GPU集群设计，而实际云平台（如Google Compute Engine）的GPU资源呈现显著异构性（如表2所示：H100、A100、L4、T4等混合部署）。传统同构分配策略导致高性能GPU利用率不足（如表3所示：H100的FP16算力是L4的8倍），而简单异构调度方法（如Petals、Swarm）缺乏全局优化能力。为此，本研究提出Helix系统，通过最大流（max-flow）算法联合优化模型放置（model placement）和请求调度（request scheduling），实现在异构GPU和网络环境下的高吞吐、低延迟LLM服务。
研究流程与方法
 1. 问题建模
 - 研究将异构GPU集群抽象为带权有向图：节点代表GPU实例（计算能力与显存容量为节点属性），边代表网络连接（带宽和延迟为边权重）。
 - 提出混合整数线性规划（MILP）算法，将LLM推理计算建模为最大流问题，目标函数为最大化集群吞吐量（tokens/second）。
关键技术开发
模型放置优化：通过MILP求解器（Gurobi）确定最优层分配策略。如表5所示，引入两类变量：(1) 整数变量𝑠𝑖表示节点𝑐𝑖的起始层索引；(2) 二元变量𝑏𝑗𝑖表示节点𝑐𝑖是否托管𝑗个层。通过约束条件（如表6）确保层分配连续性和资源匹配。
 
请求调度创新：提出”按请求流水线”（per-request pipelines）机制，每个请求动态选择路径（如图4），采用交错加权轮询（IWRR）算法平衡负载。相比固定流水线（fixed pipelines），路径选择空间从𝑂(𝑛)扩展至𝑂(𝑛!)。
 
系统实现
基于vLLM框架开发原型系统，新增1.5K Python与1.7K C++代码。
 
关键组件包括：(1) 统一内存分页池（unified page pool）支持部分推理（partial inference）；(2) ZeroMQ实现跨节点通信；(3) 动态批处理（dynamic batching）减少流水线气泡（pipeline bubble）。
 
实验设计
测试环境：构建三类集群（24-42节点），包含7种GPU类型（A100、L4、T4等），覆盖单集群与跨地域部署场景。
 
基准模型：LLaMA-1 30B和LLaMA-2 70B，FP16精度。
 
对比方法：Swarm（异构训练系统改造）和Separate Pipelines（SP，按GPU类型独立服务）。
 
评估指标：解码吞吐量（tokens/sec）、提示延迟（prompt latency）和解码延迟（decode latency）。
 
主要结果
 1. 单集群性能
 - 对于LLaMA-70B，Helix吞吐量达3.29倍于SP（图6d），提示延迟降低66%（图6g）。MILP规划使A100利用率从Swarm的42%提升至89%（图9b案例）。
 - 模拟器验证显示误差%（图6虚线），证明方法可靠性。
跨地域集群
在100Mbps跨区网络下，Helix通过减少流水线深度（降低28%）实现1.97倍吞吐量提升（图7b），且避免Swarm的拥塞问题（图10b中橙色节点负载失衡）。
 
高异构扩展性
42节点混合集群（含H100/V100/T4等）测试中，Helix吞吐量达3.29倍于SP+（图8a），证明算法对复杂异构环境的适应性。
 
结论与价值
 1. 科学价值
 - 首次将最大流理论应用于LLM服务优化，提出MILP形式化方法，为分布式系统设计提供新范式。
 - 证明异构GPU联合调度可突破同构集群的资源限制，如表1所示：LLaMA-3 405B模型在Helix下仅需21颗H100，而传统方案需68颗。
应用价值
 使云服务商能整合闲置异构资源（如T4/L4），如表3所示：8颗L4成本仅24K USD，性能相当于1颗H100（40K USD）。
 
开源实现（GitHub/thesys-lab/helix-asplos25）支持快速部署。
 
研究亮点
 1. 方法创新：将网络感知（network-aware）的模型放置转化为可求解的MILP问题，变量规模仅𝑂(|C|+|E|)，优于启发式方法（图9a对比Petals）。
 2. 工程突破：动态流水线机制实现请求级细粒度调度，如图3所示，协调器（coordinator）与工作节点（worker）的解耦设计支持横向扩展。
 3. 跨学科融合：结合运筹学（最大流）、体系结构（GPU异构性）和NLP（LLM特性）三领域知识。
其他贡献
 - 发布Azure对话数据集分析工具（图5），支持长序列请求模拟。
 - 提出KV缓存（KV-cache）预估方法（第5.2节），通过水位线（high water mark）机制防止显存溢出。
该研究通过理论创新与系统实现的紧密结合，为大规模LLM服务的低成本、高可用部署提供了切实可行的解决方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问