FlexGen：单GPU实现大语言模型的高吞吐量生成推理

分享自：
FlexGen：单GPU实现大语言模型的高吞吐量生成推理

期刊:Proceedings of Machine Learning Research (PMLR)
FlexGen研究学术报告
一、 主要作者、所属机构及发表情况
本研究由Ying Sheng (通讯作者, 斯坦福大学)、Lianmin Zheng (加州大学伯克利分校)、Binhan Yuan (苏黎世联邦理工学院)、Zhuohan Li (加州大学伯克利分校)、Max Ryabinin (Yandex & HSE大学)、Beidi Chen (Meta & 卡内基梅隆大学)、Percy Liang (斯坦福大学)、Christopher Ré (斯坦福大学)、Ion Stoica (加州大学伯克利分校)、Ce Zhang (苏黎世联邦理工学院) 共同完成。 该研究以题为《FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU》的论文，发表于国际机器学习大会（International Conference on Machine Learning, ICML）2023年会议论文集（PMLR）中。
二、 学术背景与研究目标
1. 科学领域与研究背景 本研究的核心领域是高效能计算系统，特别是面向大语言模型（Large Language Models， LLMs）的推理（Inference）系统设计。近年来，LLMs（如GPT-3、OPT、PaLM等）在诸多任务上展现出了强大能力，但其巨大的参数量（动辄数百亿甚至上千亿）带来了极高的计算与内存需求。通常，运行这些模型需要多块高端加速卡（如多张A100 GPU）并采用复杂的并行策略，这极大地限制了其在资源受限环境下的应用。
2. 研究动机 在LLM推理的众多应用场景中，除了对延迟（Latency）敏感的交互式应用（如聊天机器人）外，还存在大量“后端”批量处理任务，例如对海量文档进行基准测试、信息抽取、数据整理等。这些任务通常对延迟不敏感，但要求高吞吐量（Throughput），即单位时间内能处理大量样本（令牌）。这为在有限资源下进行性能权衡提供了机会：可以通过牺牲单次请求的处理延迟，换取更高的总体吞吐量。
3. 现有方案的局限性 此前降低LLM推理资源需求的研究方向主要包括：模型压缩（减少内存占用）、去中心化协同推理（分摊计算成本）以及卸载（Offloading，利用CPU和磁盘内存）。然而，现有系统存在明显不足：模型压缩技术通常假设模型能全部装入GPU内存，难以在单个普通GPU上运行1750亿参数规模的模型；而当前最先进的基于卸载的系统（如DeepSpeed Zero-Inference和Hugging Face Accelerate）在单GPU上由于低效的I/O调度和张量布局，导致吞吐量极低（例如，对于OPT-175B模型，批量大小（Batch Size）往往只能为1或2），无法满足高吞吐量推理的需求。
4. 研究目标 因此，本研究旨在设计一个面向高吞吐量生成式推理的高效卸载框架，使得在仅拥有单个普通GPU（例如16GB显存的NVIDIA T4）、充足CPU内存和大容量磁盘的硬件配置下，能够高效地运行超大规模LLM（如OPT-175B），并显著提升其生成吞吐量。其核心挑战在于：1）设计高效的卸载策略，包括计算调度、张量放置和计算委派；2）开发适用于卸载场景的有效压缩策略，以减少I/O开销和内存占用。
三、 详细研究流程与方法
1. 核心框架：FlexGen 为解决上述挑战，研究者们提出了FlexGen，一个用于LLM高吞吐量推理的卸载框架。其核心思想是聚合GPU、CPU和磁盘的内存资源，并通过高效调度I/O操作、结合压缩方法和分布式流水线并行来最大化吞吐量。
2. 具体工作流程与技术细节
（A） 卸载策略的形式化与搜索空间构建 首先，研究将生成式推理的卸载过程形式化为一个图遍历问题。计算图由“层”（Transformer层）和“令牌”（生成步骤）构成网格。系统需要在资源约束下，寻找一个计算所有网格单元（代表层与令牌的组合计算）的有效路径。 在此基础上，FlexGen构建了一个包含三个维度的策略搜索空间： * 计算调度（Compute Schedule）：现有系统采用逐行调度（Row-by-row），虽然单批次延迟低，但每行都需要重复加载权重，I/O开销巨大。FlexGen提出了之字形块调度（Zig-zag Block Schedule）。该调度以列为单位进行计算，一个“块”（Block）包含多个GPU批次，这样可以在一个块内复用已加载到GPU的权重，大幅分摊权重I/O成本。理论分析证明，该调度的I/O复杂度在最优解的2倍以内。 * 张量放置（Tensor Placement）：策略需指定权重、激活值（Activation）和键值缓存（KV Cache）这三种张量在GPU、CPU、磁盘三级内存中的存储比例。FlexGen采用层粒度划分权重，采用张量粒度划分激活值和KV缓存，以平衡运行时开销和灵活性。 * 计算委派（Computation Delegation）：研究发现，在解码阶段，注意力分数的计算可能是I/O瓶颈。当KV Cache存储在CPU上时，若在GPU上计算注意力，需将庞大的KV Cache移至GPU。FlexGen提出可将注意力计算委托给CPU，仅需将小得多的激活值从GPU移至CPU，从而显著减少I/O，特别是在输入序列较长时（如≥512）。
（B） 基于线性规划的策略搜索 为了在巨大的搜索空间中找到最优策略，FlexGen建立了一个分析性成本模型。该模型基于硬件规格（各层级内存容量、带宽、计算能力）和算法参数（块大小、GPU批次大小、各张量的放置比例），预测预填充（Prefill）和解码（Decode）阶段的延迟以及峰值内存使用量。 随后，研究者将策略搜索问题建模为一个两层优化问题。外层枚举有限的（块大小， GPU批次大小）组合。对于每一组固定组合，内层将寻找最佳张量放置比例的问题转化为一个线性规划（Linear Programming）问题，目标是在满足各级内存容量约束的前提下，最小化估计的总执行时间（即最大化吞吐量）。该线性规划问题变量少（9个），可快速求解。
（C） 近似方法的应用 为了进一步提升吞吐量，FlexGen引入了两种对模型精度影响可忽略的近似方法： * 分组量化（Group-wise Quantization）：研究证明，对于OPT-175B模型，无需重新训练或校准，即可将权重和KV Cache同时压缩至4比特，同时保持精度损失极小。这是通过细粒度的分组非对称量化实现的（例如，每组64个连续元素）。量化主要目的是压缩以减少I/O和内存占用，计算前再将张量反量化为FP16。此方法与旨在加速计算的量化工作侧重点不同。 * 稀疏注意力（Sparse Attention）：初步实验表明，通过仅加载注意力值最高的前10%的KV Cache（Top-k稀疏近似），可以在OPT-175B上保持模型质量，同时减少需要加载的缓存数据量。
（D） 扩展到多GPU 对于多GPU场景，FlexGen主要采用流水线并行（Pipeline Parallelism），因为它通信开销低，有利于吞吐量扩展。通过将模型层平均分配到多个GPU上，每个GPU上运行的子问题（层数减少）可以复用为单GPU设计的策略搜索方法。FlexGen在单设备卸载运行时之上，集成了迭代级流水线并行执行调度，实现了微批次流水线。
四、 主要实验结果
1. 最大吞吐量基准测试 在单块NVIDIA T4（16GB）GPU、208GB CPU内存和1.5TB SSD的硬件配置上，对OPT系列模型进行了评估。主要对比系统为DeepSpeed Zero-Inference和Hugging Face Accelerate。结果如下： * OPT-175B：在输入序列长度512、输出32的设置下，现有基线系统由于内存限制，最大批次大小仅为2，吞吐量极低（~0.01 token/s）。而FlexGen通过高效的卸载策略，可使用GPU批次大小32、块大小256（即有效批次大小256），实现0.69 token/s的生成吞吐量，较基线提升69倍。当启用4比特压缩后，FlexGen可将所有权重和KV Cache放入CPU内存，避免磁盘I/O，使用有效批次大小144，实现1.12 token/s的吞吐量，较基线提升超过100倍，首次在单块16GB GPU上为OPT-175B模型实现了每秒1个令牌的生成吞吐量。 * OPT-30B和OPT-6.7B：FlexGen同样在吞吐量上显著优于基线系统。
2. 延迟-吞吐量权衡 通过配置不同策略以满足不同延迟约束，FlexGen在延迟-吞吐量帕累托前沿（Pareto Frontier）上显著优于基线系统，定义了一个新的最优边界。例如，在相同5000秒延迟约束下，FlexGen（无压缩）的吞吐量比DeepSpeed高40倍以上。
3. 消融实验 通过逐一禁用关键技术，验证了各技术的贡献： * 无策略搜索：使用次优策略导致性能显著下降（对于OPT-175B，吞吐量从0.69降至0.27 token/s）。 * 无重叠（Overlapping）：禁用计算与I/O的重叠，性能下降。 * 无CPU计算委派：禁用CPU计算注意力，性能下降。 * 移植基线策略：将DeepSpeed/Accelerate的策略移植到FlexGen运行时，性能远低于FlexGen的自搜索策略，证明了其策略的优越性。
4. 多GPU扩展性能 在4台单GPU机器上测试OPT-30B和OPT-175B。通过流水线并行，FlexGen在解码吞吐量上实现了超线性扩展（例如，OPT-175B解码吞吐量从单GPU的0.83 token/s提升至4GPU的3.86 token/s）。这是因为流水线并行减轻了单GPU内存压力，使其可以切换到更大的批次或仅使用CPU卸载，从而提升了单个GPU的利用率。
5. 近似方法的精度评估 在LAMBADA（下一词预测准确率）和WikiText（语言建模困惑度）任务上评估4比特量化（及结合稀疏注意力）的精度损失。对于OPT-30B和OPT-175B，量化后的精度损失微乎其微（例如，OPT-175B在LAMBADA上的准确率从FP16的0.758降至4-bit的0.756），验证了近似方法的有效性。
6. 卸载与协同推理对比 将FlexGen（卸载）与去中心化协同推理系统Petals进行对比。在模拟不同网络条件下（延迟、带宽），单个T4 GPU的FlexGen在每GPU吞吐量上均优于由4个T4 GPU组成的Petals集群。在某些网络较慢、生成序列较短的情况下，FlexGen甚至能实现更低的延迟。这表明对于高吞吐量场景，卸载可能是比通过网络传输大量激活值更高效的解决方案。
五、 研究结论与价值
1. 结论 本研究成功提出了FlexGen，一个用于在资源受限环境下实现LLM高吞吐量生成式推理的引擎。通过形式化卸载策略搜索空间、开发基于线性规划的优化器、以及结合高效的近似方法（4比特量化），FlexGen能够在单块普通GPU上运行超大规模LLM，并实现数量级高于现有系统的吞吐量。
2. 科学价值与应用价值 * 科学价值：为LLM推理系统设计提供了新的思路，系统性地解决了在严格内存约束下最大化吞吐量的问题。提出的之字形块调度、统一的张量放置优化框架、以及面向卸载的压缩策略，对后续高效推理系统的研究具有重要参考意义。 * 应用价值：极大地降低了运行超大规模LLM的硬件门槛，使得在拥有单块消费级GPU的服务器或云实例上进行海量文本的批量处理（如数据标注、内容分析、基准测试）变得可行。研究已成功应用于在21小时内使用单GPU完成OPT-IML-30B模型在HELM基准测试中7个子场景的评估，展示了其在实际任务中的实用性。
六、 研究亮点
开创性目标：首次系统性地研究并实现了在单个普通GPU上进行超大规模LLM（如OPT-175B）的高吞吐量推理，突破了此前的硬件限制认知。
方法创新：提出了之字形块调度和基于线性规划的统一卸载策略搜索框架，将计算调度、张量放置、计算委派联合优化，显著提升了I/O效率，允许使用远超基线系统的有效批次大小。
有效的近似方法：率先提出并验证了对权重和KV Cache同时进行4比特分组量化在OPT-175B上的可行性，且精度损失极小，该压缩方法特别适用于减少卸载场景的I/O成本。
显著的性能提升：在OPT-175B模型上实现了相比现有最优系统超过100倍的吞吐量提升，达成了在单16GB GPU上1 token/s的里程碑式吞吐量。
实用性验证：不仅进行了全面的基准测试，还完成了实际的基准评测任务（HELM）验证，证明了系统的稳定性和实用价值。
七、 其他有价值内容
研究附录中提供了对计算调度I/O复杂度的理论证明（证明之字形块调度在最坏情况下是最优解的2倍以内），并探讨了一个理论上更优但对实现要求更高的对角线块调度（Diagonal Block Schedule）。此外，附录还详述了成本模型的完整公式化表示，为复现和后续研究提供了清晰的技术细节。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问