HybridFlow：一种灵活高效的RLHF框架

分享自：
HybridFlow：一种灵活高效的RLHF框架

期刊:EuroSys '25DOI:https://doi.org/10.1145/3689031.3696075
Academic Report主要作者与研究机构
 本文的主要作者包括：Guangming Sheng（香港大学），Chi Zhang、Zilingfeng Ye、Xibin Wu、Wang Zhang、Ru Zhang、Yanghua Peng、Haibin Lin（以上均来自字节跳动），以及Chuan Wu（香港大学）。该研究发表于未来举行的“Twentieth European Conference on Computer Systems (EuroSys ’25)”会议上。
研究背景
 该研究的主题属于分布式计算与机器学习领域，核心聚焦于“从人类反馈中进行强化学习”（Reinforcement Learning from Human Feedback，RLHF）的高效实现。近年来，大规模语言模型（Large Language Models，LLMs）在多种人工智能应用中展现出卓越的潜力，但由于训练数据包含有害或偏见内容，可能导致模型生成不良输出，为了解决这一问题，RLHF被提出以进一步对齐模型与人类价值观，从而构建“有益且无害”的AI系统。
RLHF是基于传统强化学习（Reinforcement Learning）算法开展的，典型过程包括Proximal Policy Optimization（PPO）算法的三大阶段：生成阶段（生成反馈内容），准备阶段（利用奖励模型和策略网络评估内容质量），以及学习阶段（基于人类反馈优化模型参数）。然而，RLHF数据流的复杂性随着模型规模的增大而显著增加，它需要分布式计算来完成不同模型的训练与数据交换，现有框架主要采用单控制器或多控制器实现分布式计算，但存在效率低下或灵活性不足的问题。为此，本文提出了一种新的混合架构——HybridFlow框架，以解决上述挑战。
本文旨在通过设计新的编程模型、引擎机制和资源分配算法，优化RLHF的数据流表达及执行效率，从而推动相关技术的发展。
研究方法与流程
 为解决RLHF现有框架的局限性，研究团队提出了HybridFlow框架，其核心包括三个主要创新模块：混合编程模型（Hybrid Programming Model）、3D混合引擎（3D-HybridEngine）和自动化设备映射算法（Auto Device Mapping）。
混合编程模型混合编程模型结合了单控制器（Single-Controller）和多控制器（Multi-Controller）的优势，在数据流的不同层面优化计算效率和灵活性。其实现如下：
 - 单控制器层级：整体数据流的执行由一个中央控制器协调，这一设计将多节点间的数据传输、执行顺序协调及资源虚拟化的复杂性可视化降低。
 - 多控制器层级：在节点内，每个模型采用独立控制器管理分布式计算任务，提升计算效率。例如，在分布式神经网络训练中，通过“Pipeline Parallelism”、“Data Parallelism”等技术，分割实际工作负载至多个GPU设备。
 - 统一的数据重新切分协议（Transfer Protocol）：通过“Collect”和“Distribute”函数（如3D_proto协议）对异构模型间数据传输进行抽象，隐藏数据交换复杂性以简化系统开发。
3D混合引擎3D-HybridEngine被设计用于优化RLHF中的生成阶段与训练阶段的无冗余转换。模型采用不同的3D并行策略（Pipeline Parallelism - PP，Tensor Parallelism - TP，Data Parallelism - DP）分别完成训练与生成任务。
 工程重点如下：
 - 无冗余模型参数切换：通过优化并行分组方案，在GPU内实现训练权重与生成权重的重用，显著减少内存占用与通信开销。
 - 零冗余内存管理架构：训练模型和生成模型共存于相同的设备组上，最大限度利用硬件设备资源，并通过分组内的点对点通信减少跨设备的通信流量。
自动化设备映射算法HybridFlow进一步集成了自动化设备映射算法，通过优化模型设备的分布和计算并行化方案（Parallelism Strategy），显著降低RLHF迭代过程中整个数据流的端到端延迟。算法具体流程如下：
 1. 模型划分计划生成：依据RLHF数据流图，列举模型间所有可能的放置方案及其设备需求。模型可以采用单独放置（每个模型独立一组设备）、部分共享放置或完全共置方案。
 2. GPU资源分配：为每个放置方案计算显存需求并确定最小设备需求，以避免OOM错误。
 3. 并行策略优化：对每个分配的设备组，用模拟器估算各种Pipeline/Tensor/Data平行化配置的延迟，自动选取最快方案。
 4. 性能开销评估：采用流水线分析法（Pipeline Simulation），评估不同方案的端到端执行时间，选择延迟最低的映射方案。
研究结果与数据分析
 通过在128块NVIDIA A100专业GPU集群上的实验测试，HybridFlow在多个RLHF算法（如PPO、Safe-RLHF和Remax）和多种规模语言模型（7B、13B、34B和70B参数）上展现了卓越的性能。
整体性能
 HybridFlow的吞吐量相比主流RLHF框架显著提升：
对于PPO算法，HybridFlow比Deepspeed-Chat、OpenRLHF和Nemo-Aligner分别提升了3.67×、3.25×和12.52×。
各模型规模均表现出显著的线性扩展性，训练70B参数模型时的平均加速倍率达9.64×。
Transition阶段（训练-生成切换）优化
 实验表明，HybridFlow通过3D-HybridEngine的优化：
在训练到生成阶段的模型权重切换中将通信流量减少最多89.1%。
 
达到了零冗余内存占用，显著提升了大规模模型的GPU利用率。
模型放置灵活性
 实验发现，不同模型的计算类型（生成、推理或更新）对资源要求的异构性决定了其优化放置策略。HybridFlow自动化设备映射算法不仅能够灵活支持多种放置策略，还能以线性复杂度优化模型的放置与计算配置。
 
研究结论与意义
 HybridFlow在RLHF任务上提供了一种新型的、高效的框架解决方案。研究的创新主要体现在以下几点： - 科学价值：
 HybridFlow通过革新性的编程模型和引擎设计，降低了RLHF的开发门槛，使得算法实现更模块化、更高效。这为未来开发多样化的RLHF算法提供了更强大的工具支持。 - 应用价值：
 HybridFlow显著提升了大型语言模型的训练效率，为AI领域的模型对齐问题（包括安全性和偏见控制）提供了实用解决方案，尤其适合在需要低延迟或大规模分布式计算的环境中使用。
研究亮点
 本文的创新集中体现在以下几点： 1. 提出了具有突破性意义的层次化混合编程模型，结合单控制器与多控制器的优势。 2. 设计了高效的3D-HybridEngine，实现了训练与生成阶段的无缝、高效切换。 3. 提供了一种优化资源配置的自动化算法，解决了模型放置灵活性及均衡性能问题。
附加内容
 研究团队还将HybridFlow开源（GitHub链接：https://github.com/volcengine/verl），期待为后续RLHF领域的研究与开发提供新动能，为学术界和工业界带来深远影响。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问