主要作者与研究机构
本文的主要作者包括:Guangming Sheng(香港大学),Chi Zhang、Zilingfeng Ye、Xibin Wu、Wang Zhang、Ru Zhang、Yanghua Peng、Haibin Lin(以上均来自字节跳动),以及Chuan Wu(香港大学)。该研究发表于未来举行的“Twentieth European Conference on Computer Systems (EuroSys ’25)”会议上。
研究背景
该研究的主题属于分布式计算与机器学习领域,核心聚焦于“从人类反馈中进行强化学习”(Reinforcement Learning from Human Feedback,RLHF)的高效实现。近年来,大规模语言模型(Large Language Models,LLMs)在多种人工智能应用中展现出卓越的潜力,但由于训练数据包含有害或偏见内容,可能导致模型生成不良输出,为了解决这一问题,RLHF被提出以进一步对齐模型与人类价值观,从而构建“有益且无害”的AI系统。
RLHF是基于传统强化学习(Reinforcement Learning)算法开展的,典型过程包括Proximal Policy Optimization(PPO)算法的三大阶段:生成阶段(生成反馈内容),准备阶段(利用奖励模型和策略网络评估内容质量),以及学习阶段(基于人类反馈优化模型参数)。然而,RLHF数据流的复杂性随着模型规模的增大而显著增加,它需要分布式计算来完成不同模型的训练与数据交换,现有框架主要采用单控制器或多控制器实现分布式计算,但存在效率低下或灵活性不足的问题。为此,本文提出了一种新的混合架构——HybridFlow框架,以解决上述挑战。
本文旨在通过设计新的编程模型、引擎机制和资源分配算法,优化RLHF的数据流表达及执行效率,从而推动相关技术的发展。
研究方法与流程
为解决RLHF现有框架的局限性,研究团队提出了HybridFlow框架,其核心包括三个主要创新模块:混合编程模型(Hybrid Programming Model)、3D混合引擎(3D-HybridEngine)和自动化设备映射算法(Auto Device Mapping)。
混合编程模型结合了单控制器(Single-Controller)和多控制器(Multi-Controller)的优势,在数据流的不同层面优化计算效率和灵活性。其实现如下:
- 单控制器层级:整体数据流的执行由一个中央控制器协调,这一设计将多节点间的数据传输、执行顺序协调及资源虚拟化的复杂性可视化降低。
- 多控制器层级:在节点内,每个模型采用独立控制器管理分布式计算任务,提升计算效率。例如,在分布式神经网络训练中,通过“Pipeline Parallelism”、“Data Parallelism”等技术,分割实际工作负载至多个GPU设备。
- 统一的数据重新切分协议(Transfer Protocol):通过“Collect”和“Distribute”函数(如3D_proto协议)对异构模型间数据传输进行抽象,隐藏数据交换复杂性以简化系统开发。
3D-HybridEngine被设计用于优化RLHF中的生成阶段与训练阶段的无冗余转换。模型采用不同的3D并行策略(Pipeline Parallelism - PP,Tensor Parallelism - TP,Data Parallelism - DP)分别完成训练与生成任务。
工程重点如下:
- 无冗余模型参数切换:通过优化并行分组方案,在GPU内实现训练权重与生成权重的重用,显著减少内存占用与通信开销。
- 零冗余内存管理架构:训练模型和生成模型共存于相同的设备组上,最大限度利用硬件设备资源,并通过分组内的点对点通信减少跨设备的通信流量。
HybridFlow进一步集成了自动化设备映射算法,通过优化模型设备的分布和计算并行化方案(Parallelism Strategy),显著降低RLHF迭代过程中整个数据流的端到端延迟。算法具体流程如下:
1. 模型划分计划生成:依据RLHF数据流图,列举模型间所有可能的放置方案及其设备需求。模型可以采用单独放置(每个模型独立一组设备)、部分共享放置或完全共置方案。
2. GPU资源分配:为每个放置方案计算显存需求并确定最小设备需求,以避免OOM错误。
3. 并行策略优化:对每个分配的设备组,用模拟器估算各种Pipeline/Tensor/Data平行化配置的延迟,自动选取最快方案。
4. 性能开销评估:采用流水线分析法(Pipeline Simulation),评估不同方案的端到端执行时间,选择延迟最低的映射方案。
研究结果与数据分析
通过在128块NVIDIA A100专业GPU集群上的实验测试,HybridFlow在多个RLHF算法(如PPO、Safe-RLHF和Remax)和多种规模语言模型(7B、13B、34B和70B参数)上展现了卓越的性能。
研究结论与意义
HybridFlow在RLHF任务上提供了一种新型的、高效的框架解决方案。研究的创新主要体现在以下几点: - 科学价值:
HybridFlow通过革新性的编程模型和引擎设计,降低了RLHF的开发门槛,使得算法实现更模块化、更高效。这为未来开发多样化的RLHF算法提供了更强大的工具支持。 - 应用价值:
HybridFlow显著提升了大型语言模型的训练效率,为AI领域的模型对齐问题(包括安全性和偏见控制)提供了实用解决方案,尤其适合在需要低延迟或大规模分布式计算的环境中使用。
研究亮点
本文的创新集中体现在以下几点: 1. 提出了具有突破性意义的层次化混合编程模型,结合单控制器与多控制器的优势。 2. 设计了高效的3D-HybridEngine,实现了训练与生成阶段的无缝、高效切换。 3. 提供了一种优化资源配置的自动化算法,解决了模型放置灵活性及均衡性能问题。
附加内容
研究团队还将HybridFlow开源(GitHub链接:https://github.com/volcengine/verl),期待为后续RLHF领域的研究与开发提供新动能,为学术界和工业界带来深远影响。