分享自:

基于在线强化学习的流匹配模型训练:Flow-GRPO方法

期刊:39th conference on neural information processing systems (NeurIPS 2025)

本文旨在向中文读者介绍由 Jie Liu、Gongye Liu、Jiajun Liang 等研究人员共同完成并提交至第39届神经信息处理系统大会 (NeurIPS 2025) 的学术论文《flow-grpo: training flow matching models via online rl》。本研究提出了一种名为 Flow-GRPO 的创新方法,首次成功将在线策略梯度强化学习(Reinforcement Learning, RL)集成到流匹配(Flow Matching)模型中,显著提升了文本到图像(Text-to-Image, T2I)生成模型在组合生成、视觉文本渲染及人类偏好对齐等多个任务上的性能。

研究作者与机构 本研究的主要作者包括 Jie Liu (香港中文大学多媒体实验室MMLab)、Gongye Liu (清华大学、快手Kling团队)、Jiajun Liang (快手Kling团队) 等。合作机构涵盖了香港中文大学MMLab、清华大学、快手技术Kling团队、南京大学以及上海人工智能实验室。论文已入选NeurIPS 2025。

学术背景 近年来,基于流匹配的生成模型因其坚实的理论基础和生成高质量图像的卓越性能,在图像生成领域占据了主导地位。然而,这类模型在处理包含多个物体、属性和复杂空间关系的组合场景生成,以及在图像中精确渲染文本等方面仍然面临挑战。与此同时,在线强化学习在提升大语言模型的推理能力方面取得了巨大成功。然而,尽管已有研究将RL应用于早期的扩散模型或使用离线RL技术(如直接偏好优化DPO)来优化流模型,但如何将在线RL 有效地应用于先进的流匹配生成模型,仍是一个尚未充分探索的领域。因此,本研究的目标是探索并实现一种高效的在线RL框架,以改进流匹配模型,解决其在复杂任务上的瓶颈。

详细工作流程 Flow-GRPO 的核心是将 GRPO (Group Relative Policy Optimization) 算法整合到流匹配模型中。其工作流程主要围绕两大关键策略展开,以克服在线RL训练流匹配模型的两大核心挑战:模型生成过程的确定性与RL探索所需的随机性之间的矛盾,以及流模型多步采样导致的低效率问题。

  1. ODE-to-SDE 转换策略:标准的流匹配模型采用确定性常微分方程(ODE)进行采样,缺乏RL探索所需的随机性。本研究提出将确定性的流-ODE转换为一个等价的随机微分方程(SDE)。通过理论推导(论文附录A给出了详细证明),该SDE在引入随机噪声的同时,能够精确匹配原始模型在所有时间步上的边际概率分布。具体实现上,通过对转换后的SDE进行Euler-Maruyama离散化,得到包含随机噪声项的采样更新规则。这使得在RL训练过程中,模型策略 πθ(xt−1 | xt, c) 可以表示为一个各向同性的高斯分布,从而能够计算策略概率和KL散度,满足GRPO的更新要求并支持有效的探索。

  2. 去噪步数缩减策略:为生成高质量图像,流模型在推理时通常需要大量迭代步骤(例如SD3.5-M默认使用40步),这在需要频繁采样收集训练数据的在线RL中会带来巨大的计算成本。本研究发现,在在线RL训练阶段,并不需要完整的多步去噪来获得高质量的图像样本。相反,使用显著减少的去噪步数(例如仅10步)来生成低质量但信息量足够的图像轨迹,足以提供有效的奖励信号用于策略优化。而在模型评估和最终推理时,则恢复使用原始的完整步数(40步)以保证图像质量。这一策略在不牺牲最终性能的前提下,大幅提升了数据收集和训练的效率。

实验设计与对象:研究选取了稳定扩散3.5中杯模型(Stable Diffusion 3.5 Medium, SD3.5-m)作为基础模型,在三个具有代表性的T2I任务上评估Flow-GRPO: * 组合图像生成:使用Geneval基准测试,该测试包含物体计数、颜色、空间关系等六类复杂组合提示,可通过目标检测方法进行自动评估。训练提示集通过官方脚本生成,并进行了去重处理。奖励函数为规则式,根据生成图像中物体的数量、颜色和位置正确性计算。 * 视觉文本渲染:任务要求模型根据提示(如“a sign that says ‘text’”)在图像中准确生成指定文本。使用GPT-4o生成了2万个训练提示和1千个测试提示。奖励基于生成文本与目标文本的最小编辑距离计算。 * 人类偏好对齐:使用基于大规模人类标注数据训练的PickScore模型作为奖励模型,该模型评估图像与提示的对齐度及视觉质量。

数据分析流程:除了任务特定的准确性指标(Geneval准确率、OCR准确率、PickScore分数),研究还系统评估了图像质量,以检测可能出现的“奖励黑客”现象(即奖励分数上升以图像质量或多样性下降为代价)。使用了包括美学评分、DEQA、ImageReward和UnifiedReward在内的四种自动图像质量指标,在DrawBench基准上进行计算。所有实验均详细记录了超参数(如组大小g=24、噪声水平a=0.7、KL系数β等)和计算资源消耗。

主要结果 Flow-GRPO在所有三个评估任务上都取得了显著提升,且基本避免了奖励黑客现象。

  1. 组合图像生成:经过Flow-GRPO调优后,SD3.5-m在Geneval上的整体准确率从 63% 大幅提升至 95%,超过了当前最先进的GPT-4o模型(84%)。在计数、位置、属性绑定等子任务上均接近完美。图1显示,在整个训练过程中,Geneval性能持续稳步上升,而DrawBench上的图像质量指标基本保持不变,人类偏好分数还有所改善。

  2. 视觉文本渲染:SD3.5-m的文本渲染准确率从 59% 提升至 92%,文本生成能力得到极大增强。同样,图像质量未出现明显下降。

  3. 人类偏好对齐:使用PickScore作为奖励进行训练,模型的PickScore奖励值得到了有效提升。值得注意的是,在没有KL正则化的情况下,虽然奖励值上升,但出现了视觉多样性崩溃的问题,即不同随机种子生成的结果趋于同质化。而加入适当的KL正则化后,可以在保持高奖励的同时,有效维持图像的多样性。

  4. 对比实验:与监督微调(SFT)、离线/在线Flow-DPO等其他对齐方法相比,Flow-GRPO在性能和训练稳定性上均表现出显著优势(图4,图8)。研究还验证了GRPO相较于需要可微奖励的REFL方法以及在线奖励加权回归(ORW)方法的优越性。

  5. 消融分析与鲁棒性

    • KL正则化的作用:实验证实KL正则化对于防止奖励黑客至关重要。在组合生成和文本渲染任务中,移除KL约束会导致图像质量严重下降;在偏好对齐任务中,则导致多样性丧失。合适的KL系数能在取得高奖励的同时保护模型性能。
    • 去噪步数缩减的影响:将训练采样步数从40减至10,实现了超过4倍的训练加速,且最终奖励达到相同水平。进一步缩减至5步则收益不稳定。
    • 噪声水平的影响:SDE中的噪声水平参数a控制探索强度。适中(a=0.7)的噪声能最大化探索效率和性能,过低则限制探索,过高则可能损害图像质量。
    • 组大小的影响:更大的组大小(g=24)能提供更稳定的优势估计,防止训练崩溃。较小的组(g=6或12)会导致训练不稳定。
    • 泛化能力:在未见过的新物体类别、更高数量物体(5-6个,甚至12个)的生成任务上,以及在一个更全面的T2I组合生成基准T2I-CompBench++上,Flow-GRPO调优后的模型均表现出强大的泛化能力,显著优于原始基座模型。

研究结论与价值 本研究的结论是,Flow-GRPO成功地首次将在线策略梯度RL集成到流匹配模型中。通过ODE-to-SDE转换训练时去噪步数缩减两大核心策略,该方法实现了高效、实用的RL优化,且未明显损害图像质量或多样性。Flow-GRPO显著提升了流匹配模型在组合生成、文本渲染和人类偏好对齐等关键任务上的性能,为基于流的生成模型提供了一种简单而通用的在线RL应用框架。

其科学价值在于,它弥合了确定性生成模型与随机性RL探索之间的理论鸿沟,为流模型的优化开辟了一条新路径。应用价值则体现在,该方法能够直接利用现有最先进的、可能不可微的视觉语言模型作为奖励提供者,以相对较低的成本显著提升商业级T2I模型在复杂、细粒度任务上的可用性和可靠性。

研究亮点 1. 方法首创性:本研究是第一个将GRPO在线RL算法成功应用于流匹配模型的工作,通过理论推导的ODE-to-SDE转换,解决了确定性采样与RL随机探索的根本矛盾。 2. 高效训练策略:提出的“训练时少步采样、推理时多步生成”的去噪步数缩减策略,是一个极具实用价值的洞见,它能以极低的计算代价获得有效的RL训练信号,大幅降低了在线RL的训练门槛。 3. 卓越的性能提升:在Geneval和视觉文本渲染等具有挑战性的基准上取得了从基础模型60%左右到90%以上的飞跃式性能提升,甚至超越了GPT-4o等顶尖模型,证明了该框架的强大效力。 4. 有效的奖励黑客防治:系统性地使用KL正则化来约束策略更新,被证明是防止模型在优化特定奖励时发生质量或多样性退化(即奖励黑客)的有效手段。 5. 广泛的适用性与泛化性:方法在多种不同类型的奖励(规则奖励、模型奖励)和任务上均表现优异,并展现出良好的泛化能力,说明了其作为通用框架的潜力。

其他有价值内容 论文还讨论了本方法的局限性及未来方向,指出尽管当前聚焦于T2I任务,但Flow-GRPO有潜力应用于计算成本更高的视频生成领域。未来的挑战包括设计更复杂的奖励(如鼓励物理真实性和时序一致性)、平衡多目标优化,以及构建更高效的训练管道。此外,探索比KL正则化更有效的奖励黑客防范方法也是一个有价值的方向。论文附录提供了详尽的数学推导、实验细节、扩展结果和大量可视化案例,进一步支撑了研究的严谨性和结论的可靠性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com