一、 主要作者、机构及发表信息
本研究的主要作者包括Kaichen Zhang(第一作者,分别来自香港科技大学(广州)人工智能学域与作业帮教育科技)、Yuzhong Hong、Junwei Bao(通讯作者之一)、Hongfei Jiang、Yang Song、Dingqian Hong以及Hui Xiong(通讯作者之一,来自香港科技大学计算机科学与工程系及香港科技大学(广州))。研究团队主要成员来自香港科技大学(广州)与作业帮教育科技。该研究论文已提交至第39届神经信息处理系统大会(NeurIPS 2025),并于2024年10月27日在预印本平台arXiv上发布(arXiv:2504.19599v3 [cs.AI])。代码已开源在GitHub仓库:https://github.com/jszkc/gvpo。
二、 学术背景与研究目标
本研究属于人工智能领域,具体聚焦于大型语言模型(Large Language Models, LLMs)的后训练(Post-training)优化方法。后训练对于精炼和对齐大型语言模型,使其适应特定任务并符合人类偏好至关重要。尽管近年来后训练技术,如基于群组相对策略优化(Group Relative Policy Optimization, GRPO)的方法,通过增加采样和相对奖励评分实现了优越性能,但这些方法常受训练不稳定性困扰,限制了其实际应用。
研究的背景知识基于几个关键点:1)LLM后训练的统一框架,即多种算法(如监督微调SFT、GRPO、直接偏好优化DPO)的损失梯度均可表示为对响应对数似然梯度的加权和;2)KL约束奖励最大化问题的解析解,即最优策略与参考策略、奖励函数之间存在闭合形式的关系;3)现有方法如DPO虽然利用了此关系,但基于Bradley-Terry偏好模型,可能存在无法收敛到全局最优策略的理论缺陷;而GRPO等策略梯度方法则受限于在线(on-policy)采样或重要性采样(importance sampling)带来的稳定性与效率问题。
本研究的目标是提出一种名为群组方差策略优化(Group Variance Policy Optimization, GVPO)的新方法,旨在解决现有后训练方法,特别是GRPO的训练不稳定性问题,并同时提供坚实的理论保证和灵活的采样能力,从而为LLM后训练建立一个可靠且通用的新范式。
三、 详细研究流程与方法
本研究主要包含理论构建、算法设计、实验验证与对比分析几个核心流程。研究对象是大型语言模型的后训练过程,核心“处理对象”是策略模型(policy model)的参数以及用于训练的策略梯度更新规则。
1. 理论动机与核心洞察: 研究首先从后训练算法的统一梯度形式(公式7)出发,指出可以通过直接设计权重wi来编码对响应的偏好。受DPO成功的启发,研究者希望利用KL约束奖励最大化问题的最优策略解析解(公式4)。然而,该解析解中包含一个难以计算的分区函数Z(x)。研究团队发现了一个关键条件:当在一个提示(prompt)对应的响应组内,分配的权重之和为零(Σwi = 0)时,分区函数在对比不同响应时会保持不变,从而在策略更新规则中相互抵消。这一洞察是GVPO方法得以避开分区函数计算的核心。
2. GVPO方法设计: 基于上述洞察,研究者提出了GVPO方法。其梯度权重wi被设计为隐式奖励中心距离与实际奖励中心距离之差。具体而言,对于一个提示x和其对应的k个采样响应{yi},GVPO的梯度(公式8)为: ∇θ L_GVPO(θ) = -β Σ_x,{yi} Σ_i=1^k [ (r(x, yi) - r̄(x, {yi})) - β (log(πθ(yi|x)/πθ'(yi|x)) - log(πθ({yi}|x)/πθ'({yi}|x)) ) ] ∇θ log πθ(yi|x) 其中,r̄是组内实际奖励的均值,log(πθ({yi}|x)/πθ'({yi}|x))是组内隐式奖励(即β * log(πθ/πθ’))的均值。可以验证,这样设计的权重满足Σwi = 0的条件。
3. 理论保证推导: 研究团队证明了GVPO具有重要的理论性质(定理3.1与定理3.2): * 唯一最优解:GVPO损失函数(公式9,期望形式)具有唯一的最优策略,且该策略恰好就是KL约束奖励最大化问题(公式3)的最优解π*。这确保了优化过程能收敛到全局最优,克服了DPO可能存在的收敛问题。 * 灵活的采样分布:上述最优解保证不仅适用于从参考策略πθ’采样的传统情况,而且适用于任何满足温和条件(即参考策略支持集是采样策略支持集的子集)的采样分布πs。这打破了传统策略梯度方法必须进行在线采样或依赖重要性采样的限制。
4. 物理意义与结构分解: 研究进一步阐释了GVPO的直观物理意义和损失函数结构: * 均方误差解释:GVPO的梯度等效于最小化隐式奖励中心距离与实际奖励中心距离之间的均方误差。这为算法提供了清晰的优化目标。 * 方差分解:GVPO的损失梯度可以分解为三个部分(公式10):1) 优势最大化项 (r(x,y) - E[r]) log πθ,鼓励高奖励响应的概率;2) 协方差正则项 Cov(log πθ, log πθ'),约束当前策略相对参考策略的偏离,起到类似信任区域(trust-region)的稳定作用;3) 方差项 Var(log πθ),作为正则化器平衡探索与利用。研究特别指出,方差项相比传统熵正则化具有优势,它允许某些响应概率为零(抑制不良输出),同时保持其他响应概率相近,而不会施加过度惩罚。
5. 实验验证流程: 实验部分旨在评估GVPO的有效性、鲁棒性及其相对于基线方法的优势。 * 任务与模型:主要实验在数学推理任务上进行。使用Qwen2.5-Math-7B作为基础模型,在竞赛数学数据集上进行后训练,并在AIME2024、AMC、Math500、Minerva、OlympiadBench五个基准测试上评估性能。此外,还在摘要生成任务上进行了补充实验(附录C)。 * 基线方法:对比方法包括基础模型、GRPO及其变体DR.GRPO、ReMax、Reinforce++。 * 实验设置:为保证公平,所有方法保持相同的实验设置(如批次大小、训练步数、采样数k=5等),仅替换算法核心部分。GVPO使用超参数β=0.1,采样策略πs设置为上一步的策略πθ_old。 * 评估指标:除AIME2024使用avg@32准确率外,其他基准均使用pass@1准确率。使用xVerify框架进行答案验证。 * 消融研究:系统进行了以下消融实验:1) 超参数β敏感性分析;2) 采样数量k的缩放性分析(使用Qwen2.5-Math-1.5B模型);3) 采样分布πs的灵活性验证,探索混合历史响应与当前策略采样的启发式方法;4) 正则化项作用分析,分别移除方差项(Var)、协方差项(Cov)或两者,以及用熵正则化替代方差项;5) 随机种子鲁棒性检验;6) 不同基础模型泛化性检验(使用Llama-3.1-8B-Instruct)。
四、 主要研究结果
1. 主要性能结果(表1): 在数学推理任务上,GVPO在所有五个基准测试中均取得了最佳性能,显著超越了基础模型Qwen2.5-Math-7B以及GRPO等其他后训练方法。例如,在AMC上达到62.65%,在Math500上达到83.80%,在OlympiadBench上达到46.96%。这表明GVPO在提升模型复杂问题解决能力方面非常有效。研究者将此归因于其收敛到全局最优的理论保证。
2. 消融实验结果: * 超参数β敏感性(图2):GVPO在不同β值(0.01到0.5)下性能波动很小,表现出对超参数的强鲁棒性,降低了调参需求。 * 采样数量k的缩放性(图3):在Qwen2.5-Math-1.5B模型上,GVPO在不同k值下始终优于GRPO,并展现出更好的可扩展性。值得注意的是,通过增加k,1.5B模型在AIME2024上的性能可匹配7B模型使用GRPO的表现,这暗示了GVPO具有通过增加采样来降低推理成本的潜力。 * 采样分布πs灵活性(图4):实验表明,即使使用混合了历史响应和当前策略采样的πs,GVPO仍能保持稳健的性能。这验证了其支持灵活离策略(off-policy)采样的理论优势,为降低训练时的采样成本以及结合更复杂的探索策略提供了可能。 * 正则化项分析(表2):移除方差项(Var)或协方差项(Cov)中的任何一个都会导致模型无法收敛,产生无意义的输出。同时移除两者(即仅保留优势最大化项r - r̄)会导致训练约10%步数后发散。用熵正则化替代方差项也会导致模型不稳定或性能下降,即使降低学习率也只能获得次优结果。这证实了GVPO中由理论导出的方差项对于稳定训练至关重要,且优于需要手动调参的熵正则化。 * 鲁棒性检验(表3、表4):使用10个随机种子的实验表明,GVPO在保持与GRPO相近标准差(稳定性)的同时,整体性能显著更优。在Llama-3.1-8B-Instruct基础模型上的实验也重现了GVPO优于GRPO的结果,证明了其方法在不同模型上的泛化能力。
3. 补充任务结果(附录C,表5): 在基于Reddit TL;DR数据集的摘要生成任务上,GVPO在多个评估指标上均超越DPO:获得更高的奖励模型平均分(5.75 vs 4.83)、更高的胜率(79.49% vs 68.28%)、更高的人类偏好标注准确率(64.93% vs 60.43%),并且在GPT-4o、Gemini-2.5-Pro、DeepSeek-R1等大模型评估以及人工评估中均获得更高偏好比例。这表明GVPO的改进与对齐(Alignment)质量的提升正相关。
这些结果层层递进,首先确立了GVPO在核心任务上的有效性(主实验),然后通过一系列消融实验深入揭示了其特性(鲁棒性、灵活性、稳定性来源),最后在另一任务上验证了其泛化性。实验结果有力地支撑了GVPO在理论和实践上的优势。
五、 研究结论与价值
本研究提出并验证了群组方差策略优化(GVPO)这一大型语言模型后训练新方法。其核心结论是:GVPO通过将KL约束奖励最大化问题的解析解直接融入梯度权重设计,并利用“组内权重和为零”的条件消除分区函数,成功实现了兼具理论保证与实践灵活性的策略优化。
研究的科学价值在于: 1. 理论贡献:GVPO保证了其损失函数具有唯一最优解,且该解与原始KL约束奖励最大化目标一致,从理论上解决了DPO类方法可能存在的非最优收敛问题。同时,其理论框架支持任意的采样分布,突破了传统策略梯度方法对在线采样或重要性采样的依赖,为离策略RL在LLM训练中的应用提供了新的理论范式。 2. 算法创新:GVPO提供了直观的均方误差解释和可分解的损失结构(优势最大化、协方差约束、方差正则化),深化了对策略优化过程的理解。其中,方差项作为一种新颖的正则化器,提供了比熵正则化更稳定的探索-利用平衡机制。
应用价值在于: 1. 提升训练稳定性与效率:GVPO减轻了对超参数(如β)的敏感性,降低了调参成本。其支持离策略采样的特性允许重用或混合多样化的数据源(如专家示范、历史策略数据),有望提高数据利用率和训练效率。 2. 实现更优性能:在数学推理和摘要生成等多个任务上的实验表明,GVPO能够稳定地训练出性能更优的模型,尤其在复杂任务上表现突出。 3. 为可靠的LLM对齐提供新工具:GVPO将理论鲁棒性与实践适应性相统一,为致力于开发可靠、可控、高性能大型语言模型的研究者与工程师提供了一个有前景的新选择。
六、 研究亮点
Var(log πθ)项作为一个理论导出的正则化器,被证明对于训练稳定性至关重要,且优于需要精细调参的传统熵正则化。这是算法设计中的一个巧妙之处。七、 其他有价值内容
论文在讨论部分(第3.4、3.5节)与DPO、GRPO及策略梯度方法进行了深入比较,清晰地阐述了GVPO与这些方法的联系与区别。例如,指出GVPO与DPO共享利用闭合形式解的核心思想,但通过不同的技术路径(组内零和权重 vs. Bradley-Terry模型)解决了分区函数问题,并因此获得了更优的理论收敛保证。与GRPO等策略梯度方法相比,GVPO揭示了经典策略梯度在信任域约束下是GVPO梯度在πs = πθ时的特例,从而从更一般的框架下理解了策略优化。这些讨论有助于读者在更广阔的学术脉络中定位GVPO的贡献。
此外,论文提供了简洁的代码实现示例(附录A.2),表明GVPO可以基于现有RL框架(如VERL)通过少量修改快速实现,降低了应用门槛。