分享自:

面向LLM智能体训练的分组内分组策略优化

期刊:Conference on Neural Information Processing Systems (NeurIPS)

基于“Group-in-Group Policy Optimization for LLM Agent Training”研究的学术报告

一、 主要作者与发表信息

本研究的主要作者为 Lang Feng, Zhenghai Xue, Tingcong Liu 和 Bo An。其中,Lang Feng, Zhenghai Xue, Tingcong Liu 来自新加坡南洋理工大学(Nanyang Technological University),Bo An 同时隶属于南洋理工大学和新加坡的 Skywork AI。该研究已发表于第 39 届神经信息处理系统大会(NeurIPS 2025)。论文的代码已开源,项目地址为:https://github.com/langfengq/verl-agent。

二、 学术背景与研究动机

本研究隶属于人工智能领域,具体聚焦于大语言模型(Large Language Models, LLMs)作为智能代理(Agent)的训练与优化。近年来,LLMs 已从静态的问答系统演进为能够在开放环境中感知、推理和行动的自主代理,广泛应用于模拟家庭环境导航、网页交互、游戏等复杂多步决策任务。在这些任务中,代理需要与环境进行多轮次交互,奖励信号往往是稀疏的或延迟的,这使得如何将最终的成功或失败归因于轨迹中的每一个具体行动(即“信用分配”,Credit Assignment)变得极具挑战性。

强化学习(Reinforcement Learning, RL)已成为LLM后训练的关键技术,催生了如 OpenAI o1 和 DeepSeek R1 等前沿模型。其中,基于组的强化学习算法(Group-based RL),如 GRPO,因其无需价值函数、内存占用低、收敛稳定等优点,在数学推理等单轮任务中取得了巨大成功。然而,这些方法在多轮LLM代理训练中存在显著局限:它们通常在整条轨迹层面计算一个单一的相对优势(Relative Advantage),这导致无法对轨迹内部各个步骤的贡献进行精细评估。在多步、长视野的任务中,这种粗粒度的信用分配会模糊关键决策步骤的影响,从而限制了代理策略优化的效率和最终性能。

因此,本研究旨在解决一个核心问题:我们能否在保留基于组的强化学习(无价值函数、低内存、稳定收敛)优点的同时,为多轮LLM代理训练引入细粒度的信用分配机制? 为此,作者提出了名为“Group-in-Group Policy Optimization”(GIGPO)的新型强化学习算法。

三、 详细工作流程与方法论

GIGPO 的核心创新在于设计了一个双层分组结构,以分层的方式估计相对优势,从而同时捕捉全局轨迹质量和局部步骤有效性。其详细工作流程如下:

  1. 问题设定与环境交互

    • 研究设定了一个通用的多步任务场景:LLM 代理根据任务描述 x,在离散时间步 t 观察环境状态 s_t,生成文本动作 a_t,环境返回奖励 r_t 和下一状态 s_{t+1}。一个完整的回合构成一条轨迹 τ。代理的行为由参数化的LLM策略 π_θ 控制。
    • 与传统的基于组的RL方法类似,GIGPO首先在相同的初始任务和环境下,并行地采样 n 条完整的轨迹 {τ_1, τ_2, ..., τ_n},形成一个“轨迹组”。
  2. 双层优势估计: GIGPO 的核心在于对上述轨迹组进行两个层面的分析:

    • A. 回合级相对优势(Episode-level Relative Advantage)

      • 流程:计算每条轨迹 τ_i 的总回报 R(τ_i)。将所有轨迹及其回报组织成一个回合级组 G_e
      • 优势计算:对于每条轨迹,计算其回合级优势 A_e(τ_i)。这借鉴了GRPO的思想,通过将轨迹的回报与组内其他轨迹的回报进行比较来获得。计算公式为:A_e(τ_i) = [R(τ_i) - mean({R(τ_j)})] / f_norm。其中 f_norm 可以是组内回报的标准差(std)或常数1。使用常数1能避免在回报方差极低的任务中梯度过度放大的问题。
      • 作用A_e 提供了宏观的、轨迹层面的信号,评估整条轨迹相对于组内其他轨迹的总体质量,鼓励策略产生连贯的、能最大化整体任务回报的行为。
    • B. 步骤级相对优势(Step-level Relative Advantage)

      • 流程:这是GIGPO的关键创新。算法回顾性地分析所有 n 条轨迹,识别出在不同轨迹中重复出现的环境状态,这些状态被称为“锚状态”(Anchor State)。例如,在网页购物任务中,多个轨迹可能多次访问同一个搜索结果页面。
      • 锚状态分组机制(Anchor State Grouping):对于每一个独特的锚状态 ,算法将所有轨迹中在状态 下采取的动作及其后续的折扣回报收集起来,构成一个步骤级组 G_s(s̃)。这个过程完全离线进行,仅需轻量级的哈希表操作,无需额外的模型前向传播或环境交互,计算开销极低。
      • 优势计算:对于步骤级组 G_s(s̃) 中的每一个动作 a_t^{(i)},计算其步骤级优势 A_s(a_t^{(i)})。计算方式与回合级类似,但比较的是在同一锚状态下,不同动作所对应的折扣回报。折扣回报 R_γ^{(i)}(t) 考虑了未来奖励的折现,能更好地反映单个动作的长期影响。
      • 作用A_s 提供了微观的、步骤层面的信号。它能够区分在相同环境下,哪个动作比另一个动作更好。例如,在图3的WebShop例子中,在同一个搜索结果页面,点击“第一项”的动作会比点击“第二项”或“下一页”获得更高的步骤级优势,即使这些动作出现在不同轨迹中。这实现了细粒度的信用分配。
  3. 策略优化

    • 将两个层面的优势信号结合,形成最终的“组中组”优势:A(a_t^{(i)}) = A_e(τ_i) + ω * A_s(a_t^{(i)}),其中 ω 是平衡权重。
    • 使用这个组合优势,通过近端策略优化(Proximal Policy Optimization, PPO)风格的裁剪目标函数 J_GIGPO(θ) 来更新LLM策略参数 θ。该目标函数包含重要性采样比率、优势函数裁剪以及鼓励策略接近参考策略的KL散度惩罚项。

四、 主要实验结果与分析

研究在三个具有挑战性的基准上评估了GIGPO:AlfWorld(具身任务规划)、WebShop(网页交互)以及搜索增强的问答(QA)任务。实验使用Qwen2.5-1.5B/3B/7B-Instruct作为基础模型。

  1. 在AlfWorld和WebShop上的性能

    • 对比基线:研究比较了闭源模型(GPT-4o, Gemini-2.5-Pro)、基于提示的代理(ReAct, Reflexion)以及多种RL训练方法(PPO, RLOO, GRPO)。
    • 结果:GIGPO在所有模型规模上均显著超越了所有基线。例如,在1.5B模型上,GIGPO(f_norm=1)在AlfWorld上的整体成功率比GRPO高出13.3%,在WebShop上高出10.6%。在7B模型上,分别高出12.6%和9.1%。
    • 分析:结果表明,GIGPO引入的细粒度步骤级信用信号有效提升了代理在长视野、稀疏奖励任务中的学习能力。即使与需要额外价值函数网络的PPO相比,GIGPO在性能相当甚至更好的同时,保持了基于组RL的简洁高效(无价值函数、低内存)。
  2. 在搜索增强QA任务上的性能

    • 结果:在单跳和多跳QA数据集上,GIGPO同样取得了最佳性能。例如,Qwen2.5-7B模型达到了47.2%的平均准确率,优于Search-R1、ZeroSearch和StepSearch等基线。
    • 分析:GIGPO还表现出更高的工具调用效率。在最多允许3次工具调用的限制下,GIGPO训练的代理平均调用次数更少,说明其能有效识别并抑制多轮决策中的冗余查询,这得益于锚状态分组机制对重复模式的识别和优化。
  3. 消融实验(Ablation Study)

    • 实验设计:对比了完整的GIGPO、移除回合级优势(w/o A_e)、移除步骤级优势(w/o A_s)以及不同归一化因子(f_norm=std vs f_norm=1)的变体。
    • 结果:移除任何一个优势组件(A_eA_s)都会导致性能显著下降,尤其是在复杂任务上。这证明了两层信号对于有效训练都是至关重要的。归一化因子的选择对性能影响相对较小,且具有任务依赖性。
  4. 步骤级组的动态分析

    • 实验观察:在训练过程中跟踪步骤级组的大小分布。发现训练初期,大尺寸组(行为冗余、无效动作多)占比较高。随着训练进行,组大小分布趋于集中(围绕组大小n=8),表明代理学会了更一致、有效的策略,行为冗余减少。
    • 分析:这直观展示了GIGPO如何通过锚状态分组,自然地利用策略探索中的重复状态来提供学习信号,并随着策略改进,分组结构也相应演变。
  5. 计算开销分析

    • 结果:与GRPO相比,GIGPO增加的额外计算(锚状态分组和步骤级优势计算)仅占每轮训练总时间的不到0.002%。两者在GPU内存占用和模型前向传播(Rollout)成本上完全相同。
    • 分析:这强有力地证明了GIGPO在引入细粒度信用分配的同时,完全保留了基于组RL的高计算效率核心优势。

五、 研究结论与价值

本研究提出的GIGPO算法,成功解决了长视野LLM代理训练中的细粒度信用分配难题。其主要结论与价值如下:

  • 方法学贡献:GIGPO通过创新的“锚状态分组”机制,在不增加额外模型前向传播或内存开销的前提下,实现了对代理决策轨迹中每一步的精细评估。它将基于组的RL从单轮任务成功拓展至复杂的多轮交互场景。
  • 性能提升:在多个标准基准测试中,GIGPO显著超越了现有的提示方法和RL基线,证明了其方法的有效性和优越性。
  • 效率与实用性:GIGPO保持了基于组RL的“无价值函数、低内存、稳定收敛”的全部优点,计算开销几乎可以忽略不计,使其成为一个适用于大规模LLM代理训练的高效、实用算法。
  • 开源与推广:作者同期发布了开源训练框架VERL-Agent,整合了GIGPO等多种RL算法,支持多种环境和模型,旨在推动LLM代理训练研究的发展。

六、 研究亮点

  1. 核心创新:提出了“组中组策略优化”(GIGPO)这一新颖的RL算法,其核心是双层(回合级+步骤级)相对优势估计锚状态分组机制
  2. 解决关键问题首次在基于组的RL框架内,高效地实现了对多步LLM代理的细粒度信用分配,填补了该领域的方法空白。
  3. “免费午餐”式的改进:在性能取得显著提升(>12% on AlfWorld, >9% on WebShop)的同时,计算开销和内存占用与基线GRPO几乎持平,实现了性能与效率的双赢。
  4. 坚实的实验验证:在具身任务、网页交互、工具调用推理三大类任务上进行了全面、深入的实验,包含充分的消融分析、动态过程剖析和计算成本量化,结论令人信服。
  5. 良好的理论性质:当环境中没有重复状态时(步骤级组为空),GIGPO会自动退化为GRPO,确保了算法性能的下界。

七、 其他有价值内容

论文还讨论了GIGPO的潜在局限性,即其依赖于精确的状态匹配来构建锚状态组。在状态表示复杂或存在噪声的环境中,精确匹配可能困难。作者提出可以通过基于嵌入相似度的分组等策略来缓解,这为未来研究指明了方向。此外,论文附录提供了详细的训练超参数、提示模板以及关于优势估计器无偏性的理论推导,增加了研究的可复现性和深度。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com