面向LLM智能体训练的分组内分组策略优化

分享自：
面向LLM智能体训练的分组内分组策略优化

期刊:Conference on Neural Information Processing Systems (NeurIPS)
基于“Group-in-Group Policy Optimization for LLM Agent Training”研究的学术报告
一、 主要作者与发表信息
本研究的主要作者为 Lang Feng, Zhenghai Xue, Tingcong Liu 和 Bo An。其中，Lang Feng, Zhenghai Xue, Tingcong Liu 来自新加坡南洋理工大学（Nanyang Technological University），Bo An 同时隶属于南洋理工大学和新加坡的 Skywork AI。该研究已发表于第 39 届神经信息处理系统大会（NeurIPS 2025）。论文的代码已开源，项目地址为：https://github.com/langfengq/verl-agent。
二、 学术背景与研究动机
本研究隶属于人工智能领域，具体聚焦于大语言模型（Large Language Models, LLMs）作为智能代理（Agent）的训练与优化。近年来，LLMs 已从静态的问答系统演进为能够在开放环境中感知、推理和行动的自主代理，广泛应用于模拟家庭环境导航、网页交互、游戏等复杂多步决策任务。在这些任务中，代理需要与环境进行多轮次交互，奖励信号往往是稀疏的或延迟的，这使得如何将最终的成功或失败归因于轨迹中的每一个具体行动（即“信用分配”，Credit Assignment）变得极具挑战性。
强化学习（Reinforcement Learning, RL）已成为LLM后训练的关键技术，催生了如 OpenAI o1 和 DeepSeek R1 等前沿模型。其中，基于组的强化学习算法（Group-based RL），如 GRPO，因其无需价值函数、内存占用低、收敛稳定等优点，在数学推理等单轮任务中取得了巨大成功。然而，这些方法在多轮LLM代理训练中存在显著局限：它们通常在整条轨迹层面计算一个单一的相对优势（Relative Advantage），这导致无法对轨迹内部各个步骤的贡献进行精细评估。在多步、长视野的任务中，这种粗粒度的信用分配会模糊关键决策步骤的影响，从而限制了代理策略优化的效率和最终性能。
因此，本研究旨在解决一个核心问题：我们能否在保留基于组的强化学习（无价值函数、低内存、稳定收敛）优点的同时，为多轮LLM代理训练引入细粒度的信用分配机制？ 为此，作者提出了名为“Group-in-Group Policy Optimization”（GIGPO）的新型强化学习算法。
三、 详细工作流程与方法论
GIGPO 的核心创新在于设计了一个双层分组结构，以分层的方式估计相对优势，从而同时捕捉全局轨迹质量和局部步骤有效性。其详细工作流程如下：
问题设定与环境交互：
研究设定了一个通用的多步任务场景：LLM 代理根据任务描述 x，在离散时间步 t 观察环境状态 s_t，生成文本动作 a_t，环境返回奖励 r_t 和下一状态 s_{t+1}。一个完整的回合构成一条轨迹 τ。代理的行为由参数化的LLM策略 π_θ 控制。
与传统的基于组的RL方法类似，GIGPO首先在相同的初始任务和环境下，并行地采样 n 条完整的轨迹 {τ_1, τ_2, ..., τ_n}，形成一个“轨迹组”。
双层优势估计： GIGPO 的核心在于对上述轨迹组进行两个层面的分析：
A. 回合级相对优势（Episode-level Relative Advantage）：
流程：计算每条轨迹 τ_i 的总回报 R(τ_i)。将所有轨迹及其回报组织成一个回合级组 G_e。
优势计算：对于每条轨迹，计算其回合级优势 A_e(τ_i)。这借鉴了GRPO的思想，通过将轨迹的回报与组内其他轨迹的回报进行比较来获得。计算公式为：A_e(τ_i) = [R(τ_i) - mean({R(τ_j)})] / f_norm。其中 f_norm 可以是组内回报的标准差（std）或常数1。使用常数1能避免在回报方差极低的任务中梯度过度放大的问题。
作用：A_e 提供了宏观的、轨迹层面的信号，评估整条轨迹相对于组内其他轨迹的总体质量，鼓励策略产生连贯的、能最大化整体任务回报的行为。
B. 步骤级相对优势（Step-level Relative Advantage）：
流程：这是GIGPO的关键创新。算法回顾性地分析所有 n 条轨迹，识别出在不同轨迹中重复出现的环境状态，这些状态被称为“锚状态”（Anchor State）。例如，在网页购物任务中，多个轨迹可能多次访问同一个搜索结果页面。
锚状态分组机制（Anchor State Grouping）：对于每一个独特的锚状态 s̃，算法将所有轨迹中在状态 s̃ 下采取的动作及其后续的折扣回报收集起来，构成一个步骤级组 G_s(s̃)。这个过程完全离线进行，仅需轻量级的哈希表操作，无需额外的模型前向传播或环境交互，计算开销极低。
优势计算：对于步骤级组 G_s(s̃) 中的每一个动作 a_t^{(i)}，计算其步骤级优势 A_s(a_t^{(i)})。计算方式与回合级类似，但比较的是在同一锚状态下，不同动作所对应的折扣回报。折扣回报 R_γ^{(i)}(t) 考虑了未来奖励的折现，能更好地反映单个动作的长期影响。
作用：A_s 提供了微观的、步骤层面的信号。它能够区分在相同环境下，哪个动作比另一个动作更好。例如，在图3的WebShop例子中，在同一个搜索结果页面，点击“第一项”的动作会比点击“第二项”或“下一页”获得更高的步骤级优势，即使这些动作出现在不同轨迹中。这实现了细粒度的信用分配。
策略优化：
将两个层面的优势信号结合，形成最终的“组中组”优势：A(a_t^{(i)}) = A_e(τ_i) + ω * A_s(a_t^{(i)})，其中 ω 是平衡权重。
使用这个组合优势，通过近端策略优化（Proximal Policy Optimization, PPO）风格的裁剪目标函数 J_GIGPO(θ) 来更新LLM策略参数 θ。该目标函数包含重要性采样比率、优势函数裁剪以及鼓励策略接近参考策略的KL散度惩罚项。
四、 主要实验结果与分析
研究在三个具有挑战性的基准上评估了GIGPO：AlfWorld（具身任务规划）、WebShop（网页交互）以及搜索增强的问答（QA）任务。实验使用Qwen2.5-1.5B/3B/7B-Instruct作为基础模型。
在AlfWorld和WebShop上的性能：
对比基线：研究比较了闭源模型（GPT-4o, Gemini-2.5-Pro）、基于提示的代理（ReAct, Reflexion）以及多种RL训练方法（PPO, RLOO, GRPO）。
结果：GIGPO在所有模型规模上均显著超越了所有基线。例如，在1.5B模型上，GIGPO（f_norm=1）在AlfWorld上的整体成功率比GRPO高出13.3%，在WebShop上高出10.6%。在7B模型上，分别高出12.6%和9.1%。
分析：结果表明，GIGPO引入的细粒度步骤级信用信号有效提升了代理在长视野、稀疏奖励任务中的学习能力。即使与需要额外价值函数网络的PPO相比，GIGPO在性能相当甚至更好的同时，保持了基于组RL的简洁高效（无价值函数、低内存）。
在搜索增强QA任务上的性能：
结果：在单跳和多跳QA数据集上，GIGPO同样取得了最佳性能。例如，Qwen2.5-7B模型达到了47.2%的平均准确率，优于Search-R1、ZeroSearch和StepSearch等基线。
分析：GIGPO还表现出更高的工具调用效率。在最多允许3次工具调用的限制下，GIGPO训练的代理平均调用次数更少，说明其能有效识别并抑制多轮决策中的冗余查询，这得益于锚状态分组机制对重复模式的识别和优化。
消融实验（Ablation Study）：
实验设计：对比了完整的GIGPO、移除回合级优势（w/o A_e）、移除步骤级优势（w/o A_s）以及不同归一化因子（f_norm=std vs f_norm=1）的变体。
结果：移除任何一个优势组件（A_e 或 A_s）都会导致性能显著下降，尤其是在复杂任务上。这证明了两层信号对于有效训练都是至关重要的。归一化因子的选择对性能影响相对较小，且具有任务依赖性。
步骤级组的动态分析：
实验观察：在训练过程中跟踪步骤级组的大小分布。发现训练初期，大尺寸组（行为冗余、无效动作多）占比较高。随着训练进行，组大小分布趋于集中（围绕组大小n=8），表明代理学会了更一致、有效的策略，行为冗余减少。
分析：这直观展示了GIGPO如何通过锚状态分组，自然地利用策略探索中的重复状态来提供学习信号，并随着策略改进，分组结构也相应演变。
计算开销分析：
结果：与GRPO相比，GIGPO增加的额外计算（锚状态分组和步骤级优势计算）仅占每轮训练总时间的不到0.002%。两者在GPU内存占用和模型前向传播（Rollout）成本上完全相同。
分析：这强有力地证明了GIGPO在引入细粒度信用分配的同时，完全保留了基于组RL的高计算效率核心优势。
五、 研究结论与价值
本研究提出的GIGPO算法，成功解决了长视野LLM代理训练中的细粒度信用分配难题。其主要结论与价值如下：
方法学贡献：GIGPO通过创新的“锚状态分组”机制，在不增加额外模型前向传播或内存开销的前提下，实现了对代理决策轨迹中每一步的精细评估。它将基于组的RL从单轮任务成功拓展至复杂的多轮交互场景。
性能提升：在多个标准基准测试中，GIGPO显著超越了现有的提示方法和RL基线，证明了其方法的有效性和优越性。
效率与实用性：GIGPO保持了基于组RL的“无价值函数、低内存、稳定收敛”的全部优点，计算开销几乎可以忽略不计，使其成为一个适用于大规模LLM代理训练的高效、实用算法。
开源与推广：作者同期发布了开源训练框架VERL-Agent，整合了GIGPO等多种RL算法，支持多种环境和模型，旨在推动LLM代理训练研究的发展。
六、 研究亮点
核心创新：提出了“组中组策略优化”（GIGPO）这一新颖的RL算法，其核心是双层（回合级+步骤级）相对优势估计和锚状态分组机制。
解决关键问题：首次在基于组的RL框架内，高效地实现了对多步LLM代理的细粒度信用分配，填补了该领域的方法空白。
“免费午餐”式的改进：在性能取得显著提升（>12% on AlfWorld, >9% on WebShop）的同时，计算开销和内存占用与基线GRPO几乎持平，实现了性能与效率的双赢。
坚实的实验验证：在具身任务、网页交互、工具调用推理三大类任务上进行了全面、深入的实验，包含充分的消融分析、动态过程剖析和计算成本量化，结论令人信服。
良好的理论性质：当环境中没有重复状态时（步骤级组为空），GIGPO会自动退化为GRPO，确保了算法性能的下界。
七、 其他有价值内容
论文还讨论了GIGPO的潜在局限性，即其依赖于精确的状态匹配来构建锚状态组。在状态表示复杂或存在噪声的环境中，精确匹配可能困难。作者提出可以通过基于嵌入相似度的分组等策略来缓解，这为未来研究指明了方向。此外，论文附录提供了详细的训练超参数、提示模板以及关于优势估计器无偏性的理论推导，增加了研究的可复现性和深度。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问