基于“Group-in-Group Policy Optimization for LLM Agent Training”研究的学术报告
一、 主要作者与发表信息
本研究的主要作者为 Lang Feng, Zhenghai Xue, Tingcong Liu 和 Bo An。其中,Lang Feng, Zhenghai Xue, Tingcong Liu 来自新加坡南洋理工大学(Nanyang Technological University),Bo An 同时隶属于南洋理工大学和新加坡的 Skywork AI。该研究已发表于第 39 届神经信息处理系统大会(NeurIPS 2025)。论文的代码已开源,项目地址为:https://github.com/langfengq/verl-agent。
二、 学术背景与研究动机
本研究隶属于人工智能领域,具体聚焦于大语言模型(Large Language Models, LLMs)作为智能代理(Agent)的训练与优化。近年来,LLMs 已从静态的问答系统演进为能够在开放环境中感知、推理和行动的自主代理,广泛应用于模拟家庭环境导航、网页交互、游戏等复杂多步决策任务。在这些任务中,代理需要与环境进行多轮次交互,奖励信号往往是稀疏的或延迟的,这使得如何将最终的成功或失败归因于轨迹中的每一个具体行动(即“信用分配”,Credit Assignment)变得极具挑战性。
强化学习(Reinforcement Learning, RL)已成为LLM后训练的关键技术,催生了如 OpenAI o1 和 DeepSeek R1 等前沿模型。其中,基于组的强化学习算法(Group-based RL),如 GRPO,因其无需价值函数、内存占用低、收敛稳定等优点,在数学推理等单轮任务中取得了巨大成功。然而,这些方法在多轮LLM代理训练中存在显著局限:它们通常在整条轨迹层面计算一个单一的相对优势(Relative Advantage),这导致无法对轨迹内部各个步骤的贡献进行精细评估。在多步、长视野的任务中,这种粗粒度的信用分配会模糊关键决策步骤的影响,从而限制了代理策略优化的效率和最终性能。
因此,本研究旨在解决一个核心问题:我们能否在保留基于组的强化学习(无价值函数、低内存、稳定收敛)优点的同时,为多轮LLM代理训练引入细粒度的信用分配机制? 为此,作者提出了名为“Group-in-Group Policy Optimization”(GIGPO)的新型强化学习算法。
三、 详细工作流程与方法论
GIGPO 的核心创新在于设计了一个双层分组结构,以分层的方式估计相对优势,从而同时捕捉全局轨迹质量和局部步骤有效性。其详细工作流程如下:
问题设定与环境交互:
x,在离散时间步 t 观察环境状态 s_t,生成文本动作 a_t,环境返回奖励 r_t 和下一状态 s_{t+1}。一个完整的回合构成一条轨迹 τ。代理的行为由参数化的LLM策略 π_θ 控制。n 条完整的轨迹 {τ_1, τ_2, ..., τ_n},形成一个“轨迹组”。双层优势估计: GIGPO 的核心在于对上述轨迹组进行两个层面的分析:
A. 回合级相对优势(Episode-level Relative Advantage):
τ_i 的总回报 R(τ_i)。将所有轨迹及其回报组织成一个回合级组 G_e。A_e(τ_i)。这借鉴了GRPO的思想,通过将轨迹的回报与组内其他轨迹的回报进行比较来获得。计算公式为:A_e(τ_i) = [R(τ_i) - mean({R(τ_j)})] / f_norm。其中 f_norm 可以是组内回报的标准差(std)或常数1。使用常数1能避免在回报方差极低的任务中梯度过度放大的问题。A_e 提供了宏观的、轨迹层面的信号,评估整条轨迹相对于组内其他轨迹的总体质量,鼓励策略产生连贯的、能最大化整体任务回报的行为。B. 步骤级相对优势(Step-level Relative Advantage):
n 条轨迹,识别出在不同轨迹中重复出现的环境状态,这些状态被称为“锚状态”(Anchor State)。例如,在网页购物任务中,多个轨迹可能多次访问同一个搜索结果页面。s̃,算法将所有轨迹中在状态 s̃ 下采取的动作及其后续的折扣回报收集起来,构成一个步骤级组 G_s(s̃)。这个过程完全离线进行,仅需轻量级的哈希表操作,无需额外的模型前向传播或环境交互,计算开销极低。G_s(s̃) 中的每一个动作 a_t^{(i)},计算其步骤级优势 A_s(a_t^{(i)})。计算方式与回合级类似,但比较的是在同一锚状态下,不同动作所对应的折扣回报。折扣回报 R_γ^{(i)}(t) 考虑了未来奖励的折现,能更好地反映单个动作的长期影响。A_s 提供了微观的、步骤层面的信号。它能够区分在相同环境下,哪个动作比另一个动作更好。例如,在图3的WebShop例子中,在同一个搜索结果页面,点击“第一项”的动作会比点击“第二项”或“下一页”获得更高的步骤级优势,即使这些动作出现在不同轨迹中。这实现了细粒度的信用分配。策略优化:
A(a_t^{(i)}) = A_e(τ_i) + ω * A_s(a_t^{(i)}),其中 ω 是平衡权重。J_GIGPO(θ) 来更新LLM策略参数 θ。该目标函数包含重要性采样比率、优势函数裁剪以及鼓励策略接近参考策略的KL散度惩罚项。四、 主要实验结果与分析
研究在三个具有挑战性的基准上评估了GIGPO:AlfWorld(具身任务规划)、WebShop(网页交互)以及搜索增强的问答(QA)任务。实验使用Qwen2.5-1.5B/3B/7B-Instruct作为基础模型。
在AlfWorld和WebShop上的性能:
f_norm=1)在AlfWorld上的整体成功率比GRPO高出13.3%,在WebShop上高出10.6%。在7B模型上,分别高出12.6%和9.1%。在搜索增强QA任务上的性能:
消融实验(Ablation Study):
w/o A_e)、移除步骤级优势(w/o A_s)以及不同归一化因子(f_norm=std vs f_norm=1)的变体。A_e 或 A_s)都会导致性能显著下降,尤其是在复杂任务上。这证明了两层信号对于有效训练都是至关重要的。归一化因子的选择对性能影响相对较小,且具有任务依赖性。步骤级组的动态分析:
计算开销分析:
五、 研究结论与价值
本研究提出的GIGPO算法,成功解决了长视野LLM代理训练中的细粒度信用分配难题。其主要结论与价值如下:
六、 研究亮点
七、 其他有价值内容
论文还讨论了GIGPO的潜在局限性,即其依赖于精确的状态匹配来构建锚状态组。在状态表示复杂或存在噪声的环境中,精确匹配可能困难。作者提出可以通过基于嵌入相似度的分组等策略来缓解,这为未来研究指明了方向。此外,论文附录提供了详细的训练超参数、提示模板以及关于优势估计器无偏性的理论推导,增加了研究的可复现性和深度。