分享自:

Regent: 一种检索增强的通用代理,可在新环境中进行上下文学习

期刊:ICLR

学术研究报告:REGENT——基于检索增强的通用智能体及其在新环境中的上下文学习能力

一、作者与发表信息
本研究的核心作者包括Kaustubh Sridhar、Souradeep Dutta(兼属University of British Columbia)、Dinesh Jayaraman和Insup Lee,均来自University of Pennsylvania。论文以会议论文形式发表于ICLR 2025,标题为《REGENT: A Retrieval-Augmented Generalist Agent that Can Act In-Context in New Environments》。

二、学术背景与研究目标
研究领域为强化学习与通用人工智能(AGI),核心问题是如何构建快速适应新环境的通用智能体。当前主流方法依赖大规模预训练模型(如Gato、JAT等),但其参数量大(如Gato达12亿)、数据需求高,且难以通过少量演示(demonstrations)实现无微调(fine-tuning)的迁移。

本研究提出了一种创新思路:利用检索机制(retrieval)为智能体提供快速适应的偏置(bias)。通过实验发现,即使简单的1-近邻检索智能体“Retrieve and Play (R&P)”也能与现有最优模型性能相当。基于此,作者开发了半参数化架构REGENT,其核心是通过检索增强(retrieval-augmented)和上下文学习(in-context learning),在参数量减少3倍、预训练数据量减少一个数量级的条件下,显著超越现有方法。

三、研究流程与方法

  1. 基础方法验证:Retrieve and Play (R&P)

    • 对象与样本:在机器人操作(MetaWorld、MuJoCo)和游戏(Atari、ProcGen)两类环境中测试,使用少量目标环境的专家演示数据(如Atari中10k transitions)。
    • 方法:对当前状态(query state),从演示数据中检索最接近的状态(1-nearest neighbor),直接执行其对应动作。
    • 结果:R&P在未见环境中表现优于或匹配当前最优通用智能体(如JAT/Gato),且无需预训练或神经网络策略。
  2. 半参数化架构REGENT的设计

    • 架构:基于Transformer的策略网络,输入包括当前状态、历史奖励及检索到的(状态、奖励、动作)元组(最多19个最近邻)。
    • 关键创新
      • 动作插值机制:通过距离加权将R&P动作与Transformer预测动作结合(公式1),距离越近越依赖检索动作,越远则依赖Transformer。
      • 距离归一化:使用ℓ2距离(图像嵌入)或SSIM距离(原始图像),并归一化至[0,1]。
      • 混合激活函数:连续动作空间采用MixedReLU(类tanh函数),离散空间采用软化R&P分布(公式3)。
  3. 预训练与评估

    • 数据集
      • JAT/Gato设置:45个MetaWorld、9个MuJoCo、52个Atari、39个BabyAI环境,共14.5M transitions(仅为JAT数据量的1/5-1/10)。
      • ProcGen设置:12个训练环境,每环境1M transitions(比MTT少一个数量级)。
    • 训练细节:使用AdamW优化器,学习率5e-5(JAT/Gato)或1e-4(ProcGen),早停(early stopping)防止过拟合。
    • 评估指标:标准化回报(normalized return),对比基线包括JAT/Gato、MTT及微调版本。

四、主要结果与逻辑链条

  1. 未见环境泛化能力

    • JAT/Gato设置(图4):REGENT在5个MetaWorld和5个Atari未见环境中,仅需25-100条演示轨迹即显著优于JAT/Gato(即使后者使用全量数据预训练)。例如,在Atari-Pong中,REGENT标准化回报达0.8(JAT/Gato为0.2)。
    • ProcGen设置(图5):REGENT参数量(1.16亿)仅为MTT(3.1亿)的1/3,但性能超越MTT(如BigFish环境回报提高30%)。
  2. 微调效果

    • JAT/Gato即使微调(fine-tuning)后性能提升有限,而REGENT微调后进一步优化(图13)。例如,MuJoCo-HalfCheetah环境中,微调REGENT回报从0.08提升至0.34。
  3. 训练环境表现

    • REGENT在训练环境中同样优于基线(图7),如MetaWorld平均回报达0.83(JAT/Gato为0.43),证明其兼具通用性与任务特异性。

五、结论与价值
1. 科学价值
- 提出检索机制作为通用智能体适应的核心偏置,挑战了“规模扩展(scaling)是唯一路径”的传统认知。
- 理论证明(定理5.2)子最优性差距(sub-optimality gap)随演示数据覆盖度降低,为数据效率提供了理论支撑。

  1. 应用价值
    • 在机器人、游戏等领域,REGENT可实现低资源部署(如仅需10k transitions适应新Atari游戏),而现有方法需百万级数据(如Multi-Game Decision Transformer)。

六、研究亮点
1. 方法创新:首次将检索增强与Transformer结合,通过动作插值平衡检索与学习。
2. 效率突破:参数量减少3倍,数据量减少10倍仍优于基线。
3. 跨模态通用性:同一策略处理图像(Atari)、向量(MuJoCo)、文本(BabyAI)等多模态输入。

七、其他价值
- 开源代码与完整实验细节(附录A)确保可复现性;
- 讨论了检索机制在长视界(long-horizon)和新具身(embodiment)任务中的局限性,为未来研究指明方向。

(注:专业术语如in-context learning首次出现译为“上下文学习”,sub-optimality gap译为“子最优性差距”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com