分享自:

基于事后经验回放的稀疏奖励强化学习

期刊:arXiv

本文档由来自OpenAI的研究团队发表,题为“Hindsight Experience Replay”。这篇论文发表于第31届神经信息处理系统大会(NeurIPS 2017)。主要作者包括Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel和Wojciech Zaremba。

学术背景

本研究的科学领域为强化学习(Reinforcement Learning, RL),尤其是针对稀疏奖励问题的解决。在现实世界的机器人任务中,设计一个既准确反映任务又易于优化的奖励函数(即奖励工程)非常困难且耗时,这极大地限制了强化学习的实际应用。人们常常需要通过精心设计的密集奖励来引导智能体学习,而直接从任务是否完成的稀疏二元信号中学习则被认为几乎不可能。本研究旨在开发一种能够直接从稀疏、二元奖励(例如仅指示任务成功或失败的信号)中进行高效学习的方法。其灵感来源于人类能从失败尝试中学习的能力——即使未能达成原定目标,该次尝试也能为如何达成实际已实现的目标提供经验。

研究流程详述

本研究提出并系统性地验证了一种名为事后经验回放(Hindsight Experience Replay, HER) 的新型算法框架。其核心思想是:即使一次尝试(episode)没有达到预定目标,也可以假设已经实现的最终状态是一个“目标”,并以这个新目标来重新评估该次尝试中的每一步动作。通过这种方式,每次尝试都能生成有价值的(非零奖励)学习信号,极大地缓解了稀疏奖励问题。

研究流程主要包括以下步骤: 1. 算法设计与框架构建: * HER并非一个独立的强化学习算法,而是一种可与任何离策略(off-policy) 强化学习算法(如DQN, DDPG)结合的通用技术。 * 研究采用通用价值函数近似器(Universal Value Function Approvisers, UVFA) 的框架。在此框架下,策略 π 和价值函数 Q 的输入不仅包含状态 s, 还包含一个目标 g。奖励函数 R(s, a, g) 取决于目标 g。 * HER的具体操作流程(详见算法1)如下:在每次与环境交互生成一个回合后,不仅将状态、动作、奖励、下一状态这个元组 (st, at, rt, st+1) 以原始目标 g 存入经验回放缓冲区(replay buffer),还会额外选取该回合中实际达到的一些其他目标 g’(例如,回合最终状态对应的目标)重新计算奖励 r’ = R(st, at, g’), 并将元组 (st, at, r’, st+1) 以新目标 g’ 存入缓冲区。在后续训练时,算法会从包含这些“事后”经验的缓冲区中采样并进行学习。

  1. 概念验证实验:比特翻转

    • 为了直观展示HER的有效性,研究首先在一个简单的“比特翻转”环境中进行测试。该环境状态为n位二进制向量,动作是翻转某一位。目标是使状态等于一个随机指定的目标向量,奖励在每一步都为-1直至成功。
    • 研究对象:对比标准的深度Q网络(DQN)算法与结合了HER的DQN算法(DQN+HER)。
    • 处理与测试:分别用两种算法在不同比特长度n的环境中进行训练。
    • 结果:标准DQN在n > 40时完全无法学习,而DQN+HER即使在n=50时也能高效解决问题。这证明了HER能在极度稀疏的奖励下实现高效学习。
  2. 核心机器人任务实验

    • 研究设计了三个具有挑战性的机器人操作任务,在一个7自由度的Fetch机械臂模拟器(MuJoCo)中进行:推箱子(Pushing)、滑动冰壶(Sliding)、抓取放置(Pick-and-Place)。所有任务仅使用二元稀疏奖励(物体是否在目标位置附近)。
    • 研究主体与算法:主要采用深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG) 算法作为基础RL算法。对比组包括:原始DDPG, 结合了基于计数的探索(count-based exploration)的DDPG, 以及结合了HER的DDPG。
    • 训练设置
      • 策略网络和评论家网络均为具有3个隐藏层(每层64个单元)的MLP。
      • 使用8个并行工作器收集经验。
      • 每个训练周期(epoch)包含多个循环,每个循环包括运行策略收集数据和使用均匀采样的经验进行多步优化。
      • 对于HER,默认采用“未来(future)”策略:对于回合中的每个转移(transition),除了原始目标外,还会从该转移之后的未来状态中随机选取k=4个状态作为新目标进行回放。
    • 多目标与单目标设置:实验分别在多目标(每个回合目标随机)和单目标(所有回合目标固定)两种设置下进行,以检验HER在不同场景下的有效性。
    • 奖励函数对比:研究了HER与奖励塑形(reward shaping)的互动。尝试了多种密集奖励函数(如基于目标与物体距离平方的负奖励),并与稀疏二元奖励下的性能进行对比。
    • HER策略消融研究:系统比较了选择额外目标g’的不同策略,包括:最终状态(final)、同一回合内的随机状态(episode)、未来状态(future)以及整个训练过程中的随机状态(random),并探讨了回放额外目标数量k的影响。
  3. 物理机器人部署验证

    • 将在模拟器中训练的抓取放置策略直接部署到真实的Fetch机器人上,无需任何微调。
    • 处理:使用一个在模拟图像上预训练的卷积神经网络(CNN)从机器人头部摄像头图像中预测方块的真实位置。为增加鲁棒性,在策略训练后期向观测状态添加了高斯噪声。
    • 测试:在物理机器人上执行多次试验,记录成功率。

主要结果

  1. 比特翻转任务:DQN+HER显著优于标准DQN,证明了HER在解决稀疏奖励问题上的根本有效性。
  2. 多目标机器人任务
    • 主要对比:在所有三个机器人任务(推、滑、抓放)中,原始DDPG在稀疏奖励下完全无法学习,成功率接近零。结合了基于计数的探索方法仅对滑动任务略有帮助。而DDPG+HER在所有任务上都取得了接近100%的成功率。这强有力地证明,HER是实现从稀疏二元奖励中学习的关键因素。
    • 单目标任务:即使所有回合追求同一个固定目标,DDPG+HER的性能也远优于原始DDPG。这表明,即使对于单一目标的任务,在训练中引入多目标(通过HER回放)也能通过提供更丰富的学习经验来显著加速和改善学习过程。
    • 与奖励塑形的对比:实验结果出人意料:无论是DDPG还是DDPG+HER,在尝试的几种密集奖励函数下均未能成功学习到有效策略。这表明,简单的、领域无关的奖励塑形可能无效,甚至有害(可能阻碍探索)。这反衬出能够直接从稀疏、真实的成功指标中学习的HER具有重要的实用价值。
    • HER策略消融结果
      • 不同目标选择策略中,“未来(future)”策略(k=4或8)表现最佳,是唯一能在滑动任务上取得近乎完美性能的策略。
      • “最终(final)”和“回合(episode)”策略在推和抓放任务上表现良好,但在滑动任务上较差。
      • “随机(random)”策略在所有任务上表现最差。
      • 回放目标数量k存在最佳范围(如4或8),过多(如16或全部)会因稀释了原始目标经验而导致性能下降。
    • 物理机器人部署:经过噪声鲁棒性训练的模拟策略,在真实机器人上取得了5/5的成功率(最初未经噪声训练的策略为2/5)。这证明了通过HER在模拟中学习的策略具有直接迁移到现实世界的能力。

结论与价值

本研究的主要结论是:事后经验回放(HER)是一种强大且通用的技术,它使得强化学习智能体能够直接从稀疏、二元奖励信号中高效学习,从而避免复杂的奖励工程。 HER可以被视为一种隐式的课程学习(implicit curriculum),智能体自动从简单(已达成)的目标学习逐步过渡到复杂(设定)的目标。

科学价值:HER为解决强化学习中的稀疏奖励和样本效率问题提供了一个新颖且有效的视角。它将“失败”的经验转化为有价值的学习数据,巧妙地将多目标学习与课程学习的思想融为一体,且实现简洁,易于与现有算法结合。

应用价值:HER极大地降低了将强化学习应用于真实世界任务(尤其是机器人学)的门槛。它使得研究人员和工程师可以直接指定任务的自然成功标准(如“物体是否在目标位置”),而无需设计复杂、精细的中间奖励函数。研究成功在物理机器人上部署策略,验证了其实际应用的可行性。

研究亮点

  1. 核心创新:提出了事后经验回放(HER)这一核心思想,通过重新标注经验中的目标,将稀疏奖励问题转化为密集学习信号问题,构思巧妙且实施简单。
  2. 验证全面性:从简单的概念验证(比特翻转)到复杂的连续控制机器人任务(推、滑、抓放),系统地验证了HER的有效性、鲁棒性和通用性。
  3. 深入分析:不仅证明了HER有效,还通过一系列消融研究深入探讨了其工作机制,例如对比了不同的目标回放策略,分析了与奖励塑形的相互作用,并验证了在多目标和单目标设置下的性能。
  4. 现实世界验证:成功将在模拟器中通过HER训练的策略零样本(zero-shot)部署到物理机器人,完成了复杂的抓取放置任务,展现了该方法的实用潜力。
  5. 重要发现:实验发现,在某些任务上,使用简单的密集奖励塑形反而不如使用HER结合稀疏奖励的效果好,这凸显了奖励工程的内在挑战以及直接从最终目标学习的优势。

其他有价值内容

论文还讨论了HER与相关工作的联系,包括经验回放、优先经验回放、多任务学习、分层强化学习以及自动课程生成等。作者指出,HER与这些技术是正交的,可以相互结合。此外,附录部分详细提供了实验的超参数设置、网络架构、输入预处理、探索策略以及物理机器人部署中使用的领域随机化(Domain Randomization)技术细节,具有很高的参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com