分享自:

探索引导的奖励塑造在稀疏奖励下的强化学习

期刊:36th conference on neural information processing systems (neurips 2022)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


探索引导的奖励塑形(Exploration-Guided Reward Shaping)在稀疏奖励强化学习中的应用研究

1. 作者与机构信息

本研究由Rati Devidze(马克斯·普朗克软件系统研究所,MPI-SWS)、Parameswaran Kamalaruban(艾伦·图灵研究所)和Adish Singla(MPI-SWS)合作完成,发表于NeurIPS 2022(第36届神经信息处理系统会议)。


2. 学术背景

研究领域:本研究属于强化学习(Reinforcement Learning, RL)领域,聚焦于奖励塑形(Reward Shaping)技术,旨在解决稀疏奖励环境下智能体训练效率低下的问题。

研究动机
- 问题背景:传统奖励塑形方法(如基于势函数的奖励塑形,Potential-Based Reward Shaping, PBRS)依赖专家知识或高质量领域信息,难以在极端稀疏或噪声干扰的环境(如“Noisy TV”问题)中有效加速学习。
- 现有局限:现有自监督奖励学习方法(如LIRPG、SORS)缺乏显式探索机制,导致在稀疏奖励任务中无法更新内在奖励参数;而纯探索驱动的奖励(如计数型奖励)可能误导智能体陷入次优行为。
- 研究目标:提出一种无需领域知识的自监督框架ExploRS(Exploration-Guided Reward Shaping),通过结合内在奖励(Intrinsic Reward)探索奖励(Exploration Bonus),提升稀疏/噪声环境下的训练效率。


3. 研究流程与方法

3.1 研究框架设计

ExploRS的核心是一个参数化奖励函数
[ \hat{r}{\text{ExploRS}}(s, a) = r(s, a) + r{\phi}(s, a) + bw(s) ]
其中:
- ( r(s, a) ):环境提供的外在奖励(Extrinsic Reward)。
- ( r
{\phi}(s, a) ):自监督学习的内在奖励(Self-Supervised Intrinsic Reward)。
- ( b_w(s) ):基于状态访问频率的探索奖励(Count-Based Exploration Bonus)。

3.2 关键方法
  1. 内在奖励学习

    • 通过双层优化(Bi-Level Optimization)更新参数(\phi):上层最大化外在奖励的累积回报,下层通过策略梯度更新策略。
    • 提出直觉梯度更新(Intuitive Gradient Update),避免依赖策略梯度,使其适用于任意RL算法(如Q-Learning)。
  2. 探索奖励设计

    • 基于状态抽象函数(\psi: \mathcal{S} \to \mathcal{X})统计状态访问次数(w[x]),生成伪计数(Pseudo-Count)(n_w(s)),定义奖励为(b_w(s) = \lambda / \sqrt{n_w(s)}),鼓励探索低频状态。
  3. 训练流程(Algorithm 2):

    • 交替更新:每轮迭代依次更新策略(通过RL算法)、内在奖励参数(\phi)和探索奖励参数(w)。
    • 数据收集:通过策略 rollout 生成轨迹数据,存储于缓冲区(\mathcal{D})。
3.3 理论验证

链式环境(Chain Environment)中,理论证明了ExploRS的优越性:
- 纯探索(仅(b_w))需(O(n_1(n_1 + n_2)))步收敛,而ExploRS仅需(O(n_1 + n_2))步,显著加速学习。


4. 实验结果

实验在三种环境中验证ExploRS的性能:

4.1 Chain环境
  • 设置:20个右向状态(目标位于最右)、40个左向状态(含干扰奖励(r_{\text{dis}}=0.01))。
  • 结果
    • ExploRS在Reinforce和Q-Learning智能体上均最快收敛,且不受干扰状态影响(图2)。
    • 对比基线(如SORS、LIRPG)在干扰环境下表现显著下降。
4.2 Room环境
  • 设置:网格世界中导航任务,含干扰状态。
  • 结果:ExploRS在稀疏奖励下仍能高效探索并找到目标(图5a-b)。
4.3 LineK环境
  • 设置:需先选择正确钥匙再到达目标,含10个干扰钥匙。
  • 结果:ExploRS在神经网络策略下表现最优,而其他方法因干扰陷入局部最优(图5c-d)。

5. 结论与价值

  • 科学价值
    • 提出首个结合内在奖励与探索奖励的自监督框架,解决了稀疏奖励下的探索-利用权衡问题。
    • 理论证明了其在链式环境中的收敛优势,并通过实验验证了泛化性。
  • 应用价值:适用于现实场景(如机器人导航、游戏AI),其中奖励信号稀疏或噪声干扰严重。

6. 研究亮点

  1. 方法创新:首次将探索奖励与自监督内在奖励结合,无需专家知识。
  2. 理论贡献:提出适用于任意RL算法的梯度更新规则,突破传统策略梯度的限制。
  3. 实验全面性:覆盖离散(Chain、Room)和连续(LineK)状态空间,验证鲁棒性。

7. 其他价值

  • 开源代码(GitHub)便于复现。
  • 附录提供了完整的超参数设置与实验细节,增强可重复性。

此研究为稀疏奖励强化学习提供了通用解决方案,未来可扩展至更复杂环境(如连续控制)及多智能体场景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com