这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Rati Devidze(马克斯·普朗克软件系统研究所,MPI-SWS)、Parameswaran Kamalaruban(艾伦·图灵研究所)和Adish Singla(MPI-SWS)合作完成,发表于NeurIPS 2022(第36届神经信息处理系统会议)。
研究领域:本研究属于强化学习(Reinforcement Learning, RL)领域,聚焦于奖励塑形(Reward Shaping)技术,旨在解决稀疏奖励环境下智能体训练效率低下的问题。
研究动机:
- 问题背景:传统奖励塑形方法(如基于势函数的奖励塑形,Potential-Based Reward Shaping, PBRS)依赖专家知识或高质量领域信息,难以在极端稀疏或噪声干扰的环境(如“Noisy TV”问题)中有效加速学习。
- 现有局限:现有自监督奖励学习方法(如LIRPG、SORS)缺乏显式探索机制,导致在稀疏奖励任务中无法更新内在奖励参数;而纯探索驱动的奖励(如计数型奖励)可能误导智能体陷入次优行为。
- 研究目标:提出一种无需领域知识的自监督框架ExploRS(Exploration-Guided Reward Shaping),通过结合内在奖励(Intrinsic Reward)和探索奖励(Exploration Bonus),提升稀疏/噪声环境下的训练效率。
ExploRS的核心是一个参数化奖励函数:
[ \hat{r}{\text{ExploRS}}(s, a) = r(s, a) + r{\phi}(s, a) + bw(s) ]
其中:
- ( r(s, a) ):环境提供的外在奖励(Extrinsic Reward)。
- ( r{\phi}(s, a) ):自监督学习的内在奖励(Self-Supervised Intrinsic Reward)。
- ( b_w(s) ):基于状态访问频率的探索奖励(Count-Based Exploration Bonus)。
内在奖励学习:
探索奖励设计:
训练流程(Algorithm 2):
在链式环境(Chain Environment)中,理论证明了ExploRS的优越性:
- 纯探索(仅(b_w))需(O(n_1(n_1 + n_2)))步收敛,而ExploRS仅需(O(n_1 + n_2))步,显著加速学习。
实验在三种环境中验证ExploRS的性能:
此研究为稀疏奖励强化学习提供了通用解决方案,未来可扩展至更复杂环境(如连续控制)及多智能体场景。