该研究的主要作者包括 Tejas D. Kulkarni(DeepMind, London,邮箱:tejasdkulkarni@gmail.com)、Karthik R. Narasimhan(CSAIL, MIT,邮箱:karthikn@mit.edu)、Ardavan Saeedi(CSAIL, MIT,邮箱:ardavans@mit.edu)和 Joshua B. Tenenbaum(BCS, MIT,邮箱:jbt@mit.edu)。该研究发表于 2016 年的 Neural Information Processing Systems(NIPS 2016)会议,地点为西班牙巴塞罗那。研究的标题为《Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation》。
层次化强化学习(Hierarchical Reinforcement Learning)是人工智能领域长期规划任务中的关键研究方向之一。强化学习(Reinforcement Learning, RL)的目标是在复杂环境中为智能体(agent)找到最优策略,以最大化预期未来奖励。然而,在实际应用中,稀疏反馈和延迟奖励的问题使得强化学习算法难以高效探索和学到可靠的策略。现有方法如 Boltzmann 探索和 Thompson 采样,在优化探索时有所提升,但仅在低层次动作层面工作,面对复杂环境时仍然不足。
本研究主要关注两个关键挑战:一、如何通过层次化的时间抽象(temporal abstraction)建立多尺度的目标规划;二、如何结合内在动机(intrinsic motivation)指导智能体在稀疏反馈环境中的高效探索。通过这些改进,研究目标是克服传统方法的探索限制,为复杂环境中的决策和学习提供新的方法。
该研究提出了一种名为 Hierarchical-DQN(H-DQN)的框架,该框架结合了层次化动作价值函数(Q-value function)和基于目标驱动的内在动机深度强化学习(goal-driven intrinsically motivated deep reinforcement learning)。H-DQN 旨在通过多层次的目标设定和规划,使智能体在稀疏反馈和延迟奖励的环境中能够高效学习和探索。
H-DQN 框架包含两个主要模块: 1. 元控制器(Meta-Controller):在高时间尺度上,通过状态 s 选择一个目标 g,并学习目标驱动的策略。 2. 控制器(Controller):在低时间尺度上,利用状态 s 和选择好的目标 g 进行动作规划,确保执行任务并达成目标。
该框架的核心创新包括: 1. 支持灵活的目标描述,例如实体和关系之间的组合功能。 2. 在复杂环境中为探索提供了更高效的空间。
此外,研究采用分层的 Q-learning 方法,在不同时间尺度上对目标奖励(extrinsic rewards)和内在奖励(intrinsic rewards)进行优化。
基于深度 Q-learning(Deep-Q Networks, DQN),研究通过以下两个 Q 值函数实现策略学习: 1. Q1(s, a; g):针对低层次控制器,用于应用当前目标 g 选择动作 a,直到目标达成或当前情节结束。 2. Q2(s, g):针对高层次元控制器,用于选择新的目标 g,以最大化未来的外部奖励。
两个模块的主要工作方式如下: 1. 初始化经验回放池和 DQN 参数。 2. 元控制器根据状态以 ε-greedy 策略选择目标。 3. 控制器在当前目标下按 ε1,g 策略选择动作,并评估内在奖励,如果目标达成则存储经验。 4. 更新两层模块的损失函数并优化模型参数。
尤其是,研究设计了双层时间步采样机制:低层控制器以每步时间采样环境转移数据,高层元控制器则以目标切换时采样数据。
本研究在两个不同的实验环境中验证了 H-DQN 的有效性: 1. 离散随机决策过程:一个具有稀疏奖励的随机化实验环境,旨在检验智能体在延迟奖励条件下的探索能力。 2. Atari 游戏“Montezuma’s Revenge”:此经典 Atari 游戏被广泛用作强化学习领域的挑战性测试集,因其长时间的奖励延迟使得现有许多方法难以有效学习。
第一种实验包含 6 个状态。智能体的任务是首次访问特定状态 s6 并到达终点 s1 时获得奖励 1,否则奖励仅为 0.01。这考察了智能体在复杂奖励依赖情况下的学习能力。第二种实验用 “Montezuma’s Revenge” 中的关键场景(如拾取钥匙并打开门)验证了 H-DQN 的大规模视觉输入和稀疏奖励解决能力。
为了在高维状态空间中优化探索分层学习,研究对不同分层模块分别创建经验回放池,并采用滑动窗口记录目标成功率。通过最大化内在与外在奖励的累计折现分数,框架实现了动态的目标优选和策略调整。
实验结果表明: 1. 传统 Q-learning 在 200 个回合后仍停留在次优策略中(直接到达 s1 以获得 0.01 奖励)。 2. H-DQN 则能够有效地学会优选目标 s6,使其平均奖励显著提升至 0.13。
此外,在不同训练阶段,智能体对中间状态(s3-s6)的访问次数显著增加,表明其学习了如何制定中间目标以最大化最终奖励。
H-DQN 成功实现了两个关键任务: 1. 智能体能够选择并拾取钥匙(奖励 +100)。 2. 成功打开相应的门获得更高奖励(奖励 +300)。
相比传统 DQN 方法(得分 0 分),H-DQN 能够将回合平均得分稳定提升至 400 分,且训练数据利用效率较现有方法显著提高(如 asynchronous actor critic 方法需数亿帧,而本方法仅需百万帧)。
本研究通过提出层次化深度强化学习(H-DQN),在解决稀疏反馈与延迟奖励问题上展示了创新性。关键贡献包括: 1. 首次将内在动机与多层次抽象相结合,为强化学习设计了更加灵活的探索空间。 2. 提供了一种高效的分层策略结构,为目标规划和任务执行提供了解决思路。
科学意义上,它展示了深度强化学习在复杂任务场景中表现的潜力;应用价值方面,其方法可以进一步推广用于机器人导航、复杂决策任务等领域。
尽管本研究具有显著成效,但在自动目标检测、短期记忆引入、以及目标停止条件优化等方面仍有改进空间。未来可进一步结合视频学习与动态奖励机制,为更复杂的场景设计提升探索与学习能力的强化学习框架。