参数化动作空间中的深度强化学习

分享自：
参数化动作空间中的深度强化学习

期刊:ICLR 2016
本文旨在向中文读者介绍一篇发表于国际表征学习大会（International Conference on Learning Representations， ICLR）2016年的学术论文。这篇论文由德克萨斯大学奥斯汀分校的Matthew Hausknecht和Peter Stone合作完成，标题为《Deep Reinforcement Learning in Parameterized Action Space》。以下是关于这项研究的详细学术报告。
研究作者与发表信息 本项研究的主要作者是Matthew Hausknecht和Peter Stone，两人均来自美国德克萨斯大学奥斯汀分校计算机科学系。该项成果以会议论文的形式发表于2016年的ICLR大会。
学术背景与研究目标 本项研究隶属于人工智能领域的深度强化学习（Deep Reinforcement Learning）分支。研究的核心动机是填补当时深度强化学习应用场景中的一个重要空白。在论文发表时，深度神经网络已被成功应用于在具有连续状态空间和连续动作空间（continuous action space） 的强化学习问题中近似价值函数和策略。然而，尚未有研究工作成功地将深度神经网络应用于具有参数化动作空间（parameterized action space） 的决策问题中。
参数化动作空间是一种兼具离散和连续性质的结构化动作空间。在这种设定下，智能体首先需要从一个离散的高层动作集合中选择一个动作类型，然后为该动作指定一系列连续的参数。这与纯粹的连续动作空间（每个动作维度都是连续的）不同，蕴含着一种内在的结构。为了探索此类问题的解决方案，研究者选择了模拟机器人足球（RoboCup Soccer）的半场进攻（Half Field Offense， HFO） 领域作为测试平台。HFO提供了一个低级的连续状态感知和一个参数化的连续动作空间，是检验新算法的理想环境。因此，该研究的目标是扩展深度强化学习算法，使其能够有效处理参数化动作空间MDPs，并验证其在复杂领域（如足球进球）中的学习能力。
详细研究流程 研究包含以下几个主要步骤：算法扩展、梯度边界处理方法设计、模型训练以及性能评估。
第一步：算法框架与扩展 研究团队选择了深度确定性策略梯度（Deep Deterministic Policy Gradient， DDPG） 算法作为基础框架。DDPG是一种用于连续动作空间的深度强化学习算法，采用演员-评论家（Actor-Critic）架构。在该架构中，演员网络根据当前状态输出确定性连续动作，而评论家网络则评估给定状态-动作对的Q值。
为了处理参数化动作空间，研究者对标准的DDPG算法进行了关键扩展。他们设计了一个新颖的神经网络输出结构。具体而言，演员网络拥有两个独立的输出层：一个输出层用于表示四个离散动作（冲撞、转身、抢断、踢球）的“倾向值”，另一个输出层则输出所有六个连续参数（例如，力量、方向）的数值。在动作选择时，智能体选择倾向值最高的离散动作，并将该动作对应的参数值（来自参数输出层）作为其执行参数。值得注意的是，评论家网络的输入同时包含状态、所有离散动作的倾向值以及所有连续参数的值。这种设计意味着评论家网络需要在没有明确被告知动作结构的情况下，自行学习不同参数对每个离散动作价值的影响。
第二步：解决连续参数有界问题的方法开发 在HFO领域中，连续参数被限制在特定范围内。例如，方向参数范围为[-180， 180]度，力量参数范围为[0， 100]。在初步实验中，研究者发现，如果不对评论家网络产生的关于动作参数的梯度进行处理，这些参数值在训练过程中很容易超出物理边界，导致学习不稳定和发散。为了解决这个普遍存在于有界连续动作空间的问题，论文提出并比较了三种梯度边界处理策略：
零化梯度（Zeroing Gradients）：当某个参数已经处于其取值范围的边界时，如果评论家梯度建议继续朝边界外方向更新，则将该参数的梯度置零。
压缩函数（Squashing Gradients）：使用双曲正切等压缩函数将演员网络的原始输出映射到[-1， 1]区间，然后重新缩放到目标范围。这通过函数本身的饱和特性自然限制参数值。
反转梯度（Inverting Gradients）：这是一种混合方法。当参数更新趋向边界时，梯度值会按比例缩小；如果参数值已经超出边界，梯度方向会被反转，促使参数值返回合法区间。
第三步：实验设计与模型训练 研究在HFO任务（无守门员情况下的进球）上进行。智能体需要从头开始学习，其状态输入是58维的连续特征向量，描述了到球、球门、队友、对手等对象的距离和角度。 研究为三种梯度处理策略（零化、压缩、反转）分别训练了智能体。每个策略训练两个独立的智能体，总共六个。此外，为了后续评估，还额外训练了五个使用“反转梯度”方法的智能体。所有智能体均训练300万次迭代，约相当于2万场比赛。训练耗时约三天，使用NVIDIA Titan-X GPU。 网络架构方面，演员和评论家网络均采用四层全连接层（1024-512-256-128个单元），每层后接ReLU激活函数。输出层结构如前所述。采用Adam优化器，学习率设为10^{-3}，并使用了目标网络和经验回放（Replay Memory）等稳定训练的技术。
第四步：性能评估与比较 评估阶段主要比较学习到的策略与基线智能体的表现。基线包括： * Helios冠军智能体：2012年RoboCup 2D模拟联赛的世界冠军所使用的、手工编码的专家策略。 * SARSA智能体：一种使用瓦片编码（Tile Coding）进行状态离散化的传统强化学习算法。
评估指标为进球成功率以及完成进球所需的平均步数。在空门（无守门员）的HFO任务中，每个智能体进行100次随机起始的测试。
主要研究结果 1. 梯度处理方法比较结果： 研究结果明确显示，三种梯度处理方法中，只有“反转梯度”方法表现出了稳健的学习能力。 * 反转梯度：使用此方法训练的两个智能体都成功地学会了可靠地接近球并射门得分。分析显示，该方法能有效将参数限制在边界内（例如，冲撞力量最高达到98.8，接近上限100），同时避免了压缩函数的饱和问题，使得评论家网络能够有效地指导演员策略的优化。Q值曲线平滑上升，符合预期。 * 压缩函数：虽然参数被限制在边界内，但由于评论家梯度倾向于将参数推向极值，压缩函数迅速饱和，导致智能体输出恒定不变的最大或最小参数值，无法进行有效学习。其评论家损失始终接近于零，表明智能体未能发现有效的奖励信号。 * 零化梯度：该方法存在两个问题。一是参数仍可能因其他参数的间接影响而溢出边界；二是学习过程不稳定。其中一个智能体的Q值和评论家损失出现了剧烈的爆炸式增长，表明算法发散。另一个相对稳定的智能体则未能学会任务。
这一对比结果突显了在处理有界连续动作空间时，需要一个非饱和且能主动强制执行边界的机制的重要性。
2. 足球任务性能评估结果： 对七名使用“反转梯度”方法训练出的DDPG智能体的评估结果如下： * 学习曲线：智能体展现了清晰的学习阶段。最初（约1500局后）获得靠近球的奖励；随后（2000-8000局）学会将球踢向球门；大约在10000局后开始学习射门得分。 * 与基线对比： * 七名DDPG智能体均学会了得分。 * 其中六名DDPG智能体的进球成功率超过了SARSA基线。 * 有三名DDPG智能体（DDPG1， DDPG2， DDPG3）的进球成功率（分别为100%、99%、98%）甚至超过了手工编码的2012年世界冠军智能体（96.2%）。 * 所有DDPG智能体完成进球所需的平均步数（104.8 - 119.1步）都显著高于Helios冠军智能体（72.0步）和SARSA智能体（70.7步）。分析认为，这是因为奖励函数只奖励最终进球，并未对“快速”进球施加压力，因此智能体倾向于采取更稳妥、更精确但较慢的射门方式。
这些结果表明，深度强化学习能够训练出在特定任务上性能媲美甚至超越精心设计的专家规则的智能体。
研究结论与意义 本研究成功地将深度强化学习扩展到了参数化动作空间。主要结论如下： 1. 通过设计专门的网络输出结构和基于“反转梯度”的边界处理方法，成功地将DDPG算法应用于具有参数化动作空间的复杂连续控制问题。 2. 在模拟机器人足球半场进攻任务中，完全通过深度强化学习训练出的智能体，能够从零开始学会接近足球、带球、射门并成功得分，其进球可靠性甚至超过了手工编码的世界冠军级智能体。 3. 所提出的“反转梯度”方法是一种通用的梯度修正技术，不局限于HFO领域，对于任何需要在有界连续空间中进行深度强化学习的场景都具有潜在的应用价值。
研究亮点 1. 首创性：这是首次将深度神经网络成功应用于解决参数化动作空间的马尔可夫决策过程，填补了该领域的研究空白。 2. 方法创新：提出了处理有界连续动作参数梯度问题的“反转梯度”技术，为后续在连续有界空间中的深度强化学习研究提供了关键工具。 3. 性能突破：在极具挑战性的RoboCup仿真环境中，实现了从感知到行动策略的端到端学习，并达到了超越手工编码专家的性能水平，证明了深度强化学习在复杂结构化决策问题上的巨大潜力。 4. 系统性验证：通过详实的对比实验（三种梯度方法，七名DDPG智能体，两个基线），清晰地验证了所提出方法的有效性和稳健性。
其他有价值内容 论文还展望了未来的研究方向，包括：1) 挑战更困难的带守门员进球任务；2) 探索多智能体协作场景（临时团队或完全学习团队）；3) 利用评论家网络关于状态输入的梯度，结合前向模型，引导智能体向更优状态转移，这可能与模型预测控制或基于模型的强化学习相结合。
这篇论文不仅在算法层面做出了实质性贡献，为深度强化学习处理更广泛的动作空间类型开辟了道路，同时也在一个公认的复杂基准测试中取得了令人印象深刻的应用成果，推动了深度强化学习向更实际、更结构化的问题迈进。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问