具有隔离想象的模型强化学习：ISO-DREAM++

分享自：
具有隔离想象的模型强化学习：ISO-DREAM++

期刊:IEEE Transactions on Pattern Analysis and Machine IntelligenceDOI:10.1109/tpami.2023.3335263
本文介绍的是一项原创性研究，属于类型a。以下是为其他研究人员撰写的关于此项研究的综合性学术报告。
关于Iso-Dream++：一种基于模型强化学习的孤立想象方法的研究报告
本研究的主要作者为潘敏婷（Minting Pan）、朱祥明（Xiangming Zhu）、郑一涛（Yitao Zheng）、王云波（Yunbo Wang，通讯作者）和杨小康（Xiaokang Yang，IEEE Fellow）。他们均来自上海交通大学人工智能研究院，教育部人工智能重点实验室。该项研究以论文形式“Model-Based Reinforcement Learning with Isolated Imaginations”发表在 IEEE Transactions on Pattern Analysis and Machine Intelligence 期刊上，并于2023年3月被接受发表，是作者团队前期在NeurIPS‘2022会议上发表的Iso-Dream工作的拓展和深化。
研究的学术背景 本研究属于人工智能领域，具体聚焦于视觉模型基强化学习。在现实世界的交互系统中，例如自动驾驶，环境动态往往由多种来源混合而成，其中既包含智能体行动直接驱动的可控部分，也包含与行动无关或仅有稀疏依赖的不可控部分。传统的模型基强化学习方法，如Dreamer系列，通过学习一个世界模型来预测环境的未来状态和奖励，进而在模型的潜在想象空间中进行策略优化，从而实现了较高的样本效率。然而，在面对复杂视觉场景时，由于观测轨迹高维、非平稳且常由多源动态混合驱动，如何学习到一个能有效解耦这些动态的世界模型仍然是一个开放性问题。为此，研究者们受到自动驾驶等实际场景的启发，认为若能明确地将环境动态解耦为可控与不可控的状态转移，将有助于提升长期决策的准确性、模型在噪声环境下的鲁棒性以及跨域迁移学习的能力。本研究的核心目标，即是提出一种新的模型基强化学习框架，能够自动学习并利用这种解耦的动态表示，从而在复杂的视觉控制任务中取得更优的性能。
详细的研究流程与方法 本研究提出的框架名为Iso-Dream++，其主要工作流程可归纳为两大核心部分：学习一个解耦的世界模型和基于解耦想象的策略学习。整个研究在标准的模型基强化学习范式（收集经验、训练模型、想象学习、部署交互）基础上，对世界模型的表示形式和策略优化算法进行了根本性的创新。
首先，在学习解耦的世界模型方面，研究设计了一个三分支架构来显式地分解视觉观测。具体而言，该模型将观测分解为：1) 可控状态，其转移依赖于动作信号；2) 不可控状态，其转移与动作无关（或在稀疏依赖下与当前可控状态有关）；3) 静态成分，用于捕捉环境中不随时间变化的部分。可控与不可控状态分别通过两个不同的循环神经网络分支（如GRU）进行建模。为了促使模型学习到与动作信号相关的解耦表示，研究者引入了逆动力学作为额外的训练目标。具体做法是设计一个逆向单元，输入是前后两个时间步的可控状态，目标是推理出导致该状态转移的动作。通过优化该逆动力学损失，鼓励可控分支只学习那些与动作有因果关系的动态变化。
然而，在初步工作Iso-Dream中发现，仅凭逆动力学目标容易出现“训练崩溃”问题，即模型容量较强的可控分支可能“霸占”所有动态信息，而不可控分支几乎学不到任何内容。为了解决此问题，Iso-Dream++提出了最小-最大方差约束这一关键创新。其核心思想是：给定同一状态和一批不同的假设动作，要求可控分支基于不同动作产生的状态转移应尽可能多样化（最大化方差），而不可控分支产生的状态转移应尽可能一致（最小化方差）。这一约束从信息论角度可解释为最大化动作与可控状态之间的互信息，同时最小化动作与不可控状态之间的互信息，从而在无监督条件下更有效地隔离不同动态源。
此外，为了更精确地模拟现实场景（如自动驾驶中其他车辆会因自车行为而调整），本研究还建模了可控状态与不可控状态间的稀疏依赖。通过一个称为“依赖门”的小型模块，模型能够检测当前时刻可控状态是否对下一个不可控状态的转移产生显著影响。当依赖门打开时，下一不可控状态的预测会同时考虑当前不可控状态和可控状态；否则，只考虑不可控状态自身的历史。这增强了对一些互动性动态环境的模拟能力。
世界模型的整体训练损失包括：图像重构损失、奖励预测损失、折扣因子预测损失、可控与不可控分支各自的KL散度正则项、逆动力学损失以及上述的方差约束损失。所有部分通过变分下界联合优化。
其次，在基于解耦想象的策略学习方面，Iso-Dream++改进了标准的演员-评论家算法。其核心创新在于让策略能够基于对未来不可控动态的预测做出“前瞻性”决策。在想象阶段，算法首先利用已训练好的不可控分支，从当前状态“向前滚动”预测出一系列未来的不可控状态序列。然后，通过一个注意力机制，将当前的可控状态与这一系列未来的不可控状态进行动态关联，计算出一个融合了未来信息的“有远见”的特征表示。最后，策略网络和值网络均基于此融合特征来生成动作和评估价值。这种设计使得智能体在决策时，能自适应地考虑未来多个时间步内环境可能发生的变化，而无需像蒙特卡洛树搜索等方法那样在庞大的动作空间中进行昂贵的采样。
在策略部署（与环境实时交互）阶段，同样采用此流程：在每一时间步，利用不可控分支预测未来几步的不可控状态，通过注意力机制结合当前状态，生成当前动作。
主要研究成果 研究团队在CARLA自动驾驶模拟器和修改后的DeepMind Control Suite两个具有挑战性的视觉控制环境中对Iso-Dream++进行了全面的评估。
在CARLA高速公路驾驶任务中，Iso-Dream++的表现显著优于包括DreamerV2、DreamerV3、DreamerPro、Denoised-MDP在内的多个先进的模型基和模型无关强化学习基线。经过50万环境步数的训练，Iso-Dream++的平均回报达到约60，而DreamerV2和Denoised-MDP分别仅为10和25。这证明了在存在大量不可控动态（其他车辆）的环境中，解耦动态并进行前瞻性决策的巨大优势。消融研究进一步验证了各个组件的必要性：移除逆动力学、不进行不可控状态向前滚动、用简单拼接替换注意力机制，或移除静态分支，均会导致性能显著下降。特别地，与不包含稀疏依赖的版本相比，包含该机制的智能体在交通拥堵时能够更安全、灵活地决策超车，因为它能更准确地预测自车行为对其他车辆的影响（其他车辆会减速避让）。
在DeepMind Control Suite中，研究在添加了动态视频背景（作为复杂噪声和不可控动态）的任务上进行了测试。Iso-Dream++在Finger Spin、Hopper Stand、Walker Walk、Cheetah Run等多个任务上均取得了大幅领先的性能，超过了DreamerV2/V3、DreamerPro、CURL、DBC和Denoised-MDP等方法。这验证了其从复杂视觉干扰中有效分离出可控动态、从而提高策略鲁棒性的能力。对最小-最大方差约束的专门消融实验显示，移除该约束会导致模型在部分任务上出现明显的训练崩溃，性能下降；而加入该约束后，模型能稳定地解耦动态，如图像中的智能体运动（可控）和背景火焰波动（不可控）。泛化能力测试表明，在“视频困难”背景或添加高斯噪声的“视频简单”背景上评估时，Iso-Dream++展现出比对比方法更强的抗干扰能力和鲁棒性。
迁移学习实验则凸显了解耦表示的另一个重要价值。由于模型具有模块化结构，可以根据先验知识选择性地迁移源域和目标域之间共享的动态知识。在CARLA的日间和夜间模式间迁移时，仅迁移在日间模式预训练的不可控分支（因其他车辆的动态规律在日夜模式下相似），能显著提升在夜间模式下的学习速度和最终性能。在DMC的“视频简单”到“视频困难”背景迁移时，仅迁移可控分支（因智能体自身的运动规律相同）带来了比迁移整个模型（如DreamerV2）更大的性能提升。这证明了Iso-Dream++在跨域适应任务中的实用潜力。
研究的结论与价值 本研究得出结论：通过逆动力学优化、最小-最大方差约束来学习解耦可控与不可控动态的世界模型，并结合基于未来不可控状态预测的前瞻性策略学习，能够显著提升模型基强化学习在复杂视觉控制任务中的性能。Iso-Dream++框架不仅在标准任务上表现出色，在存在动态噪声干扰的环境以及迁移学习场景下也展现出强大的鲁棒性和适应性。
本研究的科学价值在于，为解决视觉世界中多源动态混合的建模问题提供了一种新颖且有效的解耦学习框架，深化了对“世界模型”表示形式的理解，并为如何利用解耦表示进行更优决策提供了新的算法思路。其应用价值直接体现在自动驾驶、机器人操控等需要对环境动态进行精细理解和长期规划的领域，所提出的方法能使智能体更好地预测并适应环境中不可控部分的变化，从而做出更安全、更智能的决策。
研究的亮点 1. 问题定义新颖：明确提出并形式化了视觉环境中“可控”与“不可控”动态的解耦学习问题，紧贴自动驾驶等实际应用需求。 2. 方法创新性强： * 提出最小-最大方差约束，有效解决了无监督动态解耦中的“训练崩溃”难题，是方法稳定性的关键。 * 设计了依赖门机制来建模状态间的稀疏依赖，使世界模型对交互性环境的模拟更加精确。 * 开创了基于未来不可控状态滚动预测的前瞻性决策机制，通过注意力网络动态整合未来信息，实现了高效的长远规划，避免了昂贵的动作空间采样。 3. 模块化与可迁移性：三分支的模块化世界模型结构清晰，不仅提升了鲁棒性，更天然支持基于动态相似性的选择性知识迁移，为迁移学习提供了新范式。 4. 实证充分全面：在极具挑战性的CARLA和复杂噪声背景的DMC上进行了大量实验，不仅验证了整体性能优势，还通过详尽的消融实验、泛化测试和迁移学习分析，深入验证了每个核心组件的必要性和有效性，结论坚实可靠。
其他有价值的内容 论文还对相关工作进行了梳理，将Iso-Dream++与视觉强化学习、抗视觉干扰的强化学习以及动作条件视频预测等领域的研究进行了区分和定位，强调了其在动态解耦和决策机制方面的独特性。此外，论文提供了算法的伪代码，并开源了代码，便于学术界复现和进一步研究。研究得到了中国国家自然科学基金、上海市科技重大专项等项目的支持。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问