通过世界模型掌握多样化控制任务的Dreamer算法

分享自：
通过世界模型掌握多样化控制任务的Dreamer算法

期刊:natureDOI:10.1038/s41586-025-08744-2
本文档发表于Nature期刊，于2025年4月17日出版，作者为Danijar Hafner、Jurgis Pasukonis（来自Google DeepMind）、Jimmy Ba（来自多伦多大学）和Timothy Lillicrap（来自Google DeepMind）。这是一篇关于强化学习领域重大突破的研究论文，报告了第三代Dreamer算法的开发及其卓越性能。
这项研究的学术背景植根于人工智能，特别是强化学习。强化学习算法，如著名的近端策略优化，虽然在某些特定任务上表现出色，但将其应用于新领域通常需要大量的人工专业知识和实验来调整超参数。这种脆弱性阻碍了强化学习的广泛应用。因此，开发一种能够不经重新配置即可掌握新领域的通用算法，一直是该领域的核心挑战。研究的直接目标是克服这一瓶颈，而更广泛的愿景是让强化学习能够广泛适用于实际应用，包括探索复杂开放世界等重大挑战。
研究工作的核心是提出并详细阐述了第三代Dreamer算法。Dreamer属于基于世界模型的强化学习算法。其核心思想是让智能体通过与环境的交互，自主学习一个“世界模型”，这个模型能够预测潜在行动的后果。然后，智能体可以在“想象”中规划未来，从而改进其行为。该算法包含三个并行的神经网络组件：世界模型（预测潜在行动的后续状态和奖励）、评论家网络（评估每个想象结果的价值）以及演员网络（根据价值选择最佳行动）。这些组件在智能体与环境交互的同时，利用重放的过往经验进行训练。研究的核心挑战在于，为了实现跨领域的通用性，所有组件都需要处理不同的信号幅度，并鲁棒地平衡其目标函数中的各项。为此，研究团队开发并集成了一系列关键的鲁棒性技术：1）对观测进行对称对数转换：处理幅度差异巨大的向量观测输入和重建目标；2）世界模型损失函数的平衡与“自由比特”：通过结合Kullback-Leibler散度平衡和损失下限裁剪，稳定了表示学习，无需根据环境视觉复杂度调整超参数；3）基于百分比的回报归一化：将想象轨迹的回报归一化到稳定区间，而非使用优势或标准差，这确保了在稀疏奖励下能有效探索，在密集奖励下能稳定收敛；4）对称指数双热损失：用于奖励预测器和评论家网络，将回归问题转化为对指数间隔分箱的分类问题，使梯度幅度与目标信号尺度完全解耦。这些技术的组合使得Dreamer能够在超参数固定的情况下，在超过150个不同的任务上实现稳定学习。
研究通过广泛的实验验证了Dreamer的通用性和性能。实验涵盖了八个不同的领域，包括Atari游戏、Procgen程序生成环境、DMLab三维环境、Atari100K数据效率基准、本体感觉控制套件、视觉控制套件、BSuite行为分析基准以及Minecraft（我的世界）。在所有基准测试中，Dreamer均使用同一组超参数。结果显示，Dreamer在大多数领域都匹配甚至超越了为特定领域专门设计和调优的专家算法，同时也显著优于使用固定超参数的PPO算法。例如，在经典的Atari 57游戏基准上，Dreamer超越了强大的MuZero算法；在数据效率要求极高的Atari100K基准上，它也优于除使用额外复杂技巧的算法外的其他方法。
研究中一个特别引人注目的成果是Dreamer在《我的世界》游戏中的表现。在该游戏中，智能体需要从像素输入和稀疏奖励出发，在程序生成的无限三维世界中，通过探索、收集资源和合成工具，最终获取钻石。这被广泛认为是人工智能领域的一项重大挑战。先前的方法都需要依赖人类专家数据或精心设计的课程学习。而在这项工作中，研究人员将Dreamer“开箱即用”地应用于此任务，未针对Minecraft进行任何超参数调整。结果表明，Dreamer是首个在无需人类数据或课程学习的条件下，完全“从零开始”在《我的世界》中成功收集到钻石的算法。在所有训练运行中，Dreamer智能体均能在1亿环境步数内发现钻石，这一成就标志着在解决具有长远规划、稀疏奖励和开放世界探索的复杂任务方面取得了里程碑式的进展。
为了深入理解各项鲁棒性技术的作用，研究还进行了消融实验。结果表明，所有技术都对平均性能有贡献，其中世界模型的KL平衡与自由比特、回报归一化以及对称指数双热回归最为关键。此外，研究还探索了算法的扩展性。实验表明，Dreamer能够在模型参数量从1200万到4亿的广泛范围内，以及不同的训练回放比率下，保持鲁棒的学习性能。更大的模型不仅带来了更高的任务性能，还降低了学习成功行为所需的环境交互数据量，这为实践者提供了通过增加计算资源来可预测地提升性能和数据效率的途径。
研究的结论是，第三代Dreamer算法是一个通用的强化学习算法，它能够使用固定超参数掌握广泛的任务领域。其意义和价值体现在多个层面：在科学价值上，它证明了通过学习世界模型并结合精心设计的鲁棒性技术，可以实现稳定、通用的强化学习，为解决算法脆弱性问题提供了可行的路径。在应用价值上，它使强化学习无需大量实验调整即可应用于新的挑战性问题，极大地拓宽了其适用性。特别是在《我的世界》中取得钻石的成就，验证了算法处理极端复杂、长远视野任务的能力。该研究也为未来方向铺平了道路，例如从互联网视频中为智能体传授世界知识，或学习跨领域的单一世界模型以构建更通用的智能。
本研究的亮点突出体现在以下几个方面：第一，里程碑式的成就：首次实现从零开始在《我的世界》中获取钻石，攻克了公认的AI挑战。第二，卓越的通用性：在超过150个跨领域任务上，使用单一配置即超越众多专业算法，证明了其强大的泛化能力。第三，创新的鲁棒性技术组合：研究并非提出单一的新算法结构，而是系统地发展并集成了归一化、平衡和转换等一系列技术，解决了跨领域稳定学习的核心难题。第四，详尽的实验验证与可复现性：研究在极其广泛的基准上进行了全面评估，并与当前最优方法进行了对比，所有结果均基于公开的代码实现，且训练仅需单个GPU，保证了可及性和可复现性。第五，清晰的扩展性分析：研究表明算法性能可随模型规模和计算资源投入可预测地提升，为后续研究和应用提供了清晰的指导。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问