分享自:

发现最先进的强化学习算法

期刊:natureDOI:10.1038/s41586-025-09761-x

强化学习算法的自主发现:机器突破人工设计局限

作者及机构
本研究的核心团队来自Google DeepMind(英国伦敦),第一作者为Junhyuk Oh,共同通讯作者为David Silver。其他重要贡献者包括Gregory Farquhar、Iurii Kemaev等。该研究于2025年12月11日发表于《Nature》第648卷,标题为《Discovering state-of-the-art reinforcement learning algorithms》。


学术背景
强化学习(Reinforcement Learning, RL)是人工智能的核心领域之一,旨在通过环境交互训练智能体(agent)实现目标。传统RL算法依赖人工设计(如Q-learning、PPO),其效率受限于人类经验。生物进化通过多代试错自然选择了高效的学习机制,但机器能否自主发现优于人工设计的RL算法仍是一个开放性问题。本研究提出了一种元学习(meta-learning)框架,通过大规模环境中的多代智能体经验,自主发现了一种名为DiscoRL的RL规则,其在Atari等复杂基准测试中超越了现有最优算法。


研究流程与方法
1. 问题建模与框架设计
- 目标:发现一种通用的RL规则,通过元学习优化智能体的策略(policy)和预测(prediction)更新机制。
- 核心组件
- 智能体网络:输出策略π、观测条件预测向量y(s)和动作条件预测向量z(s,a),其语义由元网络动态定义,而非预设。
- 元网络(meta-network):基于长短期记忆网络(LSTM)架构,输入智能体的历史轨迹(包括预测、奖励、终止信号),输出目标值(如策略和预测的更新目标)。
- 创新点:元网络可自主定义预测的语义(如价值函数、模型或辅助任务),并支持自举(bootstrapping)等关键RL机制。

  1. 元优化与训练流程

    • 环境多样性:训练环境包括57个Atari游戏(Disco57)及扩展的103个环境(Disco103,含Atari、Procgen和DMLab-30),以覆盖不同任务复杂度。
    • 元梯度方法(meta-gradient):通过反向传播优化元网络参数η,最大化智能体的累积奖励。具体步骤包括:
      • 智能体更新:基于元网络输出的目标,最小化预测误差(使用KL散度)。
      • 元参数更新:通过链式法则计算∇ηθ(智能体更新过程的梯度)和∇θJ(θ)(RL目标函数的梯度),滑动窗口回溯20步更新。
    • 稳定性措施:优势归一化、元正则化损失(如熵正则化)和参数周期性重置,避免过早收敛。
  2. 实验验证与评估

    • 基准测试
      • Atari:Disco57的IQM(四分位均值)得分达13.86,超越MuZero、Dreamer等人工算法。
      • Procgen与DMLab:在未参与训练的16个Procgen游戏中,Disco57表现优于PPO和MuZero。
      • 跨环境泛化:Disco103在Crafter和Sokoban等任务中接近人类水平,证明环境多样性提升算法通用性。
    • 效率分析:Disco57仅需每游戏6亿步训练(相当于3次实验),计算效率优于人工调参。

核心发现与结论
1. 算法性能:DiscoRL在Atari和Procgen等基准中全面超越人工设计算法,验证了机器自主发现高效RL规则的可行性。
2. 泛化能力:通过增加训练环境多样性(如Disco103),算法在未见任务中表现更优,表明数据量与计算规模是关键。
3. 机制解析
- 预测语义:DiscoRL的预测向量y和z能捕捉未来奖励和策略熵变化(图4c),其注意力机制区别于传统价值函数(图4b)。
- 自举机制:元网络利用未来预测构建当前目标(图4d),禁用该机制导致性能显著下降(图4e)。

科学价值
- 方法论突破:首次证明机器可通过元学习发现超越人工设计的RL算法,为AI自改进提供了新路径。
- 应用潜力:DiscoRL的高效性与泛化能力可加速复杂任务(如游戏、机器人控制)的算法开发。


研究亮点
1. 算法创新:DiscoRL是首个通过纯经验学习、无需人工干预的通用RL规则。
2. 规模化设计:大规模环境(103个任务)和分布式计算(TPU集群)支撑了发现的鲁棒性。
3. 理论启示:揭示了预测语义和自举机制在RL中的新作用,挑战了传统算法设计范式。

其他价值
- 开源贡献:作者公开了Disco103的元参数和代码(GitHub),推动社区进一步探索。
- 工程优化:基于JAX和TPU的框架实现了高效并行化,为类似研究提供了技术参考。

(注:专业术语首次出现时保留英文原词,如meta-learning(元学习)、bootstrapping(自举)。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com