深度强化学习中的高效样本利用:基于在线状态抽象与因果Transformer模型预测的创新方法
本研究由Yixing Lan、Xin Xu(IEEE高级会员)、Qiang Fang与Jianye Hao(IEEE会员)共同完成,发表在2024年11月的《IEEE Transactions on Neural Networks and Learning Systems》第35卷第11期。研究团队来自中国国防科技大学智能科学与技术学院和天津大学智能与计算学院,致力于解决深度强化学习(Deep Reinforcement Learning, DRL)中样本效率低下的关键问题。
一、学术背景与研究目标
深度强化学习在视频游戏(如Atari)和连续控制任务(如机器人操作)中展现了强大潜力,但其依赖大量环境交互数据的特性限制了实际应用。传统解决方案分为两类:
1. 表示学习(Representation Learning):通过重构学习(Reconstruction Learning)、对比学习(Contrastive Learning)或状态抽象(State Abstraction)提取低维特征,但前两者缺乏任务相关性理论保证;
2. 世界模型(World Models):通过构建环境动态模型减少真实交互需求,但单步预测误差会随模拟步长增长而累积(即复合误差,Compounding Errors)。
本文提出AMPL算法(Abstracted Model-based Policy Learning),结合多步双模拟状态抽象(SAMB)和因果Transformer模型预测器(CTMP),旨在降低抽象模型与原始马尔可夫决策过程(MDP)的性能损失边界,同时提升样本效率。
二、研究方法与技术流程
整体框架
AMPL包含四个模块:
- β-VAE编码器:从像素输入中提取解耦的低维表示;
- SAMB抽象网络:通过多步双模拟度量(Multistep Bisimulation Metric)压缩状态空间;
- CTMP模型预测器:在抽象状态空间内预测长时程轨迹;
- 改进的Soft Actor-Critic(SAC)策略优化器:结合λ-target利用模拟数据更新策略。
多步双模拟状态抽象(SAMB)
- 理论基础:定义多步双模拟关系(Definition 3),其核心是通过h步转移概率和累计奖励衡量状态相似性。相比传统单步双模拟,多步方法可生成更粗粒度的抽象(Theorem 1),并通过调整h控制抽象程度(Theorem 2)。
- 动态调整机制:在训练初期采用大h值(粗粒度抽象),后期逐步减小h以降低性能损失(Equation 12-13)。损失函数(Equation 8)包含奖励差异和Wasserstein距离项,确保任务相关特性被保留。
因果Transformer模型预测器(CTMP)
- 架构设计(图2):基于GPT的因果掩码注意力机制,输入为历史状态-动作序列,输出预测的下一状态和奖励。
- 优势:通过并行训练和长序列建模能力,直接利用多步信息减少复合误差(对比单步模型如Dreamer)。
策略优化
- 采用改进的SAC算法(Equation 18-21),引入λ-target(Equation 19)平衡模拟轨迹与真实数据的偏差-方差权衡。
三、实验结果与分析
基准测试
- Atari 100k:在26款游戏中,AMPL在14款上超越人类表现,平均性能较MuZero提升1.6倍,较RC-CURL提升2.4倍(表II)。
- DMControl 500k:在连续控制任务(如Walker Walk)中,AMPL的收敛速度和最终性能均优于Pixel SAC、SLAC等(图4)。
抗干扰实验
- 在动态干扰环境下(图3b),AMPL的性能损失显著小于基线方法(图5),验证了SAMB对任务无关干扰的鲁棒性。
- 可视化分析:t-SNE(图6)和LIME解释(图7)表明,SAMB学习的表示与价值函数高度相关,而β-VAE易受干扰影响。
消融研究(图8)
- 移除SAMB或CTMP均导致性能下降,尤其在干扰任务中;λ-target的缺失虽不影响最终性能,但增加训练波动性。
四、结论与价值
理论贡献
- 证明多步双模拟的固定点存在性(Theorem 3)及其与最优价值函数的Lipschitz连续性(Theorem 4);
- 给出模型抽象场景下性能损失的上界(Theorem 2),为平衡抽象程度与模型误差提供指导。
应用价值
- 在Atari和DMControl任务中实现当前最优的样本效率;
- 为高维观测(如像素输入)和动态干扰环境下的强化学习提供通用框架。
亮点
- SAMB:首个可动态调整抽象粒度的多步双模拟方法;
- CTMP:首次将因果Transformer用于抽象MDP内的长时程预测;
- 端到端效率:两阶段表示学习(β-VAE + SAMB)加速收敛,模型并行化训练速度优于Pixel-based方法(表V)。
五、未来方向
研究团队计划进一步优化超参数自动选择机制,并完善近似场景下的理论分析。本文代码与实验细节可参考附录及补充材料。
(字数:1750字)