分享自:

无最优动作标签的上下文强化学习

期刊:proceedings of the 1st workshop on in-context learning at the 41st international conference on machine learning

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于上下文强化学习的决策重要性变换器(DIT)研究

一、作者与发表信息

本研究由Juncheng Dong(杜克大学电气与计算机工程系)、Moyang Guo(杜克大学)、Ethan X. Fang(杜克大学生物统计学与生物信息学系)、Zhuoran Yang(耶鲁大学统计与数据科学系)和Vahid Tarokh(杜克大学)合作完成,发表于2024年第41届国际机器学习会议(ICML)的“In-Context Learning”研讨会论文集。

二、学术背景

科学领域:研究聚焦于强化学习(Reinforcement Learning, RL)大语言模型(LLMs)的交叉领域,探索如何通过上下文学习(In-Context Learning, ICL)实现无需显式最优动作标签的离线强化学习。

研究动机:现有基于Transformer的上下文强化学习方法(如Algorithm Distillation, AD和Decision Pretrained Transformer, DPT)依赖两类强假设:
1. AD需预训练数据包含从随机策略到最优策略的完整学习历史;
2. DPT需提供最优动作标签作为监督信号。
这些假设限制了方法的普适性。本研究提出决策重要性变换器(Decision Importance Transformer, DIT),通过加权最大似然估计(Weighted MLE, WMLE)利用轨迹内奖励信号替代最优动作标签,解决数据次优性问题。

目标:在预训练数据仅包含次优行为策略生成的轨迹时,DIT能通过奖励信号自动识别接近最优的动作,并实现与DPT相当的上下文强化学习性能。

三、研究流程与方法

1. 问题建模
  • 任务设定:将强化学习问题建模为马尔可夫决策过程(MDP),定义状态空间、动作空间、动态函数和奖励函数。
  • 预训练数据:包含来自多个RL实例的离线轨迹(状态-动作-奖励序列),但动作由次优策略生成。
2. DIT核心方法
  • 伪最优动作标签生成
    对轨迹中的每个状态-动作对$(s_h, ah)$,计算其重要性值$c{opt}(s_h, ah) = \sum{h’=h}^H \gamma^{h’-h} r_{h’}$,其中$\gamma$为折扣因子。该值反映动作$a_h$的长期累积奖励,作为其“最优性”的代理指标。
  • 加权预训练目标
    采用WMLE损失函数,权重由单调函数$m(c{opt})$调整,优先学习高重要性值的动作:
    $$\min
    \theta \frac{1}{mH^2} \sum{i=1}^m \sum{h=1}^H m(c_{opt}(s_h, ah)) \cdot \left[ -\log t\theta(a_h | sh, d^{i,h}) \right]$$
    其中$t
    \theta$为基于GPT-2架构的Transformer策略模型。
3. 实验设计
  • 基准任务
    • Bandit问题:线性Bandit(20臂,10维特征),测试在线/离线场景下的遗憾(Regret)和次优性(Suboptimality)。
    • MDP问题:Dark Room(10×10网格导航)和MiniWorld(3D视觉导航),测试模型从次优数据中推断最优策略的能力。
  • 对比方法
    • 理论最优算法:UCB(Upper Confidence Bound)、Thompson Sampling(TS)、LCB(Lower Confidence Bound)。
    • 上下文RL基线:DPT、AD、Behavior Cloning(BC)、Weighted BC(WBC)。
  • 评估指标:在线学习的累积奖励、离线学习的策略价值函数。
4. 数据与实现
  • 预训练数据生成
    • Bandit:随机生成行为策略混合Dirichlet分布与随机臂选择。
    • MDP:以概率$p$(Dark Room: 0.2, MiniWorld: 0.7)采样最优动作,其余为随机动作。
  • 模型架构:4层GPT-2 Transformer,嵌入维度32,注意力头数4,优化器为AdamW(学习率1e-3)。

四、主要结果

1. Bandit问题
  • 在线测试:DIT的累积遗憾低于UCB和TS,尤其在早期快速收敛(图2左)。
  • 离线测试:在随机策略生成的轨迹上,DIT的次优性显著低于LCB(图2中);在专家轨迹上,DIT进一步优化策略(图2右)。
2. MDP问题
  • Dark Room
    • 在线学习:DIT在40回合内超越DPT和AD,最终奖励接近最优值80(图3a)。
    • 离线学习:使用专家轨迹时,DIT与DPT性能相当;使用随机轨迹时,DIT优于BC和WBC(图3b-c)。
  • MiniWorld
    • 视觉导航任务:DIT在在线学习中逐步提升性能,而DPT因查询状态受限表现不佳(图4a)。
3. 消融实验
  • 权重缩放影响
    在低奖励数据集上,增大权重($m(x)=\lambda x^2, \lambda=500$)显著提升性能;反之,高奖励数据集需较小权重以避免过拟合(图5)。

五、结论与价值

科学价值
1. 方法创新:DIT首次实现无需最优动作标签的上下文强化学习,通过奖励信号自动加权次优数据中的高价值动作。
2. 理论意义:WMLE框架为离线RL提供了一种新的悲观优化视角,其权重机制可视为重要性采样比率的近似。

应用价值
- 数据效率:适用于真实场景中难以获取最优标签的任务(如机器人控制、医疗决策)。
- 泛化能力:在任务分布偏移(如Dark Room中未见的目标位置)下仍保持鲁棒性。

六、研究亮点

  1. 关键发现:奖励信号足以替代显式最优动作标签,且WMLE能有效缓解分布偏移问题。
  2. 方法新颖性
    • 提出轨迹内状态-动作对作为伪查询标签的生成机制。
    • 设计基于奖励的权重函数$m(c_{opt})$,动态调整预训练目标。
  3. 实验全面性:覆盖Bandit与MDP问题,验证方法在离散/连续动作空间中的普适性。

七、其他贡献

  • 开源与复现:实验代码与参数全部公开,支持A6000 GPU单卡训练,耗时低于1小时。
  • 理论延伸:附录讨论了权重缩放因子的理论最优选择,为后续研究提供方向。

这篇报告系统性地介绍了DIT的方法框架、实验设计及贡献,为研究者提供了关于上下文强化学习前沿进展的详细参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com