无最优动作标签的上下文强化学习

分享自：
无最优动作标签的上下文强化学习

期刊:proceedings of the 1st workshop on in-context learning at the 41st international conference on machine learning
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
基于上下文强化学习的决策重要性变换器（DIT）研究一、作者与发表信息本研究由Juncheng Dong（杜克大学电气与计算机工程系）、Moyang Guo（杜克大学）、Ethan X. Fang（杜克大学生物统计学与生物信息学系）、Zhuoran Yang（耶鲁大学统计与数据科学系）和Vahid Tarokh（杜克大学）合作完成，发表于2024年第41届国际机器学习会议（ICML）的“In-Context Learning”研讨会论文集。
二、学术背景科学领域：研究聚焦于强化学习（Reinforcement Learning, RL）与大语言模型（LLMs）的交叉领域，探索如何通过上下文学习（In-Context Learning, ICL）实现无需显式最优动作标签的离线强化学习。
研究动机：现有基于Transformer的上下文强化学习方法（如Algorithm Distillation, AD和Decision Pretrained Transformer, DPT）依赖两类强假设：
 1. AD需预训练数据包含从随机策略到最优策略的完整学习历史；
 2. DPT需提供最优动作标签作为监督信号。
 这些假设限制了方法的普适性。本研究提出决策重要性变换器（Decision Importance Transformer, DIT），通过加权最大似然估计（Weighted MLE, WMLE）利用轨迹内奖励信号替代最优动作标签，解决数据次优性问题。
目标：在预训练数据仅包含次优行为策略生成的轨迹时，DIT能通过奖励信号自动识别接近最优的动作，并实现与DPT相当的上下文强化学习性能。
三、研究流程与方法1. 问题建模任务设定：将强化学习问题建模为马尔可夫决策过程（MDP），定义状态空间、动作空间、动态函数和奖励函数。
 
预训练数据：包含来自多个RL实例的离线轨迹（状态-动作-奖励序列），但动作由次优策略生成。
 
2. DIT核心方法伪最优动作标签生成：
 对轨迹中的每个状态-动作对$(s_h, ah)$，计算其重要性值$c{opt}(s_h, ah) = \sum{h’=h}^H \gamma^{h’-h} r_{h’}$，其中$\gamma$为折扣因子。该值反映动作$a_h$的长期累积奖励，作为其“最优性”的代理指标。
 
加权预训练目标：
 采用WMLE损失函数，权重由单调函数$m(c{opt})$调整，优先学习高重要性值的动作：
 $$\min\theta \frac{1}{mH^2} \sum{i=1}^m \sum{h=1}^H m(c_{opt}(s_h, ah)) \cdot \left[ -\log t\theta(a_h | sh, d^{i,h}) \right]$$
 其中$t\theta$为基于GPT-2架构的Transformer策略模型。
 
3. 实验设计基准任务：
 Bandit问题：线性Bandit（20臂，10维特征），测试在线/离线场景下的遗憾（Regret）和次优性（Suboptimality）。
 
MDP问题：Dark Room（10×10网格导航）和MiniWorld（3D视觉导航），测试模型从次优数据中推断最优策略的能力。
 
对比方法：
 理论最优算法：UCB（Upper Confidence Bound）、Thompson Sampling（TS）、LCB（Lower Confidence Bound）。
 
上下文RL基线：DPT、AD、Behavior Cloning（BC）、Weighted BC（WBC）。
 
评估指标：在线学习的累积奖励、离线学习的策略价值函数。
 
4. 数据与实现预训练数据生成：
 Bandit：随机生成行为策略混合Dirichlet分布与随机臂选择。
 
MDP：以概率$p$（Dark Room: 0.2, MiniWorld: 0.7）采样最优动作，其余为随机动作。
 
模型架构：4层GPT-2 Transformer，嵌入维度32，注意力头数4，优化器为AdamW（学习率1e-3）。
 
四、主要结果1. Bandit问题在线测试：DIT的累积遗憾低于UCB和TS，尤其在早期快速收敛（图2左）。
 
离线测试：在随机策略生成的轨迹上，DIT的次优性显著低于LCB（图2中）；在专家轨迹上，DIT进一步优化策略（图2右）。
 
2. MDP问题Dark Room：
 在线学习：DIT在40回合内超越DPT和AD，最终奖励接近最优值80（图3a）。
 
离线学习：使用专家轨迹时，DIT与DPT性能相当；使用随机轨迹时，DIT优于BC和WBC（图3b-c）。
 
MiniWorld：
 视觉导航任务：DIT在在线学习中逐步提升性能，而DPT因查询状态受限表现不佳（图4a）。
 
3. 消融实验权重缩放影响：
 在低奖励数据集上，增大权重（$m(x)=\lambda x^2, \lambda=500$）显著提升性能；反之，高奖励数据集需较小权重以避免过拟合（图5）。
 
五、结论与价值科学价值：
 1. 方法创新：DIT首次实现无需最优动作标签的上下文强化学习，通过奖励信号自动加权次优数据中的高价值动作。
 2. 理论意义：WMLE框架为离线RL提供了一种新的悲观优化视角，其权重机制可视为重要性采样比率的近似。
应用价值：
 - 数据效率：适用于真实场景中难以获取最优标签的任务（如机器人控制、医疗决策）。
 - 泛化能力：在任务分布偏移（如Dark Room中未见的目标位置）下仍保持鲁棒性。
六、研究亮点关键发现：奖励信号足以替代显式最优动作标签，且WMLE能有效缓解分布偏移问题。
 
方法新颖性：
 提出轨迹内状态-动作对作为伪查询标签的生成机制。
 
设计基于奖励的权重函数$m(c_{opt})$，动态调整预训练目标。
 
实验全面性：覆盖Bandit与MDP问题，验证方法在离散/连续动作空间中的普适性。
 
七、其他贡献开源与复现：实验代码与参数全部公开，支持A6000 GPU单卡训练，耗时低于1小时。
 
理论延伸：附录讨论了权重缩放因子的理论最优选择，为后续研究提供方向。
 
这篇报告系统性地介绍了DIT的方法框架、实验设计及贡献，为研究者提供了关于上下文强化学习前沿进展的详细参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问