数据采样技术在离线强化学习中的轨迹视角研究

分享自：
数据采样技术在离线强化学习中的轨迹视角研究

期刊:Proc. of the 23rd International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2024)
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
离线强化学习中数据采样技术的作用：基于轨迹视角的研究
作者及机构
 本研究由Jinyi Liu（天津大学智能与计算学部）、Yi Ma（天津大学智能与计算学部）、Jianye Hao（天津大学智能与计算学部）、Yujing Hu（网易伏羲AI实验室）、Yan Zheng†（天津大学智能与计算学部，通讯作者）、Tangjie Lv（网易伏羲AI实验室）和Changjie Fan（网易伏羲AI实验室）共同完成。研究发表于2024年5月6日至10日举办的第23届国际自主代理与多代理系统会议（AAMAS 2024），并收录于会议论文集。
学术背景研究领域与动机
 离线强化学习（Offline Reinforcement Learning, Offline RL）是一种仅通过固定数据集学习策略的技术，避免了与环境的实时交互成本。然而，现有研究多集中于训练算法设计（如保守值估计、策略约束等），而数据采样技术的作用长期被忽视。尽管在线强化学习中，采样技术已被证明能显著提升性能，但其在离线场景下的效果尚不明确。例如，直接对状态转移（state-transitions）采样可能无法有效利用轨迹（trajectory）中的时序信息，导致奖励信号传播效率低下。
研究目标
 本研究旨在从轨迹视角出发，探索数据采样技术对离线强化学习的影响，提出一种新型记忆模块优先轨迹回放（Prioritized Trajectory Replay, PTR），并通过实验验证其在提升算法性能、稳定训练过程方面的潜力。
研究流程与方法1. 轨迹回放（Trajectory Replay, TR）的提出与实现核心设计
 TR是一种存储和采样轨迹数据的记忆模块，其核心创新在于逆向轨迹采样（backward sampling）：从轨迹末端开始依次采样状态转移。例如，对于轨迹𝜏={(𝑠₀,𝑎₀,𝑟₀), (𝑠₁,𝑎₁,𝑟₁), …, (𝑠ₙ,𝑎ₙ,𝑟ₙ)}，TR会优先采样(𝑠ₙ,𝑎ₙ,𝑟ₙ)，再依次向前采样。这种设计能加速后续状态奖励信号向初始状态的传播，尤其适用于稀疏奖励任务。
技术细节
 - 存储结构：数据集以完整轨迹形式存储，而非独立的状态转移。
 - 采样流程：每次从可用轨迹池中随机选取一批轨迹，按逆向顺序提取状态转移至训练批次（见图2）。
 - 兼容性：TR可无缝集成至现有离线RL算法（如TD3+BC、IQL），仅需替换原始回放缓冲区的采样逻辑。
2. 基于TR的加权目标函数改进为缓解离线RL中的外推误差（extrapolation error），作者提出一种加权目标函数，结合传统TD目标与SARSA目标：
 [ Q_{\text{target}}(s_t,a_t) = rt + \gamma \left[ (1-\beta) Q{\text{target}}(s{t+1},a{t+1}) + \beta Q\theta(s{t+1},\pi(s_{t+1})) \right] ]
 其中，𝛽控制对SARSA目标的依赖程度。SARSA目标仅使用轨迹内真实动作，避免对分布外（OOD）动作的估值误差。
3. 优先轨迹回放（PTR）与优先级指标在TR基础上，PTR引入轨迹优先级采样，定义13种优先级指标，分为两类：
 - 轨迹质量指标：如轨迹回报（return）、平均奖励（avg reward）、上四分位均值（UQM reward）、最小奖励（min reward）等，优先采样高回报或高奖励密度的轨迹。
 - 轨迹不确定性指标：如平均不确定性的倒数（lower mean unc.）、下四分位不确定性的倒数（lower LQM unc.）等，优先采样低不确定性的轨迹。
采样概率公式：
 [ P(\tauj) = \frac{p{\tau_j}}{\sumk p{\tauk}}, \quad p{\tau_j} = \frac{1}{\text{rank}(\text{pri}(\tau_j))} ]
 其中，优先级pri(𝜏ⱼ)由上述指标定义，rank(·)将绝对值转换为排序值以避免偏差。
主要实验结果1. TR的有效性验证（RQ1）在D4RL基准测试中，TR在稀疏奖励任务（如AntMaze、Adroit）上表现优异。例如：
 - AntMaze-umaze-v0：TD3+BC(TR)的回报提升至66.84（原始TD3+BC为60.39）。
 - Hopper-medium-v2：TD3+BC(TR)的回报从59.6提升至60.93，且训练稳定性显著提高。
局限性：在部分密集奖励任务（如Walker2d-medium-replay-v2）中，TR可能因过度依赖轨迹时序性导致性能下降。
2. 加权目标函数的改进效果（RQ2）加权目标（𝛽=0.5）在复杂任务中表现最佳：
 - HalfCheetah-medium-expert-v2：TD3+BC(weighted)回报达93.63，优于原始TD3+BC（91.53）。
 - AntMaze-umaze-v0：回报提升至92.53（原始为71.17）。
3. PTR的优先级指标对比（RQ3）稀疏奖励任务：质量类指标（如UQM reward、min reward）更有效。例如，Adroit的pen-cloned-v1任务中，min reward优先级使回报提升至75.75（原始为65.67）。
 
密集奖励任务：不确定性类指标（如lower UQM unc.）更优。例如，MuJoCo的Walker2d-medium-v2任务中，lower UQM unc.优先级使回报达87.16。
 
关键发现：
 - 最大奖励（max reward）优先级因过于激进，性能较差。
 - 高不确定性优先采样会加剧外推误差，导致训练不稳定。
结论与价值科学意义
 1. 轨迹视角的革新性：首次系统论证了轨迹级采样在离线RL中的重要性，揭示了逆向采样和优先级设计的协同效应。
 2. 方法论贡献：PTR作为一种即插即用模块，仅需约200行代码即可集成至现有算法，性能提升最高达25%（如AntMaze-large-play-v0）。
应用价值
 PTR的低计算开销（每epoch仅增加1-3秒）使其适用于工业场景，例如游戏AI（网易伏羲实验室的落地场景）和机器人控制。
研究亮点逆向采样机制：通过理论分析与实验验证，证明逆向采样能加速奖励传播，尤其适用于稀疏奖励任务。
 
多维度优先级设计：13种优先级指标覆盖轨迹质量与不确定性，为不同任务类型提供定制化解决方案。
 
轻量化实现：PTR模块的简洁性与兼容性使其易于推广至其他离线RL算法。
 
局限性
 1. 加权目标函数中𝛽需手动调参，未来可探索自适应机制。
 2. 在极端困难任务（如door-cloned-v1）中性能提升有限，需进一步结合数据增强技术。
注：本研究由小米青年学者计划、中国国家重点研发计划（2022ZD0116402）和国家自然科学基金（92370132）支持。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问