分享自:

数据采样技术在离线强化学习中的轨迹视角研究

期刊:Proc. of the 23rd International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2024)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


离线强化学习中数据采样技术的作用:基于轨迹视角的研究

作者及机构
本研究由Jinyi Liu(天津大学智能与计算学部)、Yi Ma(天津大学智能与计算学部)、Jianye Hao(天津大学智能与计算学部)、Yujing Hu(网易伏羲AI实验室)、Yan Zheng†(天津大学智能与计算学部,通讯作者)、Tangjie Lv(网易伏羲AI实验室)和Changjie Fan(网易伏羲AI实验室)共同完成。研究发表于2024年5月6日至10日举办的第23届国际自主代理与多代理系统会议(AAMAS 2024),并收录于会议论文集。


学术背景

研究领域与动机
离线强化学习(Offline Reinforcement Learning, Offline RL)是一种仅通过固定数据集学习策略的技术,避免了与环境的实时交互成本。然而,现有研究多集中于训练算法设计(如保守值估计、策略约束等),而数据采样技术的作用长期被忽视。尽管在线强化学习中,采样技术已被证明能显著提升性能,但其在离线场景下的效果尚不明确。例如,直接对状态转移(state-transitions)采样可能无法有效利用轨迹(trajectory)中的时序信息,导致奖励信号传播效率低下。

研究目标
本研究旨在从轨迹视角出发,探索数据采样技术对离线强化学习的影响,提出一种新型记忆模块优先轨迹回放(Prioritized Trajectory Replay, PTR),并通过实验验证其在提升算法性能、稳定训练过程方面的潜力。


研究流程与方法

1. 轨迹回放(Trajectory Replay, TR)的提出与实现

核心设计
TR是一种存储和采样轨迹数据的记忆模块,其核心创新在于逆向轨迹采样(backward sampling):从轨迹末端开始依次采样状态转移。例如,对于轨迹𝜏={(𝑠₀,𝑎₀,𝑟₀), (𝑠₁,𝑎₁,𝑟₁), …, (𝑠ₙ,𝑎ₙ,𝑟ₙ)},TR会优先采样(𝑠ₙ,𝑎ₙ,𝑟ₙ),再依次向前采样。这种设计能加速后续状态奖励信号向初始状态的传播,尤其适用于稀疏奖励任务。

技术细节
- 存储结构:数据集以完整轨迹形式存储,而非独立的状态转移。
- 采样流程:每次从可用轨迹池中随机选取一批轨迹,按逆向顺序提取状态转移至训练批次(见图2)。
- 兼容性:TR可无缝集成至现有离线RL算法(如TD3+BC、IQL),仅需替换原始回放缓冲区的采样逻辑。

2. 基于TR的加权目标函数改进

为缓解离线RL中的外推误差(extrapolation error),作者提出一种加权目标函数,结合传统TD目标与SARSA目标:
[ Q_{\text{target}}(s_t,a_t) = rt + \gamma \left[ (1-\beta) Q{\text{target}}(s{t+1},a{t+1}) + \beta Q\theta(s{t+1},\pi(s_{t+1})) \right] ]
其中,𝛽控制对SARSA目标的依赖程度。SARSA目标仅使用轨迹内真实动作,避免对分布外(OOD)动作的估值误差。

3. 优先轨迹回放(PTR)与优先级指标

在TR基础上,PTR引入轨迹优先级采样,定义13种优先级指标,分为两类:
- 轨迹质量指标:如轨迹回报(return)、平均奖励(avg reward)、上四分位均值(UQM reward)、最小奖励(min reward)等,优先采样高回报或高奖励密度的轨迹。
- 轨迹不确定性指标:如平均不确定性的倒数(lower mean unc.)、下四分位不确定性的倒数(lower LQM unc.)等,优先采样低不确定性的轨迹。

采样概率公式
[ P(\tauj) = \frac{p{\tau_j}}{\sumk p{\tauk}}, \quad p{\tau_j} = \frac{1}{\text{rank}(\text{pri}(\tau_j))} ]
其中,优先级pri(𝜏ⱼ)由上述指标定义,rank(·)将绝对值转换为排序值以避免偏差。


主要实验结果

1. TR的有效性验证(RQ1)

在D4RL基准测试中,TR在稀疏奖励任务(如AntMaze、Adroit)上表现优异。例如:
- AntMaze-umaze-v0:TD3+BC(TR)的回报提升至66.84(原始TD3+BC为60.39)。
- Hopper-medium-v2:TD3+BC(TR)的回报从59.6提升至60.93,且训练稳定性显著提高。

局限性:在部分密集奖励任务(如Walker2d-medium-replay-v2)中,TR可能因过度依赖轨迹时序性导致性能下降。

2. 加权目标函数的改进效果(RQ2)

加权目标(𝛽=0.5)在复杂任务中表现最佳:
- HalfCheetah-medium-expert-v2:TD3+BC(weighted)回报达93.63,优于原始TD3+BC(91.53)。
- AntMaze-umaze-v0:回报提升至92.53(原始为71.17)。

3. PTR的优先级指标对比(RQ3)

  • 稀疏奖励任务:质量类指标(如UQM reward、min reward)更有效。例如,Adroit的pen-cloned-v1任务中,min reward优先级使回报提升至75.75(原始为65.67)。
  • 密集奖励任务:不确定性类指标(如lower UQM unc.)更优。例如,MuJoCo的Walker2d-medium-v2任务中,lower UQM unc.优先级使回报达87.16。

关键发现
- 最大奖励(max reward)优先级因过于激进,性能较差。
- 高不确定性优先采样会加剧外推误差,导致训练不稳定。


结论与价值

科学意义
1. 轨迹视角的革新性:首次系统论证了轨迹级采样在离线RL中的重要性,揭示了逆向采样和优先级设计的协同效应。
2. 方法论贡献:PTR作为一种即插即用模块,仅需约200行代码即可集成至现有算法,性能提升最高达25%(如AntMaze-large-play-v0)。

应用价值
PTR的低计算开销(每epoch仅增加1-3秒)使其适用于工业场景,例如游戏AI(网易伏羲实验室的落地场景)和机器人控制。


研究亮点

  1. 逆向采样机制:通过理论分析与实验验证,证明逆向采样能加速奖励传播,尤其适用于稀疏奖励任务。
  2. 多维度优先级设计:13种优先级指标覆盖轨迹质量与不确定性,为不同任务类型提供定制化解决方案。
  3. 轻量化实现:PTR模块的简洁性与兼容性使其易于推广至其他离线RL算法。

局限性
1. 加权目标函数中𝛽需手动调参,未来可探索自适应机制。
2. 在极端困难任务(如door-cloned-v1)中性能提升有限,需进一步结合数据增强技术。


:本研究由小米青年学者计划、中国国家重点研发计划(2022ZD0116402)和国家自然科学基金(92370132)支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com