这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
离线强化学习中数据采样技术的作用:基于轨迹视角的研究
作者及机构
本研究由Jinyi Liu(天津大学智能与计算学部)、Yi Ma(天津大学智能与计算学部)、Jianye Hao(天津大学智能与计算学部)、Yujing Hu(网易伏羲AI实验室)、Yan Zheng†(天津大学智能与计算学部,通讯作者)、Tangjie Lv(网易伏羲AI实验室)和Changjie Fan(网易伏羲AI实验室)共同完成。研究发表于2024年5月6日至10日举办的第23届国际自主代理与多代理系统会议(AAMAS 2024),并收录于会议论文集。
研究领域与动机
离线强化学习(Offline Reinforcement Learning, Offline RL)是一种仅通过固定数据集学习策略的技术,避免了与环境的实时交互成本。然而,现有研究多集中于训练算法设计(如保守值估计、策略约束等),而数据采样技术的作用长期被忽视。尽管在线强化学习中,采样技术已被证明能显著提升性能,但其在离线场景下的效果尚不明确。例如,直接对状态转移(state-transitions)采样可能无法有效利用轨迹(trajectory)中的时序信息,导致奖励信号传播效率低下。
研究目标
本研究旨在从轨迹视角出发,探索数据采样技术对离线强化学习的影响,提出一种新型记忆模块优先轨迹回放(Prioritized Trajectory Replay, PTR),并通过实验验证其在提升算法性能、稳定训练过程方面的潜力。
核心设计
TR是一种存储和采样轨迹数据的记忆模块,其核心创新在于逆向轨迹采样(backward sampling):从轨迹末端开始依次采样状态转移。例如,对于轨迹𝜏={(𝑠₀,𝑎₀,𝑟₀), (𝑠₁,𝑎₁,𝑟₁), …, (𝑠ₙ,𝑎ₙ,𝑟ₙ)},TR会优先采样(𝑠ₙ,𝑎ₙ,𝑟ₙ),再依次向前采样。这种设计能加速后续状态奖励信号向初始状态的传播,尤其适用于稀疏奖励任务。
技术细节
- 存储结构:数据集以完整轨迹形式存储,而非独立的状态转移。
- 采样流程:每次从可用轨迹池中随机选取一批轨迹,按逆向顺序提取状态转移至训练批次(见图2)。
- 兼容性:TR可无缝集成至现有离线RL算法(如TD3+BC、IQL),仅需替换原始回放缓冲区的采样逻辑。
为缓解离线RL中的外推误差(extrapolation error),作者提出一种加权目标函数,结合传统TD目标与SARSA目标:
[ Q_{\text{target}}(s_t,a_t) = rt + \gamma \left[ (1-\beta) Q{\text{target}}(s{t+1},a{t+1}) + \beta Q\theta(s{t+1},\pi(s_{t+1})) \right] ]
其中,𝛽控制对SARSA目标的依赖程度。SARSA目标仅使用轨迹内真实动作,避免对分布外(OOD)动作的估值误差。
在TR基础上,PTR引入轨迹优先级采样,定义13种优先级指标,分为两类:
- 轨迹质量指标:如轨迹回报(return)、平均奖励(avg reward)、上四分位均值(UQM reward)、最小奖励(min reward)等,优先采样高回报或高奖励密度的轨迹。
- 轨迹不确定性指标:如平均不确定性的倒数(lower mean unc.)、下四分位不确定性的倒数(lower LQM unc.)等,优先采样低不确定性的轨迹。
采样概率公式:
[ P(\tauj) = \frac{p{\tau_j}}{\sumk p{\tauk}}, \quad p{\tau_j} = \frac{1}{\text{rank}(\text{pri}(\tau_j))} ]
其中,优先级pri(𝜏ⱼ)由上述指标定义,rank(·)将绝对值转换为排序值以避免偏差。
在D4RL基准测试中,TR在稀疏奖励任务(如AntMaze、Adroit)上表现优异。例如:
- AntMaze-umaze-v0:TD3+BC(TR)的回报提升至66.84(原始TD3+BC为60.39)。
- Hopper-medium-v2:TD3+BC(TR)的回报从59.6提升至60.93,且训练稳定性显著提高。
局限性:在部分密集奖励任务(如Walker2d-medium-replay-v2)中,TR可能因过度依赖轨迹时序性导致性能下降。
加权目标(𝛽=0.5)在复杂任务中表现最佳:
- HalfCheetah-medium-expert-v2:TD3+BC(weighted)回报达93.63,优于原始TD3+BC(91.53)。
- AntMaze-umaze-v0:回报提升至92.53(原始为71.17)。
关键发现:
- 最大奖励(max reward)优先级因过于激进,性能较差。
- 高不确定性优先采样会加剧外推误差,导致训练不稳定。
科学意义
1. 轨迹视角的革新性:首次系统论证了轨迹级采样在离线RL中的重要性,揭示了逆向采样和优先级设计的协同效应。
2. 方法论贡献:PTR作为一种即插即用模块,仅需约200行代码即可集成至现有算法,性能提升最高达25%(如AntMaze-large-play-v0)。
应用价值
PTR的低计算开销(每epoch仅增加1-3秒)使其适用于工业场景,例如游戏AI(网易伏羲实验室的落地场景)和机器人控制。
局限性
1. 加权目标函数中𝛽需手动调参,未来可探索自适应机制。
2. 在极端困难任务(如door-cloned-v1)中性能提升有限,需进一步结合数据增强技术。
注:本研究由小米青年学者计划、中国国家重点研发计划(2022ZD0116402)和国家自然科学基金(92370132)支持。