分享自:

基于可减少损失的强化学习样本优先级排序

期刊:37th conference on neural information processing systems (NeurIPS 2023)

强化学习中基于可缩减损失(reducible loss, 简称relo)的样本优先级排序方法学术报告


一、主要作者及机构
本研究的核心作者包括:
- Shivakanth Sujit(Mila, Quebec AI Institute, ÉTS Montréal)
- Somjit Nath(同机构)
- Pedro H.M. Braga(Mila, ÉTS Montréal, 巴西联邦伯南布哥大学)
- Samira Ebrahimi Kahou(Mila, ÉTS Montréal, CIFAR AI Chair)
该研究发表于第37届NeurIPS(2023),聚焦于改进强化学习(Reinforcement Learning, RL)中的经验回放(experience replay)机制。


二、学术背景与研究目标
科学领域与背景
强化学习通过智能体与环境的交互最大化累积奖励,但样本效率低下是其主要挑战。经验回放(experience replay)通过存储历史样本提升效率,但传统方法(如均匀采样或基于时序差分误差TD error的优先级采样PER)存在缺陷:
- PER缺陷:高TD误差的样本可能因噪声或不可学习性被反复采样,浪费计算资源。
- 核心问题:如何区分样本的“可学习性”(learn-ability),即通过训练损失持续下降的潜力判断其价值。

目标:提出可缩减损失(Reducible Loss, relo)作为优先级标准,动态识别可学习样本,避免噪声干扰,提升训练稳定性与效率。


三、研究流程与方法
1. 理论基础与算法设计
- 可缩减损失定义:利用在线网络(θ)与目标网络(θ̄)的损失差衡量样本可学习性:
[ \text{relo} = l\theta - l{\thetā}
]
其中,( l\theta )为当前网络损失,( l{\thetā} )为目标网络损失。高relo值表示样本损失可进一步缩减。
- 优先级映射:为避免负值,采用( p_i = \max(\text{relo}, 0) + \epsilon )(ϵ为极小常数保证采样概率非零)。

2. 实验验证
- 基准任务:涵盖DeepMind Control Suite、OpenAI Gym、MinAtar及ALE(Arcade Learning Environment),对比relo与PER、均匀采样等方法的性能。
- 实验对象与处理
- 网格世界(GridWorld):设计含随机奖励点的环境,验证relo避免噪声样本过采样的能力(50k回合,50次重复)。
- 多任务遗忘测试:6×6网格分阶段训练(任务A→任务B),评估relo对遗忘的抑制效果(1M步,60种子)。
- 连续/离散控制任务:SAC(Soft Actor-Critic)与DQN(Deep Q-Network)作为基线算法,分别测试DM Control Suite(9环境)和MinAtar(5游戏)。

3. 数据处理与分析
- 性能指标:标准化得分(IQM)、最优性差距(optimality gap)、验证TD误差。
- 计算优化:relo仅需一次目标网络前向传播,计算开销与PER相近。


四、主要结果
1. 网格世界实验
- 噪声样本处理:PER因反复采样高TD误差的随机奖励点,成功率仅0.5;relo与均匀采样均达0.9以上(图2)。
- 多任务遗忘:relo在任务A的保留成功率(0.63)显著高于PER(0.29)和均匀采样(0.43)(表1)。

2. 连续控制任务(DM Control Suite)
- 性能提升:relo在6/9环境中超越基线,如Quadruped Walk(relo: 942.64 vs PER: 766.30);聚合IQM得分更高(图1a)。
- 随机动态鲁棒性:添加高斯噪声后,relo的TD误差(Quadruped Run: 0.19)低于PER(5.22)(表2)。

3. 离散控制任务(MinAtar & ALE)
- MinAtar:relo在SeaQuest中得分(18.13)显著高于PER(6.02),接近均匀采样(16.13)(表9)。
- ALE(Rainbow框架):relo在Bank Heist等游戏中人类标准化得分提升(1.28 vs 1.20)(图1d)。

逻辑关联:实验结果验证relo通过剔除噪声样本和保留可学习样本,优化梯度更新方向,进而降低验证TD误差(表4、5),最终提升策略性能。


五、结论与价值
科学价值
- 理论贡献:提出“可缩减损失”作为可学习性的量化指标,弥补PER仅依赖TD误差的不足。
- 算法通用性:兼容各类离策略(off-policy)Q学习算法(如SAC、DQN),无需新增超参数。

应用价值
- 工业场景:适用于机器人控制、游戏AI等需高效样本利用的领域。
- 计算效率:仅增加单次前向传播,适合大规模部署。


六、研究亮点
1. 新颖优先级标准:首次将监督学习中的“可缩减损失”概念引入RL,结合目标网络作为hold-out模型的代理。
2. 抗噪声与遗忘:实验证明relo在随机环境和多任务中均优于PER。
3. 低计算开销:算法实现简洁,与PER相比无显著速度损失。


七、其他价值
- 开源代码:提供可复现实验的代码库,推动社区验证与应用。
- 跨领域适用性:在连续(DM Control)与离散(Atari)任务中均表现稳定,展现广泛潜力。

本研究为强化学习的样本效率问题提供了创新解决方案,其理论框架与实证结果均具有高度启发性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com