分享自:

视觉语言模型作为零样本强化学习的奖励模型

期刊:ICLR 2024

基于视觉语言模型(VLM)的零样本强化学习奖励建模研究

作者及机构
本研究由Juan Rocamonde(Far AI和Vertebra)、Victoriano Montesinos(Vertebra)、Elvis Nava(ETH AI Center)、Ethan Perez(Anthropic)和David Lindner(ETH Zurich)共同完成,发表于ICLR 2024会议。

学术背景

研究领域与动机
该研究属于强化学习(Reinforcement Learning, RL)与多模态人工智能的交叉领域。传统RL面临两大核心问题:
1. 人工设计奖励函数的不可行性:复杂任务(如机器人精细动作)的奖励函数需精确建模物理动态,实践中难以实现;
2. 人类反馈的高成本:通过人类标注数据学习奖励模型(Reward Model, RM)需耗费大量资源。

研究团队提出利用预训练的视觉语言模型(Vision-Language Models, VLMs,如CLIP)作为零样本奖励模型(Zero-shot Reward Model),仅需自然语言描述即可生成奖励信号,从而规避上述问题。

理论基础
- CLIP模型(Contrastive Language-Image Pretraining):通过对比学习对齐图像与文本的嵌入空间,具备跨模态语义匹配能力。
- 目标-基线正则化(Goal-Baseline Regularization):通过投影消除嵌入空间中与任务无关的成分,提升奖励函数的判别性。

研究流程

1. VLM-RM方法设计

核心算法
- 基础奖励函数:基于CLIP的图像编码器(CLIPi)和文本编码器(CLIPl),计算状态图像与任务描述的余弦相似度:
$$ r_{\text{clip}}(s) = \frac{\text{CLIP}_l(l) \cdot \text{CLIP}_i(\psi(s))}{|\text{CLIP}_l(l)| \cdot |\text{CLIP}i(\psi(s))|} $$
- 正则化改进:引入基线文本描述(如“人形机器人”),将状态嵌入投影至目标与基线方向,抑制无关特征:
$$ r
{\text{clip-reg}}(s) = 1 - \frac{1}{2} | \alpha \text{proj}_l s + (1-\alpha)s - g |_2^2 $$
其中$\alpha$控制正则化强度。

2. 实验验证

研究对象与任务
- 经典控制任务:CartPole(平衡杆)和MountainCar(爬山车),用于验证奖励函数与真实奖励的相关性。
- 复杂机器人任务:MuJoCo人形机器人完成“跪地”“莲花坐”“劈叉”等动作(图1),测试零样本语言指令的可行性。

实验设计
1. 环境改造:为MountainCar添加真实纹理,提升CLIP对视觉输入的理解;调整人形机器人环境的摄像机视角与纹理。
2. 训练流程
- 使用SAC(Soft Actor-Critic)算法,并行化渲染与CLIP推理;
- 每100步执行100次策略更新,批量大小3200;
- 评估时选择训练中奖励最高的模型检查点。

3. 模型规模影响分析

比较不同规模的CLIP模型(RN50、ViT-L-14、ViT-H-14、ViT-bigg-14)作为奖励模型的效果,探究模型能力与任务性能的关联。

主要结果

1. 经典控制任务

  • 奖励地形分析:CLIP奖励在CartPole中与真实奖励高度一致,而在原始MountainCar中表现不佳。通过添加纹理与正则化,奖励函数呈现与地形匹配的合理梯度(图2c)。
  • 策略成功率:纹理改造后,MountainCar任务达成100%成功率;未改造时则完全失败,证实视觉真实性对VLM-RM至关重要。

2. 人形机器人任务

  • 任务表现:5/8任务(跪地、莲花坐、站立、举臂、劈叉)成功率达100%(表1),无需提示工程;失败任务(如“单腿站立”)与物理模拟限制或CLIP的细粒度姿态判别能力不足相关。
  • 正则化效果:目标-基线正则化提升小模型(RN50)的EPIC距离(图4a),但对最大模型(ViT-bigg-14)影响有限。

3. 模型规模效应

  • 性能跃迁:仅ViT-bigg-14能成功训练所有任务(图4c),较小模型完全失败。
  • 对数线性趋势:CLIP参数量与EPIC距离(衡量奖励模型质量)近似对数线性相关(图4b),表明模型能力是关键瓶颈。

结论与价值

科学意义
- 零样本奖励建模的可行性:证明大规模VLMs可直接作为RL奖励信号源,无需微调或复杂适配。
- 模型规模定律:揭示VLM-RM性能随模型规模显著提升,为未来基础模型在RL中的应用提供方向。

应用价值
- 降低RL部署成本:通过自然语言指令替代手工设计奖励函数,加速机器人控制等复杂任务的开发。
- 跨任务泛化潜力:支持开放词汇任务指定,如“医疗机器人辅助手术”等尚未定义奖励的场景。

研究亮点

  1. 方法创新性:首次系统性验证CLIP作为零样本奖励模型的通用性,并提出目标-基线正则化方法。
  2. 实验全面性:涵盖从经典控制到高维人形机器人任务,结合定量(EPIC距离)与定性(人类评估)分析。
  3. 可扩展性洞察:明确模型规模与任务性能的强关联,为后续研究提供基准。

局限与展望
- VLM固有缺陷:空间推理不足或非真实视觉输入可能导致奖励错误。
- 未来方向:结合视频编码器处理时序任务,或通过对话式VLM实现多阶段奖励指定。

(全文约2100字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com