作者及机构
本研究由Juan Rocamonde(Far AI和Vertebra)、Victoriano Montesinos(Vertebra)、Elvis Nava(ETH AI Center)、Ethan Perez(Anthropic)和David Lindner(ETH Zurich)共同完成,发表于ICLR 2024会议。
研究领域与动机
该研究属于强化学习(Reinforcement Learning, RL)与多模态人工智能的交叉领域。传统RL面临两大核心问题:
1. 人工设计奖励函数的不可行性:复杂任务(如机器人精细动作)的奖励函数需精确建模物理动态,实践中难以实现;
2. 人类反馈的高成本:通过人类标注数据学习奖励模型(Reward Model, RM)需耗费大量资源。
研究团队提出利用预训练的视觉语言模型(Vision-Language Models, VLMs,如CLIP)作为零样本奖励模型(Zero-shot Reward Model),仅需自然语言描述即可生成奖励信号,从而规避上述问题。
理论基础
- CLIP模型(Contrastive Language-Image Pretraining):通过对比学习对齐图像与文本的嵌入空间,具备跨模态语义匹配能力。
- 目标-基线正则化(Goal-Baseline Regularization):通过投影消除嵌入空间中与任务无关的成分,提升奖励函数的判别性。
核心算法:
- 基础奖励函数:基于CLIP的图像编码器(CLIPi)和文本编码器(CLIPl),计算状态图像与任务描述的余弦相似度:
$$ r_{\text{clip}}(s) = \frac{\text{CLIP}_l(l) \cdot \text{CLIP}_i(\psi(s))}{|\text{CLIP}_l(l)| \cdot |\text{CLIP}i(\psi(s))|} $$
- 正则化改进:引入基线文本描述(如“人形机器人”),将状态嵌入投影至目标与基线方向,抑制无关特征:
$$ r{\text{clip-reg}}(s) = 1 - \frac{1}{2} | \alpha \text{proj}_l s + (1-\alpha)s - g |_2^2 $$
其中$\alpha$控制正则化强度。
研究对象与任务:
- 经典控制任务:CartPole(平衡杆)和MountainCar(爬山车),用于验证奖励函数与真实奖励的相关性。
- 复杂机器人任务:MuJoCo人形机器人完成“跪地”“莲花坐”“劈叉”等动作(图1),测试零样本语言指令的可行性。
实验设计:
1. 环境改造:为MountainCar添加真实纹理,提升CLIP对视觉输入的理解;调整人形机器人环境的摄像机视角与纹理。
2. 训练流程:
- 使用SAC(Soft Actor-Critic)算法,并行化渲染与CLIP推理;
- 每100步执行100次策略更新,批量大小3200;
- 评估时选择训练中奖励最高的模型检查点。
比较不同规模的CLIP模型(RN50、ViT-L-14、ViT-H-14、ViT-bigg-14)作为奖励模型的效果,探究模型能力与任务性能的关联。
科学意义
- 零样本奖励建模的可行性:证明大规模VLMs可直接作为RL奖励信号源,无需微调或复杂适配。
- 模型规模定律:揭示VLM-RM性能随模型规模显著提升,为未来基础模型在RL中的应用提供方向。
应用价值
- 降低RL部署成本:通过自然语言指令替代手工设计奖励函数,加速机器人控制等复杂任务的开发。
- 跨任务泛化潜力:支持开放词汇任务指定,如“医疗机器人辅助手术”等尚未定义奖励的场景。
局限与展望
- VLM固有缺陷:空间推理不足或非真实视觉输入可能导致奖励错误。
- 未来方向:结合视频编码器处理时序任务,或通过对话式VLM实现多阶段奖励指定。
(全文约2100字)