本研究题为《FOCUS: Object-Centric World Models for Robotic Manipulation》,由比利时根特大学-imec ID实验室的Stefano Ferraro、Pietro Mazzaglia、美国Verses研究实验室的Tim Verbelen以及Bart Dhoedt共同完成。该研究于2025年4月30日发表在学术期刊《Frontiers in Neurorobotics》上。
本研究属于人工智能(AI)、机器人学与强化学习的交叉领域,具体聚焦于机器人操作任务。当前,基于强化学习的机器人控制面临两大核心挑战:1. 样本效率低下,即学习复杂任务需要海量的试错交互;2. 稀疏奖励场景下的探索困难,即仅在任务成功时给予奖励信号,智能体难以通过随机探索找到正确的行为序列。
解决这些挑战的主流方法之一是构建世界模型,即智能体通过学习环境动态的生成模型,在内部“想象”中进行规划和策略学习,以提高数据效率。然而,现有的世界模型(如Dreamer)通常将整个场景编码为一个单一的全局潜在向量。这种“扁平”表示存在局限性:它会将有限的模型容量浪费在与任务无关的静态背景上,同时可能忽略场景中体积小但关键(如待操作的物体)的特征信息。这与人类的认知方式相悖,人类倾向于以对象为中心来构建对世界的理解。
同时,针对稀疏奖励任务,现有的探索策略(如基于好奇心或最大化全局状态熵的方法)往往缺乏方向性,可能导致智能体被环境中易于改变视觉外观但无关紧要的部分(如靠近摄像头移动机械臂)所吸引,而不是主动与任务相关的物体进行交互。
基于上述背景,本研究的目标是开发一种新颖的、以对象为中心的模型智能体。具体贡献包括:1)提出一个以对象为中心的世界模型,能够将场景中的物体信息分离到独立的潜在表示中,从而更精准地建模和预测物体动态;2)设计一种以对象为中心的探索策略,通过最大化物体潜在表示的熵,激励智能体主动与物体交互,从而更高效地发现稀疏奖励;3)在多个模拟机器人操作基准和真实机器人平台上进行系统性验证,证明该方法在提升物体预测精度、加速学习过程以及解决稀疏奖励任务方面的优越性。
本研究的工作流程主要分为三个核心部分:1)以对象为中心的世界模型架构设计与训练;2)基于该模型的以对象为中心探索策略设计;3)在模拟与真实环境中的实验评估与验证。
第一部分:以对象为中心的世界模型 该模型旨在学习一个结构化的环境动态表示。智能体在每一步接收到视觉观察(如RGB图像)和本体感觉(如关节状态)。核心创新在于,模型在标准的循环状态空间模型之上,引入了对象条件化组件。 1. 编码与动态建模:首先,编码器将原始观察(图像与本体感觉)编码为一个全局潜在状态。一个循环状态空间模型用于学习该潜在状态的动态(先验与后验分布),以捕获环境的时间演化。 2. 对象信息解耦:这是FOCUS的核心。模型包含一个对象潜在提取器和一个对象解码器。对象潜在提取器接收全局潜在状态和一个标识特定物体的独热编码向量,输出一个专注于该物体的潜在表示。对象解码器则从每个物体的潜在表示中,重构出与该物体相关的信息。 3. 分割与掩膜重构:对象解码器输出两类信息:一是用于构建场景分割掩膜的“对象逻辑值”,二是物体特定的观察重构。通过在所有物体的逻辑值上应用Softmax,模型可以生成整个场景的预测分割掩膜。利用这个预测掩膜,可以遮罩掉与特定物体无关的图像部分,从而得到该物体的“纯净”重构图像。这种设计迫使每个物体的潜在表示必须专注于编码自身的信息,因为其解码器重构的目标是被掩膜后的、仅包含该物体的图像区域。 4. 训练目标:模型通过端到端训练,最小化三个损失:动态模型的KL散度损失、本体感觉信息的重构损失,以及最关键的对象相关损失。对象相关损失包含两项:分割掩膜的重构损失(确保各物体在像素空间正确占据位置)和基于掩膜的物体观察重构损失(确保物体潜在表示能准确编码其视觉信息)。为了实现无监督的对象信息解耦,研究巧妙地利用了大型预训练分割模型FastSAM和跟踪模型XMem,在每轮交互开始时及后续帧中自动生成高质量的分割掩膜作为训练目标,从而避免了在真实世界中需要人工标注的难题。
第二部分:以对象为中心的探索策略 利用学习到的物体潜在表示,研究设计了一种定向探索机制。核心思想是:通过激励智能体最大化所有物体潜在表示的熵,使其主动寻找能够带来新物体视图或新物体状态的交互。 1. 熵奖励计算:采用K近邻粒子估计算法,在物体潜在表示的批次数据上估计其熵值。探索的内在奖励定义为所有物体潜在状态熵的总和。这意味着,当智能体的动作导致物体进入一个在潜在空间中“罕见”或“新颖”的状态时,它将获得更高的内在奖励。 2. 在想象中学习:得益于世界模型,智能体可以在学得的潜在状态空间中“想象”执行动作序列,并预测其探索奖励。研究者训练了一个专用的“探索演员-评论家”网络,完全在模型生成的想象轨迹上进行优化,以最大化上述内在奖励。这种方法非常高效,因为它不需要额外的真实环境交互来学习探索策略。 3. 任务策略并行学习:在探索环境的同时,智能体也会记录遇到的(稀疏)外部奖励。利用这些奖励信号,研究者并行训练了一个“任务演员-评论家”网络。这样,当探索阶段发现了有价值的交互(如打开了抽屉),智能体可以快速调整其策略来利用这些发现,实现从探索到任务执行的“零样本”或“少样本”快速适应。
第三部分:实验设计与评估 研究在三个主流机器人操作模拟基准(Maniskill2, RoboSuite, MetaWorld)中选取了10个任务,并在一个真实的Franka Emika机器人手臂上进行了部署验证。 1. 探索性能评估:对比了FOCUS与三种基线方法(Plan2Explore, Active Pre-training,随机探索)。评估指标直接衡量与物体的交互程度:接触百分比、物体位置位移和角度位移。实验运行了200万环境步,结果表明FOCUS在所有指标上均显著优于基线,其探索行为更持续、更主动地与物体进行互动。 2. 稀疏奖励任务微调:在2百万步的探索之后,允许所有方法进行一小段额外的微调,利用探索期间发现的稀疏奖励来优化任务策略。结果显示,得益于探索阶段更有效地发现了奖励,FOCUS在多个任务上的微调性能提升最快且最终性能最好,而其他方法在多数任务上难以取得进展。 3. 密集奖励任务性能与模型分析:为了单独评估对象中心世界模型对控制性能的贡献(排除探索策略的影响),研究在6个密集奖励任务上对比了FOCUS与标准Dreamer等模型。结果表明,即使在没有探索优势的情况下,FOCUS也取得了最高的平均和中位数性能,证明了其表示学习对提升操控能力的内在价值。此外,定性分析显示,FOCUS的物体重构图像比Dreamer更清晰、准确,特别是在物体较小或与背景对比度低的情况下。量化分析(计算物体区域的重构均方误差)也证实了FOCUS的预测误差更低。信息分区可视化实验进一步证明,每个物体的潜在表示确实主要编码了自身信息,即使在被机械臂部分或完全遮挡时,也能较好地重构出完整的物体。 4. 真实世界部署:在一个简化的真实机器人场景(推动一个用线拴在末端执行器上的黄色积木)中,研究首先使用随机收集的数据预训练世界模型,然后进行在线探索微调。结果与模拟实验一致:FOCUS实现了最高的物体交互次数和最广的物体位置覆盖范围,证明了方法从模拟到现实的迁移可行性。
本研究成功提出并验证了FOCUS,一个集成了以对象为中心的世界模型和探索策略的新型模型智能体框架。其科学价值在于:它提供了一种更接近人类认知方式的、结构化的环境表示学习方法,将物体作为理解与交互世界的基本单元,推动了从“扁平”表示向“结构化”表示的范式演进。同时,它将探索的目标从整个场景聚焦到物体实体上,为稀疏奖励强化学习中的探索问题提供了一个新颖且高效的解决方案。其应用价值在于:显著提高了机器人操作技能的学习数据效率,特别是在奖励信号稀疏的真实场景中,使机器人能通过自主交互更快地掌握新任务。在真实机器人上的初步部署展示了其实用化前景。
研究也坦诚讨论了其局限性:1)为达到稳健的探索性能,仍需要相当数量的环境交互步骤(约50万步后优势才明显),这在复杂的真实世界任务中成本高昂。未来可结合高层次动作或受限动作空间来缓解。2)当场景中感兴趣物体数量增多时,由于每个物体都需要独立的解码输出通道,计算和内存开销会线性增长,可扩展性面临挑战。作者指出,未来探索使用更高效的表示(如深度潜在粒子)可能是一个有前景的方向。