分享自:

基于预测世界建模的生成机器人策略推理时间增强

期刊:IEEE Robotics and Automation LettersDOI:10.1109/lra.2026.3673995

生成式预测控制(GPC):一种基于预测世界模型的生成式机器人策略推理时增强框架

Han Qi、Haocheng Yin、Aris Zhu、Yilun Du 和 Heng Yang 等研究者,主要来自哈佛大学工程与应用科学学院以及佐治亚理工学院,在2026年5月出版的《IEEE Robotics and Automation Letters》期刊第11卷第5期上,发表了一项名为“Inference-Time Enhancement of Generative Robot Policies via Predictive World Modeling”的研究。该研究提出了一种称为“生成式预测控制”(Generative Predictive Control, GPC)的创新框架,旨在不重新训练或微调的前提下,于部署阶段增强预训练的行为克隆(Behavior Cloning, BC)策略,使其具备测试时自适应能力。这项工作聚焦于机器人学与机器学习交叉领域,特别是机器人控制、生成模型和模型预测控制方向。

学术背景与研究目标 近年来,利用生成模型进行行为克隆已成为机器人策略学习的主流范式,它使机器人能够模仿专家演示并泛化到多种操作任务中。以扩散策略(Diffusion Policy)为代表的生成式控制方法,其核心是基于先前观察到的专家行为进行决策。然而,这些策略在部署时往往显得脆弱,缺乏测试时的修正或恢复机制,微小的分布偏移可能随时间累积导致性能下降。相比之下,模型预测控制(Model Predictive Control, MPC)通过基于预测动力学模型模拟候选动作的未来后果来评估它们,从而实现在线适应,但其通常依赖于精心设计的模型和目标,难以与现代生成式策略直接集成。

本研究源于一个核心问题:我们能否通过引入基于学习的世界模型的MPC式前瞻能力,赋予已训练好的、冻结的BC策略以测试时适应性,同时避免重新训练策略本身?受人类结合回顾性经验与前瞻性心理模拟的启发,该研究旨在开发一个轻量级的推理时框架,统一这两种推理模式,将BC的生成灵活性与预测性前瞻相结合,形成自适应且可解释的解决方案。

研究流程详述 GPC框架包含三个核心组件:生成式策略训练、预测性世界模型学习和在线规划。研究通过模拟和真实世界的机器人操作任务进行了全面评估。

  1. 生成式策略训练: 研究首先从专家演示数据中训练一个基于扩散模型的策略。数据集为专家演示数据,通常包含数百个任务演示片段(例如,在模拟的平面推动任务中使用了500个专家演示)。这些数据被分割成由状态/动作对组成的片段。策略学习被构建为一个监督学习问题,输入是到当前时刻为止的状态/观测历史,输出是未来一个时间段的动作序列块。研究采用扩散策略框架,使用一个网络来参数化给定观测历史下的动作序列块的条件分布。在训练中,高斯噪声向量被逐步去噪以生成专家动作块。具体实现上,采用观测时域为2,预测时域为16,动作时域为9的设置,并以滚动时域方式执行控制。对于基于视觉的策略,使用ResNet18视觉编码器提取特征,并用U-Net扩散主干网络建模动作分布。训练进行300个周期,使用AdamW优化器。在推理时,策略使用100步扩散去噪步骤来生成动作提议。

  2. 预测性世界模型学习: 为了解决“应从众多动作提议中选择哪一个”的问题,GPC引入了一个预测世界模型来评估每个提议的未来后果。世界模型的训练数据结合了专家演示数据集和随机探索数据集。后者是通过人类或其他控制器随机扰动系统(不执行任务)收集的,旨在丰富模型学习的动力学范围,使其能够预测纠正性动作的后果,类似于控制理论中的“充分激励”系统辨识。数据集大小根据任务而异,例如在多个模拟视觉任务中,除了专家数据外,通常还包含100-600个随机扰动轨迹。

    • 模型架构: 对于基于状态的任务,使用多层感知机(MLP)构建世界模型。对于更具挑战性的基于视觉的任务,研究设计了一个基于扩散的视觉世界模型,这是本研究的创新点之一。该模型是一个递归应用的单步图像预测器,其核心是一个条件扩散模型,以前几帧图像和当前动作为条件,预测下一帧图像。为了预测多步未来,该单步预测器被递归调用。模型采用EDM基础的扩散模型架构,以实现高质量输出和更少的去噪步数(研究中使用了3步)。为确保控制稳定性,研究在推理时“冻结噪声”,即固定扩散过程的初始噪声为零,使世界模型变为确定性的,以产生最可能的未来预测。这避免了随机梯度对后续基于梯度的优化过程的干扰。
    • 两阶段训练: 为提高视觉世界模型的准确性和一致性,研究采用了两阶段训练法。第一阶段仅用单步图像监督训练单步预测器。第二阶段,递归应用该预测器生成未来图像序列,并用真实图像序列进行联合监督。
  3. 在线规划: 在推理时,GPC利用上述冻结的策略和世界模型,通过轻量级在线规划来增强决策。研究提出了两种规划策略,并可结合使用:

    • GPC-Rank(排序): 从生成式策略中并行采样K个动作提议(例如K=10, 100),通过世界模型展开模拟,并利用奖励模型为每个提议预测的未来状态计算奖励。最后,选择奖励最高的动作提议执行。奖励模型可以是预训练的小型神经网络(针对可定义、可微分的数值奖励),也可以是视觉-语言模型(Vision-Language Model, VLM),如GPT-4o,后者能以零样本方式,根据预测的未来图像和任务描述,直接选择最有前景的提议。这种方法简单、易于并行化,适用于包括不可微分奖励在内的广泛任务。
    • GPC-Opt(优化): 从生成式策略中采样一个动作提议作为“热启动”,然后通过在世界模型中进行基于梯度的优化来直接最大化预测奖励,迭代更新动作序列。这类似于经典的单重射击法。这种方法允许对动作进行连续精细化改进,特别适用于具有可靠数值奖励的任务。
    • GPC-Rank+Opt: 结合以上两者,从策略中采样多个初始提议,对每个提议分别进行梯度优化,然后从优化后的结果中选择奖励最高的一个。这相当于从多个初始化点求解优化问题,效果最好但计算成本也最高。

主要结果分析 研究在三种场景下评估了GPC:基于状态的模拟平面推动任务、四个基于视觉的模拟任务(推动-T、三角形绘制、方块堆叠、立方体与球体交换)以及两个真实世界视觉任务(推动-T和衣物折叠)。

  1. 状态基础模拟任务: 在平面推动任务中,所有GPC变体(GPC-Rank, GPC-Opt, GPC-Rank+Opt)均显著优于纯行为克隆基线。通过调整采样数量K和优化步数M,性能得到进一步提升,其中GPC-Rank+Opt的组合达到了接近使用真实模拟器(即完美世界模型)进行规划的性能水平。这初步验证了结合生成先验与预测性前瞻的有效性。

  2. 视觉基础模拟任务:

    • 世界模型质量: 研究展示了其扩散视觉世界模型能够生成视觉上真实、物体交互准确的未来预测。通过结构相似性指数(SSIM)量化,其预测质量优于基于CNN+LSTM的传统方法(如Deep Visual Foresight)以及其他视频扩散模型基线(如AVDC)。
    • 规划性能: 在四个视觉任务上,GPC-Rank(使用学习奖励或VLM奖励)均一致超越了纯扩散策略基线。研究还与其他推理时增强方法进行了对比,包括LADI-WM、V-GPS和DreamerV3,结果显示GPC取得了最高的整体性能。
    • 消融研究: 在视觉推动任务上的深入分析揭示了关键发现:
      • K和M的影响: 增加动作提议采样数K和梯度优化步数M均能提升性能。GPC-Rank相比基线提升约10%,GPC-Opt提升约15%,而GPC-Rank+Opt可获得高达25%的提升。
      • 生成先验的重要性: 没有生成式策略先验的纯规划方法(如MPPI, CEM, 纯梯度上升)在视觉推动任务上成功率低于0.2,远低于GPC。这凸显了将扩散行为克隆的生成先验与推理时规划相结合的关键作用。
      • 随机探索的重要性: 世界模型训练中引入随机探索数据,相比仅使用专家数据,能将GPC性能提升约10%,证明了丰富动力学数据对学习准确预测模型至关重要。
  3. 真实世界任务: 在更具挑战性的真实机器人操作中(涉及复杂动力学、非刚性物体如衣物),GPC依然有效。对于推动-T任务,使用学习到的基于姿态配准损失的奖励预测器;对于衣物折叠,设计了基于进程的奖励。实验结果显示,GPC-Rank和GPC-Opt在真实世界的推动-T和衣物折叠任务中,相比纯行为克隆基线,成功率均有显著提高(如图8所示)。这表明GPC框架能够迁移到真实世界的复杂场景中。

结论与价值 该研究提出的生成式预测控制框架,成功地将基于扩散的生成先验、行动条件的视觉世界模型和灵活的奖励指定相结合,在不重新训练策略的情况下,实现了对冻结行为克隆策略在推理时的有效增强。GPC通过预测性世界建模和轻量级在线规划,赋予了生成式机器人策略测试时适应能力,从而在模拟和真实世界的多种操作任务中实现了更鲁棒、更优异的性能。

研究亮点 1. 创新框架: 提出了首个将冻结的扩散策略与显式的、图像空间的扩散世界模型相结合的推理时增强框架,实现了生成式“回顾”与预测式“前瞻”的有机统一。 2. 方法新颖性: 引入了“冻结噪声”的推理机制,使基于扩散的世界模型在用于梯度优化时保持稳定;提出了GPC-Rank和GPC-Opt两种互补的在线规划策略,并可灵活结合;开创性地利用VLM作为零样本奖励替代,扩展了框架对难以量化奖励任务的适用性。 3. 系统性验证: 在从状态到视觉、从模拟到实物的多种机器人操作任务上进行了全面、系统的实验验证,并通过详尽的消融研究揭示了关键设计选择(如随机探索数据、生成先验的必要性)的影响。 4. 模块化设计: 策略学习和世界模型学习被解耦,允许它们独立训练甚至使用不同的数据集,提高了灵活性。

局限性及未来工作 研究指出,GPC的主要局限性在于推理时的计算成本,因为基于扩散的世界模型展开占据了绝大部分运行时(约90-95%)。虽然对于文中研究的操作任务(真实世界GPC-Rank约3秒一个决策周期)尚可接受,但通过扩散蒸馏、更快的求解器或硬件加速来提高效率是未来的重要方向。此外,附录部分提供了各任务数据集的详细信息,包括专家演示和随机探索数据的数量,为复现研究提供了必要基础。参考文献部分也详尽列出了相关领域的研究工作,体现了该研究坚实的学术背景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com