生成式预测控制(GPC):一种基于预测世界模型的生成式机器人策略推理时增强框架
Han Qi、Haocheng Yin、Aris Zhu、Yilun Du 和 Heng Yang 等研究者,主要来自哈佛大学工程与应用科学学院以及佐治亚理工学院,在2026年5月出版的《IEEE Robotics and Automation Letters》期刊第11卷第5期上,发表了一项名为“Inference-Time Enhancement of Generative Robot Policies via Predictive World Modeling”的研究。该研究提出了一种称为“生成式预测控制”(Generative Predictive Control, GPC)的创新框架,旨在不重新训练或微调的前提下,于部署阶段增强预训练的行为克隆(Behavior Cloning, BC)策略,使其具备测试时自适应能力。这项工作聚焦于机器人学与机器学习交叉领域,特别是机器人控制、生成模型和模型预测控制方向。
学术背景与研究目标 近年来,利用生成模型进行行为克隆已成为机器人策略学习的主流范式,它使机器人能够模仿专家演示并泛化到多种操作任务中。以扩散策略(Diffusion Policy)为代表的生成式控制方法,其核心是基于先前观察到的专家行为进行决策。然而,这些策略在部署时往往显得脆弱,缺乏测试时的修正或恢复机制,微小的分布偏移可能随时间累积导致性能下降。相比之下,模型预测控制(Model Predictive Control, MPC)通过基于预测动力学模型模拟候选动作的未来后果来评估它们,从而实现在线适应,但其通常依赖于精心设计的模型和目标,难以与现代生成式策略直接集成。
本研究源于一个核心问题:我们能否通过引入基于学习的世界模型的MPC式前瞻能力,赋予已训练好的、冻结的BC策略以测试时适应性,同时避免重新训练策略本身?受人类结合回顾性经验与前瞻性心理模拟的启发,该研究旨在开发一个轻量级的推理时框架,统一这两种推理模式,将BC的生成灵活性与预测性前瞻相结合,形成自适应且可解释的解决方案。
研究流程详述 GPC框架包含三个核心组件:生成式策略训练、预测性世界模型学习和在线规划。研究通过模拟和真实世界的机器人操作任务进行了全面评估。
生成式策略训练: 研究首先从专家演示数据中训练一个基于扩散模型的策略。数据集为专家演示数据,通常包含数百个任务演示片段(例如,在模拟的平面推动任务中使用了500个专家演示)。这些数据被分割成由状态/动作对组成的片段。策略学习被构建为一个监督学习问题,输入是到当前时刻为止的状态/观测历史,输出是未来一个时间段的动作序列块。研究采用扩散策略框架,使用一个网络来参数化给定观测历史下的动作序列块的条件分布。在训练中,高斯噪声向量被逐步去噪以生成专家动作块。具体实现上,采用观测时域为2,预测时域为16,动作时域为9的设置,并以滚动时域方式执行控制。对于基于视觉的策略,使用ResNet18视觉编码器提取特征,并用U-Net扩散主干网络建模动作分布。训练进行300个周期,使用AdamW优化器。在推理时,策略使用100步扩散去噪步骤来生成动作提议。
预测性世界模型学习: 为了解决“应从众多动作提议中选择哪一个”的问题,GPC引入了一个预测世界模型来评估每个提议的未来后果。世界模型的训练数据结合了专家演示数据集和随机探索数据集。后者是通过人类或其他控制器随机扰动系统(不执行任务)收集的,旨在丰富模型学习的动力学范围,使其能够预测纠正性动作的后果,类似于控制理论中的“充分激励”系统辨识。数据集大小根据任务而异,例如在多个模拟视觉任务中,除了专家数据外,通常还包含100-600个随机扰动轨迹。
在线规划: 在推理时,GPC利用上述冻结的策略和世界模型,通过轻量级在线规划来增强决策。研究提出了两种规划策略,并可结合使用:
主要结果分析 研究在三种场景下评估了GPC:基于状态的模拟平面推动任务、四个基于视觉的模拟任务(推动-T、三角形绘制、方块堆叠、立方体与球体交换)以及两个真实世界视觉任务(推动-T和衣物折叠)。
状态基础模拟任务: 在平面推动任务中,所有GPC变体(GPC-Rank, GPC-Opt, GPC-Rank+Opt)均显著优于纯行为克隆基线。通过调整采样数量K和优化步数M,性能得到进一步提升,其中GPC-Rank+Opt的组合达到了接近使用真实模拟器(即完美世界模型)进行规划的性能水平。这初步验证了结合生成先验与预测性前瞻的有效性。
视觉基础模拟任务:
真实世界任务: 在更具挑战性的真实机器人操作中(涉及复杂动力学、非刚性物体如衣物),GPC依然有效。对于推动-T任务,使用学习到的基于姿态配准损失的奖励预测器;对于衣物折叠,设计了基于进程的奖励。实验结果显示,GPC-Rank和GPC-Opt在真实世界的推动-T和衣物折叠任务中,相比纯行为克隆基线,成功率均有显著提高(如图8所示)。这表明GPC框架能够迁移到真实世界的复杂场景中。
结论与价值 该研究提出的生成式预测控制框架,成功地将基于扩散的生成先验、行动条件的视觉世界模型和灵活的奖励指定相结合,在不重新训练策略的情况下,实现了对冻结行为克隆策略在推理时的有效增强。GPC通过预测性世界建模和轻量级在线规划,赋予了生成式机器人策略测试时适应能力,从而在模拟和真实世界的多种操作任务中实现了更鲁棒、更优异的性能。
研究亮点 1. 创新框架: 提出了首个将冻结的扩散策略与显式的、图像空间的扩散世界模型相结合的推理时增强框架,实现了生成式“回顾”与预测式“前瞻”的有机统一。 2. 方法新颖性: 引入了“冻结噪声”的推理机制,使基于扩散的世界模型在用于梯度优化时保持稳定;提出了GPC-Rank和GPC-Opt两种互补的在线规划策略,并可灵活结合;开创性地利用VLM作为零样本奖励替代,扩展了框架对难以量化奖励任务的适用性。 3. 系统性验证: 在从状态到视觉、从模拟到实物的多种机器人操作任务上进行了全面、系统的实验验证,并通过详尽的消融研究揭示了关键设计选择(如随机探索数据、生成先验的必要性)的影响。 4. 模块化设计: 策略学习和世界模型学习被解耦,允许它们独立训练甚至使用不同的数据集,提高了灵活性。
局限性及未来工作 研究指出,GPC的主要局限性在于推理时的计算成本,因为基于扩散的世界模型展开占据了绝大部分运行时(约90-95%)。虽然对于文中研究的操作任务(真实世界GPC-Rank约3秒一个决策周期)尚可接受,但通过扩散蒸馏、更快的求解器或硬件加速来提高效率是未来的重要方向。此外,附录部分提供了各任务数据集的详细信息,包括专家演示和随机探索数据的数量,为复现研究提供了必要基础。参考文献部分也详尽列出了相关领域的研究工作,体现了该研究坚实的学术背景。