Embodied AI:从LLMs到世界模型的跨模态智能演进——IEEE Circuits and Systems Magazine综述报告
作者及发表信息
本文由清华大学计算机科学与技术系的Tongtong Feng、Xin Wang(IEEE会员)、Wenwu Zhu(IEEE会士)与复旦大学可信Embodied AI研究所的Yu-Gang Jiang(IEEE会士)合作完成,发表于IEEE Circuits and Systems Magazine 2025年第四季度刊,数字对象标识符DOI: 10.1109/MCAS.2025.3603693。
Embodied AI(具身人工智能)是实现人工通用智能(AGI)的核心范式,其核心在于智能体通过感知-认知-交互的闭环与物理世界动态耦合。本文系统梳理了Embodied AI从单模态到多模态的演进历程,重点探讨了大型语言模型(LLMs/MLLMs)与世界模型(World Models, WMs)两大技术支柱的融合如何推动具身智能在复杂任务中的突破。研究背景基于以下关键认知:
1. 理论根基:源于图灵1950年提出的“具身图灵测试”,强调智能需通过物理交互涌现;
2. 技术瓶颈:传统单模态方法(如视觉SLAM或语言指令控制)存在信息局限性与跨模态鸿沟;
3. 新机遇:LLMs的语义推理与WMs的物理规律建模能力互补,为多模态具身智能提供新架构。
论文提出Embodied AI由三大核心组件构成闭环系统:
- 主动感知(Active Perception):通过视觉SLAM(如ORB-SLAM)、3D场景理解(如OpenScene)和环境探索(如ActiveNeural SLAM)实现动态环境观测;
- 具身认知(Embodied Cognition):分为任务驱动自规划(如LLM-Planner)、记忆驱动自反思(如Reflexion)和多模态基础模型(如Gato);
- 动态交互(Dynamic Interaction):涵盖动作控制(如RT-2)、行为交互(如Behavior-1k)与协同决策(如MetaGPT)。
演进趋势:从早期单模态(视觉/语言独立处理)转向多模态融合,例如PALM-E通过视觉-语言-动作(VLA)模型实现端到端控制,解决了跨组件信息割裂问题。
论文提出MLLM-WM协同框架(图7),其工作流包括:
1. 状态输入:机器人本体状态(如自由度)同时输入MLLM(任务对齐)与WM(物理状态建模);
2. 任务规划闭环:MLLM生成子任务→WM验证物理可行性→记忆更新反馈至MLLM;
3. 环境交互迭代:WM驱动主动感知(如风险预测),MLLM调整交互策略。
案例:EvoAgent通过联合架构实现跨环境长时程任务自主完成,无需人工干预。
本文为Embodied AI领域提供了理论框架与技术路线图,其提出的协同架构或将重塑机器人、自动驾驶等领域的智能系统设计范式。