分享自:

具身人工智能:从大语言模型到世界模型

期刊:IEEE Circuits and Systems MagazineDOI:10.1109/MCAS.2025.3603693

Embodied AI:从LLMs到世界模型的跨模态智能演进——IEEE Circuits and Systems Magazine综述报告

作者及发表信息
本文由清华大学计算机科学与技术系的Tongtong Feng、Xin Wang(IEEE会员)、Wenwu Zhu(IEEE会士)与复旦大学可信Embodied AI研究所的Yu-Gang Jiang(IEEE会士)合作完成,发表于IEEE Circuits and Systems Magazine 2025年第四季度刊,数字对象标识符DOI: 10.1109/MCAS.2025.3603693。


学术背景与研究目标

Embodied AI(具身人工智能)是实现人工通用智能(AGI)的核心范式,其核心在于智能体通过感知-认知-交互的闭环与物理世界动态耦合。本文系统梳理了Embodied AI从单模态到多模态的演进历程,重点探讨了大型语言模型(LLMs/MLLMs)与世界模型(World Models, WMs)两大技术支柱的融合如何推动具身智能在复杂任务中的突破。研究背景基于以下关键认知:
1. 理论根基:源于图灵1950年提出的“具身图灵测试”,强调智能需通过物理交互涌现;
2. 技术瓶颈:传统单模态方法(如视觉SLAM或语言指令控制)存在信息局限性与跨模态鸿沟;
3. 新机遇:LLMs的语义推理与WMs的物理规律建模能力互补,为多模态具身智能提供新架构。


核心内容与主要观点

1. Embodied AI的技术框架与演进路径

论文提出Embodied AI由三大核心组件构成闭环系统:
- 主动感知(Active Perception):通过视觉SLAM(如ORB-SLAM)、3D场景理解(如OpenScene)和环境探索(如ActiveNeural SLAM)实现动态环境观测;
- 具身认知(Embodied Cognition):分为任务驱动自规划(如LLM-Planner)、记忆驱动自反思(如Reflexion)和多模态基础模型(如Gato);
- 动态交互(Dynamic Interaction):涵盖动作控制(如RT-2)、行为交互(如Behavior-1k)与协同决策(如MetaGPT)。

演进趋势:从早期单模态(视觉/语言独立处理)转向多模态融合,例如PALM-E通过视觉-语言-动作(VLA)模型实现端到端控制,解决了跨组件信息割裂问题。

2. LLMs/MLLMs如何赋能Embodied AI

  • 语义推理(Semantic Reasoning):LLMs将自然语言指令分解为可执行子任务(如SayCan的“动作库约束”机制);
  • 跨模态扩展:MLLMs(如GPT-4o、Gemini-1.5)整合视觉、听觉输入,支持场景语义理解(如Clip2Scene的开放词汇3D标注);
  • 局限:依赖固定动作库,物理约束适应性不足(如忽略摩擦力的抓取规划)。

3. 世界模型(WMs)的物理建模优势

  • 内部表征(Internal Representations):WMs(如DreamerV3、Sora)构建结构化潜在空间,编码物体动力学与物理规律;
  • 未来预测(Future Prediction):通过长时程模拟(如Genie的时空Transformer)预判行动后果,避免物理冲突;
  • 局限:缺乏开放语义推理能力(如无法理解抽象指令“优先救援老人”)。

4. 联合MLLM-WM架构的创新设计

论文提出MLLM-WM协同框架(图7),其工作流包括:
1. 状态输入:机器人本体状态(如自由度)同时输入MLLM(任务对齐)与WM(物理状态建模);
2. 任务规划闭环:MLLM生成子任务→WM验证物理可行性→记忆更新反馈至MLLM;
3. 环境交互迭代:WM驱动主动感知(如风险预测),MLLM调整交互策略。
案例:EvoAgent通过联合架构实现跨环境长时程任务自主完成,无需人工干预。

5. 应用场景与未来方向

  • 服务机器人:RT-2的厨房任务分解、SayCan的家庭指令执行;
  • 救援无人机:语言指令理解(“搜索坍塌桥梁附近”)与WM路径避险;
  • 工业机器人:Tesla工厂的视觉-力觉自适应装配。
    未来挑战:实时同步(MLLM高延迟与WM物理模拟的冲突)、语义-物理对齐、可扩展内存管理。

学术价值与亮点

  1. 系统性综述:首次完整梳理Embodied AI从单模态到MLLM-WM联合架构的技术图谱;
  2. 架构创新:提出融合语义推理与物理仿真的协同框架,为AGI提供新范式;
  3. 跨学科交叉:整合认知科学(具身理论)、计算机视觉(SLAM)、NLP(LLMs)与机器人控制(WMs);
  4. 应用导向:覆盖家庭服务、灾难救援等高价值场景,推动Sim-to-Real落地。

重要发现与新颖性

  • 技术里程碑:指明MLLM-WM联合是下一代Embodied AI的核心,突破传统模块化设计的局限性;
  • 方法论创新:引入“记忆更新”机制(如Reflexion的自我修正循环),增强长时程任务鲁棒性;
  • 评测体系:提出EmbodiedBench多模态基准,统一评估感知-认知-交互全链路性能。

本文为Embodied AI领域提供了理论框架与技术路线图,其提出的协同架构或将重塑机器人、自动驾驶等领域的智能系统设计范式。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com