分享自:

基于大模型的具身智能系统综述

期刊:自动化学报DOI:10.16383/j.aas.c240542

《基于大模型的具身智能系统综述》是由王文晟、谭宁、黄凯、张雨浓、郑伟诗(中山大学计算机学院)和孙富春(清华大学计算机科学与技术系)合作完成的一篇系统性综述,发表于《自动化学报》(Acta Automatica Sinica)2025年第51卷第1期。该论文聚焦于大模型(如大语言模型LLM、视觉语言模型VLM)与具身智能(Embodied Intelligence)的交叉领域,全面梳理了当前技术进展、核心挑战及未来方向。以下是论文的核心内容梳理:


一、研究背景与主题

具身智能指拥有物理实体并能与环境交互的智能系统,其概念可追溯至图灵1950年提出的“物理学习”设想。传统机器人受限于数据稀缺和任务单一性,而大模型凭借互联网规模预训练获得的泛化能力,为具身智能提供了感知、规划与控制的新范式。本文系统分析了大模型在具身智能中的角色,涵盖感知理解、多层级控制、系统架构及数据来源,并探讨了未来挑战。


二、核心内容与观点

1. 感知与理解

大模型通过多模态融合能力(如CLIP、GPT-4V)提升具身智能的环境认知: - 多模态模型理解:如GPT-4V可直接解析视觉指令生成动作计划(Wang等, 2024),VILA框架通过实时视觉反馈实现闭环规划。 - 环境建模:3D语义表征成为关键。PerAct利用Transformer体素编码器实现6自由度操控;LangSplat基于3D高斯(3D Gaussian Splatting)构建语言场,渲染效率较NeRF提升199倍。 - 可供性(Affordance)与约束:AffordanceLLM结合几何与语义预测交互区域,KITE通过关键点提取任务相关动作。 - 人类反馈:OLAF和YAY Robot通过自然语言修正优化策略,MOKA引入视觉提示解决细粒度操作问题。

2. 控制层级

大模型参与的四级控制架构: - 需求级:如SAYCAN结合LLM的语义理解与机器人能力评估,避免无效规划。 - 任务级:OK-Robot整合OWL-ViT等模型实现开放词汇物体抓取;CAP通过代码生成策略实现几何推理。 - 规划级:VoxPoser利用价值地图(Affordance Map)生成零样本轨迹;3D-VLA通过3D特征模拟未来状态。 - 动作级:RT-1/2系列将动作编码为文本标记,实现端到端控制;Gato通过多任务预训练支持机械臂操作。

3. 系统架构

  • 端到端Transformer:如RT-1通过EfficientNet提取特征,以3Hz频率实时输出动作。
  • 冻结参数模型:TidyBot等结合CLIP分类与LLM任务分解,保留预训练知识。

4. 数据来源

  • 模拟器:MineDojo等提供多样化虚拟环境。
  • 模仿学习:ALOHA通过动作分块(Action Chunking)收集双手操作数据。
  • 视频学习:RoboABC从人类视频提取交互经验。

三、挑战与展望

  1. 3D物理理解不足:大模型缺乏对真实世界的几何与动力学先验。
  2. 实时性瓶颈:高频率控制需轻量化设计。
  3. 数据异构性:跨模态数据(如触觉、音频)融合仍需突破。
  4. 伦理与安全:具身系统的决策透明性亟待研究。

四、论文价值

  1. 学术意义:首次系统梳理大模型与具身智能的结合路径,提出四级控制层级分类框架。
  2. 应用前景:为人形机器人(如Optimus、Figure 01)的通用性提供理论支撑。
  3. 方法论创新:强调多模态建模(如3D高斯、NERF)与人类反馈的闭环优化。

五、亮点

  • 全面性:覆盖感知、规划、控制、数据四大维度,引用百余篇前沿文献。
  • 前瞻性:指出具身智能与基础模型协同进化的方向,如物理常识嵌入、跨模态蒸馏。
  • 实践导向:结合特斯拉、宇树机器人等产业案例,验证技术落地潜力。

(注:全文术语均按原文标注,如“具身智能(Embodied Intelligence)”“可供性(Affordance)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com