分享自:

机器人操作中的具身智能:发展与挑战

期刊:vicinagearthDOI:10.1007/s44336-025-00020-1

《Embodied Intelligence for Robot Manipulation: Development and Challenges》学术报告

本文由Honghao Song(中国电信人工智能研究院、中国科学技术大学)、Liang Wang(中国电信人工智能研究院、浙江大学)、Xiaozhen Qiao(中国电信人工智能研究院、中国科学技术大学)、Yifan Chen(中国电信人工智能研究院、西北工业大学)、Da Sun(中国科学技术大学)及Zhe Sun(中国电信人工智能研究院、西北工业大学)合作完成,发表于期刊Vicinagearth 2025年第2卷第8期。文章是一篇系统性综述,聚焦具身智能(Embodied Intelligence)驱动的机器人操作技术,梳理了该领域的核心概念、技术范式、研究进展与未来挑战。

核心观点与论据

1. 具身操作(Embodied Manipulation)的定义与核心特征

文章将具身操作定义为以具身认知(Embodied Cognition)为引擎、物理机器人为载体的闭环操作过程,其核心特征包括:
- 多模态感知一致性(Consistent Multimodal Perception):需将视觉、语言、触觉等异构模态映射到统一语义空间。例如,Palm-E(2023)通过传感器-标记(Sensor-to-Token)映射将连续感官信号直接嵌入语言模型,实现跨模态推理。
- 任务泛化与零样本适应(Task Generality and Zero-shot Adaptation):通过大规模仿真与真实数据集(如X-Embodiment数据集覆盖527种技能)或共享记忆库(如RAEA框架)实现跨场景泛化。
- 空间智能(Spatial Intelligence):需理解三维几何与动力学规律。例如,SpatialVLM(2024)通过自我中心3D位置编码增强空间推理能力。

支持论据
- 理论框架基于部分可观测马尔可夫决策过程(POMDP),将状态空间扩展为包含语义指令、多模态观测的复合结构(公式2)。
- 对比传统机器人学习(低维结构化状态),具身操作需处理高维非结构化信息(如百万像素图像),依赖深度神经网络参数化策略(公式6)。


2. 数据驱动与模型驱动的双范式技术路径

文章从两类技术范式分析研究现状:

(1)数据驱动的具身操作
- 扩散模型的应用:Diffusion Policy(2023)将动作生成建模为条件去噪过程,通过卷积或Transformer架构输出连续动作序列(图7)。
- 多模态信息高效编码:RT-1(2022)通过Transformer将异构数据编码为通用标记(Token),实现跨平台策略迁移;Octo(2024)进一步统一输入模态与动作空间。
- 专家数据扩展:ALOHA(2023)开源低成本双手遥操作框架,Mobile ALOHA(2024)扩展至移动操作场景,推动大规模数据采集(图9)。

(2)模型驱动的具身操作
- 大语言模型(LLM)与多模态大模型(MLLM)的应用
- 动作输出:Palm-E(2023)将传感器数据嵌入语言模型生成动作;RoboGPT(2024)通过分层规划(任务分解→动作生成)提升鲁棒性。
- 知识注入:SayCan(2022)利用LLM评估原子技能价值;VoxPoser(2023)通过LLM生成空间约束代码驱动视觉模型输出3D轨迹。
- 世界模型(World Model)构建:WorldVLA(2025)通过预测未来图像生成动作,实现感知-行动闭环;EvoAgent(2025)结合LLM任务分解与世界模型动态更新经验池。

支持论据
- 数据驱动依赖行为克隆(Behavioral Cloning),但面临分布外泛化瓶颈;模型驱动通过先验知识减少数据依赖,但需解决物理常识缺失问题(如RT-2的离散符号限制)。


3. 当前困境与未来方向

文章指出三大挑战:
1. 仿真与现实差距(Sim-to-real Gap):现有研究多限于实验室验证,工业应用进展有限。解决方案包括高保真数据集(如DROID的7.6万条轨迹)与4D高斯泼溅(4D Gaussian Splatting)数据增强(Enerverse)。
2. 计算效率与实时性:大规模预训练VLA(如OpenVLA的70亿参数)需压缩模型规模,SmolVLA(2025)通过架构优化实现10倍推理加速。
3. 安全与鲁棒性:SAFERL(2025)提出约束MDP框架,确保具身操作在开放环境中的安全性。


论文价值与意义

  1. 学术价值:首次系统梳理具身操作的双范式技术路径,提出POMDP形式化框架,为AGI(通用人工智能)实现提供理论支撑。
  2. 应用价值:指导机器人操作技术在复杂场景(如家庭服务、工业装配)中的落地,推动从数据驱动到具身智能的范式转变。
  3. 领域影响:批判现有综述的局限性(如忽视具身智能的变革性),提出“认知-感知-规划”闭环架构,填补系统性研究空白。

亮点总结

  • 创新性框架:将具身操作分解为数据驱动与模型驱动的双维度分析(图3),明确两者在数据利用与模型解释性上的互补性。
  • 前沿技术覆盖:涵盖扩散模型、MLLM、世界模型等2022-2025年代表性工作(表1、表3、表5)。
  • 批判性视角:指出数据驱动的泛化瓶颈与模型驱动的物理常识缺失,提出融合路径(如预训练VLA+强化学习微调)。

(注:全文术语翻译标准:Embodied Intelligence-具身智能;Markov Decision Process-马尔可夫决策过程;Token-标记;Sim-to-real-仿真到现实迁移)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com