分享自:

面向具身AI的大语言模型机器人操作系统框架

期刊:nature machine intelligenceDOI:10.1038/s42256-026-01186-z

关于ROS-LLM框架:将大语言模型与机器人操作系统结合以实现具身智能的学术研究报告

本文介绍了一项发表于《自然-机器智能》(*Nature Machine Intelligence*)期刊2026年3月第8卷的研究工作。该研究由来自华为诺亚方舟实验室(英国伦敦)、利兹大学、达姆施塔特工业大学、苏黎世联邦理工学院和伦敦大学学院等机构的Christopher E. Mower、Yuhui Wan、Hongzhan Yu、Antoine Grosnit、Jonas Gonzalez-Billandon等众多研究者共同完成。论文标题为“A robot operating system framework for using large language models in embodied AI”。

一、 学术背景

本研究隶属于机器人学与人工智能的交叉领域,具体聚焦于具身人工智能。当前,机器人技术在结构化、高精度的工业制造环境中已相当成熟,但其在非结构化、动态的日常环境(如家庭)中的部署仍面临巨大挑战。传统机器人系统严重依赖专家进行任务分解、动作库编程和逻辑序列编排,这种模式成本高昂且难以扩展,无法满足开放场景下非专业用户与机器人进行自然交互的需求。

近年来,大语言模型在符号推理和任务泛化方面展现出强大能力,为上述问题提供了新的解决思路。已有研究探索将LLM嵌入机器人工作流,或将其输出转化为行为树(Behavior Trees)等。然而,这些方法通常存在局限:它们大多依赖预定义且固定的动作集,缺乏在任务执行过程中根据交互进行动作适应或学习新技能的机制;同时,它们往往在模拟环境中验证,与真实机器人操作系统(ROS)的接口有限,且严重依赖商业LLM,影响了可复现性和可访问性。

为此,本研究团队旨在解决这些核心痛点。他们的研究目标是:构建一个开源的、功能完整的框架,将LLM的强大推理能力与ROS的模块化、标准化机器人软件生态深度结合,从而为非专业用户提供一个能够通过自然语言指令灵活、可靠地操控机器人完成复杂任务的系统。该框架不仅支持任务规划和执行,还应具备通过模仿学习扩展技能库、通过优化和反思精进技能、以及整合人类与环境反馈的能力。

二、 研究流程与方法论

本研究提出了名为ROS-LLM的综合性框架,其核心设计理念是将LLM作为高层决策的“AI智能体”,与ROS管理的底层原子动作库和传感器数据相连接。整个研究并非单一实验,而是通过一系列精心设计的、在不同机器人平台和场景下的实验来系统性地验证框架的各个组成部分和整体效能。研究流程可分为框架构建与多场景验证两大部分。

1. 框架构建与核心模块 ROS-LLM框架的详细工作流如图1a所示,其核心组件包括: * 原子动作库:这是框架的基础,由专家预先提供或由系统后续学习得到。每个原子动作(如“抓取”、“放置”、“导航至”)都是一个预定义或学习得到的策略,附带文本描述和唯一标识符,并通过ROS服务或动作节点实现。 * AI智能体:这是系统的“大脑”,由一个LLM担任。其输入是一个综合提示,包含:非专业用户的任务指令、从环境观测(经预处理为文本)中获取的当前状态信息、先前动作的成功/失败标志、原子动作库的描述、以及用于引导推理的思维链和少量示例。智能体的输出是文本形式的高层动作指令,随后被解析并转化为对原子动作库的调用。 * 模仿学习模块:为使非专家能够扩展机器人的技能库,框架集成了模仿学习功能。用户可以通过动觉示教或遥操作演示新动作(如“搅拌”、“倾倒”)。系统使用动态运动基元(Dynamic Movement Primitive, DMP)等高效方法从少量演示中学习策略,用户随后提供该动作的文本描述,新的(策略,描述)对便被添加到原子动作库中,供未来任务调用。 * 原子动作优化器:针对原子动作中可能存在的未调优参数,该模块利用LLM分析动作代码,识别出可优化的关键超参数及其合理边界。随后,使用异方差进化贝叶斯优化(Heteroscedastic Evolutionary Bayesian Optimization, HEBO)算法在仿真中对这些参数进行优化,以提升动作在特定任务中的性能(如成功率、效率)。优化后的参数可直接迁移到真实机器人上。 * 观测管理器:负责将机器人的多模态传感器数据(如摄像头图像、激光雷达点云)转化为LLM可理解的文本描述。这通常借助预训练的视觉-语言模型来完成,是实现环境感知与交互的关键。

2. 多场景实验验证 研究团队在欧洲和亚洲的多个实验室,使用不同的机器人实体(固定基座机械臂、腿式移动机器人等)进行了广泛实验,以验证框架的鲁棒性、可扩展性和多功能性。

  • 实验一:厨房模拟环境中的学习与适应

    • 研究对象与设置:使用UR5机械臂搭配Robotiq二指夹爪,在厨房样式的环境中操作常见家居物品。
    • 流程与实验
      1. 长时程规划:给定指令“你能给我煮杯咖啡吗?”,测试框架能否自动将其分解为12个连续的原子动作(如“拿起杯子”、“打开咖啡机盖”、“舀取咖啡”等),并成功执行。LLM通过生成符合ROS规范的代码来编排动作序列。
      2. 通过模仿学习扩展动作库:研究人员通过动觉示教教机器人新技能(如搅拌、倾倒、抛锅、擦桌子等),用于完成“给我煮意面”的任务。随后评估系统能否成功调用这些新学习的动作来规划并执行复杂任务。
      3. 基于人类反馈的策略修正:在桌面立方体重排任务中,当LLM策略因任务复杂度增加而犯错时(如选错物体、动作顺序错误),允许操作者提供简洁的语言反馈(如“先捡起蓝色方块”)。系统能根据反馈修正计划并完成任务。
      4. 环境适应与持续学习:在执行“拾取并放置盒子”任务时,人为移动目标盒子导致失败。人类提供纠正反馈后,系统学会在抓取前重新验证盒子位置。在第二次相同干扰的试验中,将上次的反馈嵌入提示,系统便能自主成功应对,展示了持续学习能力。
    • 结果:机器人成功完成了长达12步的咖啡制作任务;能够通过模仿学习无缝集成新技能并用于新任务;人类反馈显著提高了复杂任务的成功率(图4a);系统能够从环境扰动中恢复并将修正经验用于未来类似情况。
  • 实验二:化学实验室自动化

    • 研究对象与设置:使用Viper X300机械臂在自动化化学实验室环境中操作试管、移液管等设备。
    • 流程与实验
      1. 执行自然语言协议:给定一份未处理的自然语言实验步骤说明(“测试pH值——碳酸氢钠”),测试框架能否解析、规划并执行这一多步骤化学实验流程。
      2. 冗余动作库下的规划:在原子动作库包含大量冗余或无关动作的情况下,测试不同LLM(DeepSeek-7B, Qwen2.5-7B, Llama-8B, Llama-70B)在标准提示和少量示例提示下,从四个WILD环境科学教材任务中选择正确动作序列的能力。
    • 结果:系统成功完成了从准备溶液、混合、使用pH试纸测试到保存溶液的全流程。在冗余动作库测试中,更大的模型(如Llama-70B)表现更优,少量示例提示能显著提升较小模型的成功率(图4b),表明框架能在存在干扰的情况下可靠筛选并执行必要动作。
  • 实验三:应用于机器人冰球的任务优化

    • 研究对象与设置:使用两台KUKA IIWA机械臂进行机器人冰球对抗。
    • 流程与实验:应用原子动作优化器。LLM分析击球策略代码,识别出“击球速度大小”、“最大规划步数”等关键超参数。HEBO算法在仿真中进行200轮优化以最大化击球成功率,然后将优化后的参数部署到真实机器人上。
    • 结果:仿真中的击球成功率从34.0%提升至46.6%。优化参数迁移到真机后,成功率从手动调参的30.0%提升至52.0%(图4c),验证了该优化模块的有效性。
  • 实验四:办公室环境中的故障纠正与推理

    • 研究对象与设置:使用ALMA机器人(ANYmal四足机器人加装六自由度机械臂)在办公室环境中。
    • 流程与实验:给定指令“请给我带一份健康零食”,机器人需规划行动:导航至厨房、识别零食(披萨 vs. 苹果)、选择苹果、抓取并返回。研究人员故意用碗遮挡夹爪以诱导抓取失败,测试系统的在线推理和恢复能力。
    • 结果:LLM能在线生成动作序列,成功完成零食递送任务。当抓取失败时,故障检测器会提醒LLM,LLM通常能通过调整抓取方式(如改变角度)进行恢复。实验也暴露了偶尔的动作序列错误等局限性。
  • 实验五:远程监督控制

    • 流程与实验:设计用户研究,让位于欧洲的操作者通过聊天界面,远程控制位于亚洲的机器人完成避障拾取放置任务。操作者使用自然语言指令(基于8个原子命令)进行控制。
    • 结果:尽管存在2-3秒延迟,所有参与者都完成了任务。用户倾向于使用逐步的原子指令而非长句复合指令,证明了该框架在远程共享自主和遥操作领域的适用性。

三、 主要研究结果

本研究通过上述多维度实验,全面验证了ROS-LLM框架的各项能力,并得出了具体、量化的结果: 1. 复杂任务分解与执行:系统能够将“煮咖啡”这样的高层自然语言指令,可靠地分解并执行为超过10个原子动作的长时程任务,证明了其强大的符号规划和代码生成能力。 2. 技能库的可扩展性:通过模仿学习(如DMP),非专家用户可以成功教授机器人新技能,并使其能够立即被纳入任务规划中。这突破了预定义动作集的限制。 3. 交互式纠错与鲁棒性提升:在立方体重排任务中,引入人类反馈后,即使任务复杂度(盒子数量)增加,系统成功率也能保持在高位(图4a蓝色曲线),而纯LLM策略的成功率则随复杂度上升而下降(橙色曲线),显著证明了交互式修正对复杂动态环境的重要性。 4. 持续学习与适应:系统能够从单次的环境干扰和人类纠正中学习,并在后续遇到相同扰动时自主应用修正策略,减少了持续人工监督的需求。 5. 跨平台与跨任务通用性:框架在固定基座机械臂(UR5, ViperX)、协作机械臂(KUKA IIWA)和移动操作平台(ALMA)上均成功部署,并应用于家庭服务、实验室自动化、竞技游戏等多样场景,证明了其良好的可扩展性和平台无关性。 6. 动作优化提升性能:在机器人冰球任务中,通过LLM引导的贝叶斯优化,将真实机器人的击球成功率相对提升了73%(从30%到52%),展示了框架对底层动作性能进行自动优化的潜力。 7. 处理冗余与模糊性:在化学实验任务中,即使动作库存在冗余,结合少量示例提示,LLM能够有效过滤无关动作,选择正确序列。同时,研究也观察到了提示词敏感性(如“another cube”与“the other cube”可能引发不同行为)和“动作幻觉”(LLM生成库外动作)等现象,为后续改进指明了方向。 8. 纯开源模型可行性:所有实验均使用开源预训练LLM(如DeepSeek-Coder, Qwen, Llama)完成,证明了不依赖商业API构建高性能具身智能系统的可能性,增强了研究的可复现性和可信度。

四、 研究结论与价值

本研究的核心结论是:通过构建一个紧密连接大语言模型与机器人操作系统的开源框架——ROS-LLM,能够为实现非专家用户可通过自然语言灵活编程的具身智能系统提供一个强大、通用且可扩展的解决方案。该框架成功地将LLM的高层推理、规划能力与ROS的模块化、实时控制优势相结合,并创新性地整合了技能学习、参数优化和交互式修正机制。

其科学价值在于:第一,提出了一个系统性的方法论和软件架构,为解决开放环境下的机器人任务规划、执行与适应问题提供了新的范式。第二,通过大量真实机器人实验,实证了当前开源LLM在具身任务中的实际能力与边界,为后续研究提供了宝贵的基准和洞见。第三,强调了交互(人类反馈、环境反馈)在闭环机器人系统中的关键作用,推动了从开环规划到交互式学习的转变。

其应用价值显著:极大地降低了机器人编程和使用的技术门槛,使非专业用户也能通过自然对话指挥机器人完成复杂任务,这对于家庭服务机器人、实验室自动化、远程操作、特种作业等领域的普及具有重要意义。发布的完整开源代码(GitHub: huawei-noah/hebo/rosllm)为学术界和工业界提供了可直接使用和进一步开发的工具,将加速具身智能领域的研究与应用进程。

五、 研究亮点

  1. 首创性框架:这是首个功能完整、积极维护、深度集成ROS 1/2并与开源LLM协同工作的框架之一,填补了该领域的实践空白。
  2. 全栈集成与验证:不仅提出了架构,还完成了从高层自然语言接口、LLM智能体、中间件到底层原子动作、传感器融合乃至技能学习与优化的全栈实现,并在多种真实机器人平台上进行了系统验证。
  3. 强调开源与可复现性:始终坚持使用开源模型进行实验,所有代码和数据开源,保证了研究的透明度和可复现性,有利于社区共同推进。
  4. 聚焦非专家用户与交互:核心设计目标始终围绕降低使用门槛,通过自然语言交互、模仿学习、人类反馈等机制,使机器人系统能真正被终端用户理解和塑造。
  5. 多模态能力与实战导向:框架包含将传感器观测转化为文本的模块,并所有实验均在真实物理世界中进行,而非仿真,其结果更具说服力和实际参考价值。

六、 其他有价值内容

论文在“讨论”部分深入分析了实验中发现的一些有趣现象和挑战,例如提示词敏感性(微小 wording 变化导致行为差异)、示例误导(LLM可能混淆提示中的示例和实际指令)、动作幻觉(LLM生成不存在的动作)等,这些是对当前LLM应用于机器人领域局限性的重要观察。此外,论文还对比了ROS-LLM与数十个相关工作的特性(见表1),清晰地展示了其在支持开源模型、人类反馈、环境反馈、真机实验、模仿学习、动作优化、远程控制、ROS能力、微调能力等方面的综合优势。这些深入的讨论和全面的对比进一步凸显了本项工作的深度与广度。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com