该研究由Luan Zhirong(西安理工大学)、Lai Yujun、Huang Rundong(西安理工大学)、Bai Shuanghao、Zhang Yuedi、Zhang Haoran(西安交通大学)和Wang Qian(西安理工大学)共同完成。论文发表在期刊《Sensors》2024年第24卷,并于2024年3月6日正式出版。
本研究的主要科学领域是人工智能与机器人任务规划。在复杂人工环境中,为了实现机器人的高效工作,研究人员探索了如何通过大型语言模型(Large Language Models, LLMs)来加强机器人任务分解和执行能力。然而,基于现有模型,直接生成机器人控制指令存在多种限制:难以理解复杂任务、缺乏对环境的高效交互能力,以及生成指令的可执行性较差。
研究目标
为了克服这些问题,研究团队提出了一种基于多层大型语言模型(Multi-layer Large Language Models)的新架构,旨在实现分层任务分解,集成环境信息,优化机器人任务规划的准确性以及执行的可操作性。
研究人员设计了一个多层LLM架构,包括两个大型语言模型和一个视觉语言模型(Visual Language Model, VLM)。
- 第一层LLM:主要负责理解用户的自然语言指令,并生成基于常识的粗粒度任务序列。这些序列描述了较为简单的任务分解逻辑,但缺乏环境交互的关键信息。 - 视觉语言模型(VLM):通过预训练的视觉模型(如Google研发的OWL-ViT模型)对周围环境进行感知,识别具体物体和场景。 - 第二层LLM:结合第一层生成的任务序列与来自VLM的环境信息,进行精细化任务分解,生成可操作的细粒度任务序列。
研究中使用了对环境适应性强的视觉感知模块来弥补常识知识库(即LLM的通用性知识)在复杂动态环境中的不足。
细粒度任务分解的核心是将复杂任务分解为机器人可以操作的动作指令。然而,任务序列的语义描述与实际机器人指令之间往往存在错配问题。为此,研究团队采用了基于语义相似度的对齐方法:
1. 将任务描述文本和机器人控制指令转化为向量表示;
2. 使用余弦相似度(Cosine Similarity)计算语义相似度;
3. 对无法对齐的任务描述进行反馈,并重新送入第二层LLM进行新一轮分解,从而逐步优化语义对齐结果。
通过这一循环反馈过程,模型能够生成更加符合实际执行需求的任务描述。
为了指导机器人精准行动,研究团队提出了一种“热图导航算法”(Heat Map Algorithm)。该方法将环境中目标物体的位置映射到二维计算空间中,通过颜色梯度表示目标物体的重要性:
- 高热值区域(如目标物体)吸引机器人行动;
- 低热值区域则视为障碍,具有排斥作用。
运动路径通过贪婪算法动态生成,以最大化路径热值总和,同时允许实时调整轨迹以应对环境变化。
具体而言,移动路径的“热值”被定义为路径上所有节点的热值总和,机器人以梯度最大化为原则选择下一步行动节点,从而优化路径规划。热图实时更新反馈,确保路径规划与动态环境同步。
实验在一个支持实时环境感知的实验平台上进行,包括3辆无人小车和1架无人机。无人机提供场景全局视野,图像数据传回服务器,通过VLM感知环境后输入LLM生成任务计划。在实验中,机器人通过ROS系统实现运动控制,并由热图算法生成优化路径。以下是五组导航任务: 1. 顺序到达两个目标位置。 2. 顺序到达三个目标位置。 3. 根据用户定义的目标点规划最短路径。 4. 根据场景标志信息调整目标选择。 5. 进行多机器人多目标协调导航任务。
这些任务逐步提高复杂性,包括障碍物判断、多机器人配合以及复杂任务语义处理。实验结果表明,提出的方法能够有效提升机器人对复杂自然语言任务的理解与执行能力。
多层任务分解能力
通过多轮分层任务分解,第一层LLM生成粗粒度任务序列,第二层LLM结合环境信息生成可执行的细粒度指令。语义对齐与反馈机制确保了任务描述与机器人控制指令的匹配。
热图算法导航效果
热图算法使机器人能够高效规划路径并实时调整行为,即便在动态变化的环境中,也能成功执行复杂的多目标导航任务。
语义相似度优化机制
通过基于向量空间的语义相似度方法,实现了自然语言任务描述与机器人控制指令之间的精确匹配,有效减少了不匹配问题。
实验验证
五大实验任务均成功完成,特别是在多机器人协作与复杂环境领域,进一步展现了方法的优势。
科学价值
研究揭示了通过多层大型语言模型与视觉语言模型融合,可以提高机器人处理复杂语义任务能力。任务分解方法和热图导航算法均具有创新性,为机器人高效规划与动态交互提供了新思路。
应用价值
该方法简化了人机交互流程,用户无需掌握复杂技术,仅需自然语言描述任务,机器人即可自动生成规划并完成任务。这在服务机器人、自动驾驶和工业控制等领域具有重要应用前景。
尽管研究取得了显著进展,但在视觉感知精准性、三维空间建模能力以及任务分解过程的逻辑一致性等方面仍存在改进空间。未来研究可以探索以下方向: 1. 引入多模态环境感知模块,以获取更加精准和多维度的环境信息; 2. 升级数值计算空间,用于支持更精细的机器人操作任务; 3. 优化提示词设计与反馈循环机制,进一步提升系统的任务规划效率。
该研究为复杂机器人任务规划与执行提供了全新方法论,推动了自然语言与智能控制的深度融合,为未来智能机器人应用奠定了坚实基础。