这篇文章题为《LLM-Controller: Dynamic Robot Control Adaptation Using Large Language Models》,主要作者是 Rasoul Zahedifar, Mahdieh Soleymani Baghshah 和 Alireza Taheri,分别隶属于伊朗 Tabriz 的 Sharif University of Technology 的社会与认知机器人实验室(Social and Cognitive Robotics Laboratory)与机器学习实验室(Machine Learning Laboratory)。文章发表于《Robotics and Autonomous Systems》期刊,基于 Elsevier 平台,在线发表时间为 2025 年 1 月 2 日。
随着人工智能和机器学习技术的引入,机器人学与动态系统领域近年来取得了重大进展。然而,传统控制方法(例如非线性控制)和新型人工智能方法(例如深度学习与强化学习)在特定应用场景下各有优劣。传统方法稳定性较高,但对系统参数变化和环境不确定性适应性差;而基于人工智能的新型方法,尽管展现了较好的适应性和泛化性,但往往计算复杂度较高,依赖于大规模数据训练,没有稳定性保障,难以实际应用于动态环境。
针对上述问题,近年来研究者们尝试采用基础模型(foundation models),尤其是大语言模型(Large Language Models, LLMs),来提升机器人控制在多变和动态环境中的适应性与灵活性。这些模型在自然语言处理(Natural Language Processing, NLP)领域表现出卓越的能力,能够进行复杂的推理和场景分析。基于上述背景,作者提出了一种能实时适应动态变化的非线性控制器“LLM-Controller”,其中非线性控制器与LLM相结合,利用LLM进行实时调整和咨询,从而克服传统和AI方法的局限性。
研究目标如下: 1. 开发一种结合非线性控制器与LLM的新型混合控制架构,以解决动态条件下的适应性问题。 2. 探讨LLM不同提示策略(如零样本推理、少样本推理)对控制器性能的影响。 3. 通过案例研究(双连杆和三连杆机器人 manipulators)验证模型的稳定性和适应性。
本研究的LLM-Controller由一种非线性状态反馈控制器和一个LLM(GPT-3.5-turbo)组成,旨在实现系统动态变化以及参考信号变化下的自适应控制调节。研究的核心工作包括控制器架构设计、案例研究与实验数据分析。
LLM-Controller 的核心是两个闭环反馈控制机制: - 非线性控制反馈回路: 确保控制输入能够使机器人 manipulators 跟随参考轨迹,即利用Lyapunov稳定性理论保持系统状态的一致性。 - LLM 建议反馈回路: 在系统动态或参考信号发生变化时,通过 LLM 的推理能力生成新控制器参数建议,辅助调整非线性控制器。
LLM 并不直接控制系统,而是作为辅助工具,提供控制器参数优化建议(如增益参数$k_p, k_d, k_i$)。其中,提示任务采用了零样本推理(Zero-shot Chain-of-Thought, ZS-CoT)和少样本推理(Few-shot Chain-of-Thought, FS-CoT)策略,分别用于探索不同提示设计对系统性能的影响。
研究分别对两种机器人 manipulator 系统进行测试——一个简化的双连杆平面刚体系统(2-Link Planar Rigid Robotic Manipulator, 2-LPRRM)与一个更复杂的三连杆系统(3-Link Manipulator)。研究在不同的动态环境设定(Dynamic Condition, DC)与参考轨迹变更(Reference Change, RC)场景下,探讨LLM-Controller的适应性。
2-LPRRM 系统: 系统建模采用非线性动力学方程,控制输入通过 Lyapunov 理论设计,构造控制律以确保渐进稳定性,包括: - 任务空间参考轨迹转换与误差追踪; - 执行环境中的动态干扰(未知扰动与未建模动力学)模拟。
实验定义几种场景: 1. RC 场景: 仅改变参考信号; 2. DC 场景: 动态扰动信号随机变化; 3. RC+DC 场景: 同时改变参考信号与动态扰动。
3-LPRRM 系统: 通过引入额外的自由度(第3个连杆),验证LLM-Controller的广泛适用性。复杂模型考虑更难的多动态环境(如高冲击、不均匀摩擦等),并重新设计对应的控制律。
为了量化模型性能,研究引入了一系列定量指标,包括: - 误差指标:平均轨迹偏差 (ADE) 和轨迹跟踪精度; - 成功率与效率指标:LLM 建议参数的成功适用率,以及收敛速度; - 成本评估:LLM适应控制所需时间与计算资源消耗。 此外,为验证提示设计的策略效果,实验还比较了ZS-CoT 和 FS-CoT 两种核心提示方法。
RC场景: 非线性控制器在RC场景下无法适应新轨迹,表现为显著的误差和迟滞。而LLM提供的新参数建议能够快速调整控制器,达到100%轨迹跟踪成功率,误差ADE_x ~ 0.025。
DC场景: 在动态扰动显著变化时,传统控制器对系统参数变化敏感,缺乏适应性;LLM指导下的控制器显著改善了稳定性和误差抑制。
提示策略:
三连杆系统的控制场景更为复杂,系统暴露于更强的扰动信号和动态变化: - RC场景和DC场景: LLM-Controller在99.9%条件下显著改善轨迹追踪效果,ADE_x ~ 0.06。 - 相比之下,传统非线性控制器完全丧失了鲁棒性。
此外,实验还扩展至更复杂的新场景——如承载负载、关节摩擦变化、连杆伸缩变化,进一步证明LLM-Controller能够适应多样化的环境困难。
研究表明,LLM-Controller通过整合LLM提供参数指导建议与传统非线性控制器的稳定性特点,显著增强了动态适应性与应用实用性: - 在复杂条件下,LLM通过实时推理能力提高了控制器的自动调整水平,实现边缘系统环境中的鲁棒控制。 - 引入CoT提示策略有效优化了LLM的输出质量,使机器人系统的适应性及计算效率达到平衡。
此外,这一架构为下一代复杂机器人任务的控制策略设计提供了崭新思路,具有极大的工程和科学价值。