仿生轮腿四足机器人的多智能体强化学习跟踪控制

分享自：
仿生轮腿四足机器人的多智能体强化学习跟踪控制

期刊:machinesDOI:10.3390/machines12120902
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
多智能体强化学习在仿生轮腿四足机器人跟踪控制中的应用研究
作者与机构
 本研究由Rezwan Al Islam Khan（复旦大学信息科学与技术学院）、Chenyun Zhang（复旦大学）、Zhongxiao Deng（密歇根大学机器人系）等8位作者合作完成，发表于期刊Machines（2024年12月，卷12，第902期）。研究团队主要来自复旦大学信息科学与技术学院、密歇根大学机器人系以及复旦大学工程与应用技术研究院。
学术背景
 研究领域为机器人控制与强化学习，聚焦于仿生轮腿四足机器人（bionic wheel-legged quadruped）的动态运动控制。传统基于模型的控制器（model-based control）存在仿真与现实的模型失配问题，且线性化假设会忽略非线性动力学特性。近年来，强化学习（Reinforcement Learning, RL）在足式机器人控制中展现出潜力，但多智能体强化学习（Multi-Agent RL, MA-RL）在复杂轮腿混合系统中的应用尚未充分探索。本研究旨在开发一种结合运动引导优化（motion guidance optimization）的MA-RL框架，解决机器人Pegasus在静态平衡、行走、小跑和纯驱动模式下的控制问题。
研究流程与方法
 1. 机器人建模与运动引导设计
 - 机器人结构：Pegasus采用四足轮腿混合设计，每条腿包含肩、髋、膝、踝关节及驱动轮，踝关节通过线性执行器实现高精度转向。
 - 运动引导优化器：基于凸优化（convex optimization）生成关节角度和速度的参考信号，用于指导RL训练。优化器通过二次规划（quadratic programming）计算目标轨迹，并引入摩擦锥约束（friction cone constraints）和运动学约束（kinematic constraints）确保稳定性。
 - 伸缩车辆模型（telescopic vehicle model）：针对纯驱动模式，推导了基于轮速和转向角的运动学模型，用于生成参考路径。
多智能体强化学习框架
智能体设计：将四条腿视为独立智能体，采用MATD3算法（Multi-Agent Twin Delayed Deep Deterministic Policy Gradient），结合集中训练与分散执行（CTDE）架构。
 
观察与动作空间：每个智能体的观察空间包括关节状态（位置、速度、扭矩）和运动引导信号；动作空间为混合PD控制器（hybrid PD controller）的期望关节参数。
 
奖励函数：分为宽松任务（如躯干姿态跟踪）和严格任务（如关节跟踪），通过指数和对数函数组合设计，鼓励智能体协作优化基座动力学。
训练与仿真验证
仿真环境：基于PyBullet构建四类环境（静态、行走、小跑、驱动），引入随机高度场和传感器噪声模拟现实条件。
 
训练配置：并行训练500个机器人实例，使用256维全连接网络，历时10万次迭代。对比了带/无运动引导信号的MA-RL和单智能体RL（SA-RL）性能。
 
关键创新：运动引导信号作为专家输入，显著提升了训练效率；MATD3算法通过双批评网络（double centralized critics）和延迟策略更新解决了多智能体非平稳性问题。
实物实验与性能测试
硬件平台：Pegasus搭载Jetson Orin NX主控，STM32F446微控制器和定制电机单元。
 
实验结果：
 静态平衡：在外部扰动下（如0.07弧度倾斜），机器人能在0.8秒内恢复平衡，姿态误差±5%。
 
步态控制：行走和小跑模式下，线性速度跟踪误差分别为±2 cm/s和±2.5 cm/s，角速度误差±0.06 rad/s。
 
纯驱动模式：沿S形路径行驶时，航向偏差仅4°。
主要结果与逻辑关联
 - 训练阶段：带运动引导的MA-RL在收敛速度（比MA-RL快94.8%）和最终奖励（高60%）上均优于其他方法（图6）。
 - 实物验证：策略成功迁移至真实机器人，验证了仿真到现实（sim-to-real）的可行性。运动引导的引入使智能体更快学习到符合生物力学的步态模式（如对角腿协调摆动）。
 - 数据关联：仿真中的传感器噪声建模和硬件在环（HIL）训练有效缓解了现实中的延迟问题，支撑了实验结果的鲁棒性。
结论与价值
 1. 科学价值：提出首个结合运动引导优化的MA-RL框架，为轮腿混合机器人的控制提供了新范式；验证了MATD3算法在复杂动力学系统中的适用性。
 2. 应用价值：Pegasus在多种地形和模式下的稳定表现，证明了其在物流、救援等场景的潜力。
 3. 方法论贡献：运动引导信号的设计为多智能体协作任务中的奖励函数工程提供了通用解决方案。
研究亮点
 - 创新方法：将运动引导优化器与MA-RL结合，解决了传统RL训练效率低的问题。
 - 技术突破：实现了轮腿机器人在四类运动模式下的统一控制，且无需额外调参即可迁移至实物。
 - 跨学科融合：融合了凸优化、强化学习和生物力学原理，推动了机器人控制领域的算法革新。
其他价值
 研究开源了仿真环境代码，并计划未来探索动态地形适应和单策略多任务学习，进一步拓展框架的通用性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问