这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
多智能体强化学习在仿生轮腿四足机器人跟踪控制中的应用研究
作者与机构
本研究由Rezwan Al Islam Khan(复旦大学信息科学与技术学院)、Chenyun Zhang(复旦大学)、Zhongxiao Deng(密歇根大学机器人系)等8位作者合作完成,发表于期刊Machines(2024年12月,卷12,第902期)。研究团队主要来自复旦大学信息科学与技术学院、密歇根大学机器人系以及复旦大学工程与应用技术研究院。
学术背景
研究领域为机器人控制与强化学习,聚焦于仿生轮腿四足机器人(bionic wheel-legged quadruped)的动态运动控制。传统基于模型的控制器(model-based control)存在仿真与现实的模型失配问题,且线性化假设会忽略非线性动力学特性。近年来,强化学习(Reinforcement Learning, RL)在足式机器人控制中展现出潜力,但多智能体强化学习(Multi-Agent RL, MA-RL)在复杂轮腿混合系统中的应用尚未充分探索。本研究旨在开发一种结合运动引导优化(motion guidance optimization)的MA-RL框架,解决机器人Pegasus在静态平衡、行走、小跑和纯驱动模式下的控制问题。
研究流程与方法
1. 机器人建模与运动引导设计
- 机器人结构:Pegasus采用四足轮腿混合设计,每条腿包含肩、髋、膝、踝关节及驱动轮,踝关节通过线性执行器实现高精度转向。
- 运动引导优化器:基于凸优化(convex optimization)生成关节角度和速度的参考信号,用于指导RL训练。优化器通过二次规划(quadratic programming)计算目标轨迹,并引入摩擦锥约束(friction cone constraints)和运动学约束(kinematic constraints)确保稳定性。
- 伸缩车辆模型(telescopic vehicle model):针对纯驱动模式,推导了基于轮速和转向角的运动学模型,用于生成参考路径。
多智能体强化学习框架
训练与仿真验证
实物实验与性能测试
主要结果与逻辑关联
- 训练阶段:带运动引导的MA-RL在收敛速度(比MA-RL快94.8%)和最终奖励(高60%)上均优于其他方法(图6)。
- 实物验证:策略成功迁移至真实机器人,验证了仿真到现实(sim-to-real)的可行性。运动引导的引入使智能体更快学习到符合生物力学的步态模式(如对角腿协调摆动)。
- 数据关联:仿真中的传感器噪声建模和硬件在环(HIL)训练有效缓解了现实中的延迟问题,支撑了实验结果的鲁棒性。
结论与价值
1. 科学价值:提出首个结合运动引导优化的MA-RL框架,为轮腿混合机器人的控制提供了新范式;验证了MATD3算法在复杂动力学系统中的适用性。
2. 应用价值:Pegasus在多种地形和模式下的稳定表现,证明了其在物流、救援等场景的潜力。
3. 方法论贡献:运动引导信号的设计为多智能体协作任务中的奖励函数工程提供了通用解决方案。
研究亮点
- 创新方法:将运动引导优化器与MA-RL结合,解决了传统RL训练效率低的问题。
- 技术突破:实现了轮腿机器人在四类运动模式下的统一控制,且无需额外调参即可迁移至实物。
- 跨学科融合:融合了凸优化、强化学习和生物力学原理,推动了机器人控制领域的算法革新。
其他价值
研究开源了仿真环境代码,并计划未来探索动态地形适应和单策略多任务学习,进一步拓展框架的通用性。