学术研究报告:基于强化学习的轮式四足机器人全身运动-操作协同控制研究
作者与发表信息
本研究的核心团队来自南方科技大学系统设计与智能制造学院(SDIM)和浙江大学-伊利诺伊大学厄巴纳香槟校区联合学院(ZJUI),第一作者为Kaiwen Jiang与Zhen Fu(共同一作),通讯作者为Hua Chen。研究论文《Learning Whole-Body Loco-Manipulation for Omni-Directional Task Space Pose Tracking with a Wheeled-Quadrupedal-Manipulator》发表于IEEE Robotics and Automation Letters 2025年2月刊(Volume 10, Issue 2)。研究得到中国国家自然科学基金(项目号62073159、62003155)和深圳市控制理论与智能系统重点实验室(项目号ZDSYS20220330161800001)的资助。
学术背景
研究领域与问题
本研究属于机器人运动-操作协同控制(Loco-Manipulation)领域,聚焦于轮式四足机械臂机器人(Wheeled-Quadrupedal-Manipulator, WQM)的全身协调控制问题。传统运动-操作协同控制通常需要分别跟踪基座(Base)和末端执行器(End-Effector, EE)的指令,而本研究提出了一种更复杂的任务场景:直接跟踪世界坐标系下的6维(6D)末端执行器位姿(包括位置和姿态)。这一任务需要解决自由度冗余带来的平衡问题,即如何协调轮式移动、腿部运动与机械臂操作之间的关系。
研究动机
现有方法(如[1]-[3])多关注末端执行器的3维位置跟踪,难以实现精确的6D位姿控制,限制了机器人在复杂任务(如桌面清洁、定向抓取)中的应用。此外,传统方法通常将运动(Locomotion)和操作(Manipulation)任务解耦处理,未能充分发挥全身协同的潜力。
研究方法与流程
1. 整体框架
研究采用强化学习(Reinforcement Learning, RL)框架,核心创新是提出了奖励融合模块(Reward Fusion Module, RFM),通过非线性方式整合多任务奖励项,解决运动-操作协同的层次性与多阶段性挑战。训练流程分为以下步骤:
(1)教师-学生训练范式(Teacher-Student Paradigm)
- 教师策略训练:在仿真环境中,教师策略接收特权信息(如接触力、摩擦系数)并通过MLP编码器生成潜在变量( z ),与PPO算法联合优化。
- 学生策略迁移:学生策略仅依赖本体感知信息(如关节状态、基座角速度)和10帧历史观测,通过特权估计器(Privilege Estimator)预测( \hat{z} ),实现仿真到实物的迁移。
(2)动作空间设计
策略输出分为两类:
- 非轮式关节:目标位置指令,通过PD控制器生成扭矩。
- 轮式关节:目标速度指令,直接控制轮速。
2. 奖励融合模块(RFM)
RFM通过以下三个子模块实现非线性奖励融合:
(1)奖励优先级(Reward Prioritization, RP)
- 层次化任务协调:通过乘法关系建立任务优先级。例如,末端执行器位置跟踪奖励( r{ep} )优先于姿态跟踪奖励( r{eo} ),即总奖励( rt = r{ep} + r{ep} \cdot r{eo} )。
- 正则化优先:确保机器人在运动过程中保持稳定性,避免为追求跟踪精度而牺牲安全性。
(2)微增强(Micro-Enhancement)
- 通过幂次放大(如( r_{ep}^m ))提升小误差范围内的奖励梯度,显著提高跟踪精度(图3)。
(3)运动-操作融合(Loco-Mani Fusion)
- 引入相位变量( d(\epsilon_t^{ref}) )动态调整运动与操作的权重:
[ rt = (1-d) \cdot r{mani} + d \cdot r{loco} + r{basic} ] 其中( \epsilon_t^{ref} )为SE(3)距离参考值,控制任务切换的平滑性。
3. 实验平台与训练细节
- 硬件平台:结合轮式四足机器人(LimX W1)和6自由度机械臂(Airbot),通过LiDAR惯性里程计(LIO)实现世界坐标系下的位姿估计。
- 训练环境:使用Isaac Gym进行RL训练,Mujoco进行仿真验证,4096个并行环境,7000次迭代(教师策略)+4000次迭代(学生策略)。
主要结果
1. 仿真消融实验
在1000次随机目标跟踪任务中,RFM展现出显著优势:
- 成功率:RFM完整版达到98%,而传统加权求和方法(w/o RFM)仅85%。
- 跟踪误差:位置误差 cm,姿态误差<0.1 rad,优于文献[1][16]的结果。
- 能耗与稳定性:RFM的关节加速度和功率消耗均低于基线方法,且轮式关节的标称偏差(Nominal Deviation)降低30%。
2. 实物验证
- 全任务流程演示:机器人可平滑切换运动与操作模式(图6),例如从远距离移动过渡到精确抓取。
- 6D位姿跟踪:在圆形轨迹跟踪任务中,SE(3)误差(( d_\theta + 2d_p/3 ))仅为0.12,优于现有方法。
- 实际应用:通过手柄遥操作完成垃圾捡拾任务,验证了系统的全向跟踪能力(实验视频见项目页面)。
结论与价值
科学价值
- 方法论创新:RFM为多任务RL提供了一种通用的非线性奖励融合框架,可扩展至其他层次化任务。
- 硬件协同:首次在轮式四足机械臂平台上实现6D位姿的直接跟踪,证明了全身协调控制的可行性。
应用价值
- 复杂场景适应:适用于需要高精度操作的长时程任务(如物流搬运、危险环境作业)。
- 控制架构简化:单一策略无需手动切换运动/操作模式,提升了系统鲁棒性。
研究亮点
- 奖励融合模块(RFM):通过RP、微增强和动态相位变量,解决了多任务RL的平衡难题。
- 教师-学生迁移:仅依赖本体感知实现仿真到实物的高效迁移,降低了硬件调试成本。
- 性能突破:6D跟踪精度达到业界最优(位置误差 cm,姿态误差<0.1 rad)。
其他价值
- 开源与可复现性:提供了完整的训练代码和实物部署方案(项目页面链接)。
- 跨领域潜力:RFM框架可应用于其他冗余自由度系统的控制,如双足机器人或柔性机械臂。
(注:文中引用文献[1][16]等为原论文参考文献,此处保留编号以符合学术规范。)