分享自:

四足机器人分层强化学习:受限环境中的高效物体操作

期刊:sensorsDOI:10.3390/s25051565

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


四足机器人层级强化学习框架:受限环境中的高效物体操控研究

一、作者与发表信息
本研究由David Azimi(澳大利亚迪肯大学信息技术学院)与Reza Hoseinnezhad(澳大利亚RMIT大学工程学院)合作完成,于2025年3月4日发表在期刊 *Sensors*(2025年第25卷,第1565页),文章标题为《Hierarchical Reinforcement Learning for Quadrupedal Robots: Efficient Object Manipulation in Constrained Environments》,开放获取许可为CC BY 4.0。

二、学术背景
研究领域为机器人学与强化学习(Reinforcement Learning, RL),聚焦于四足机器人在复杂受限环境中的全身物体操控(whole-body object manipulation)问题。传统研究多关注开放环境下的机器人运动或机械臂操控,而现实场景(如灾后救援、工业仓储)常需机器人在狭窄空间内同时完成移动与物体操作(即运动操控一体化,locomanipulation)。现有方法在密集障碍物环境中表现不足,因此本研究提出一种层级强化学习框架,通过传感器驱动的控制策略优化决策,解决受限空间内物体精准定位与能耗平衡的挑战。

三、研究流程与方法
1. 问题建模与框架设计
- 动态状态向量:定义机器人状态(全局位置、速度、关节角度等)及物体位置观测值(通过RGB-D相机获取)。
- 层级控制架构
- 高层控制器(5Hz):生成目标线速度/角速度指令,优化物体到目标位姿的误差(基于关键点距离计算,如图3)。
- 底层控制器(50Hz):将高层指令转化为12维关节力矩,通过PD控制器执行,奖励函数跟踪指令精度(公式9)。
- 特殊设计
- 障碍物感知奖励:引入机器人距最近墙壁的距离与角度观测(图4),通过惩罚机制避免碰撞。
- Kalman滤波:处理物体短暂遮挡时的位置估计问题。

  1. 仿真实验设置

    • 平台与机器人:使用NVIDIA Isaac Sim仿真环境,搭载ANYbotics的ANYmal C四足机器人(重50kg,尺寸1.05m×0.52m)。
    • 任务场景:随机初始化60cm立方体与目标位置(1-10m距离),加入动态摩擦与障碍物以增强泛化性。
    • 神经网络结构
      • 高层策略:2层128节点全连接网络,输入包括物体位姿、障碍物信息等。
      • 底层策略:3层(512-256-128节点)网络,输入为关节状态与高层指令。
    • 训练参数
      • 算法:近端策略优化(PPO,Proximal Policy Optimization),参数如表1(如学习率1e-3,折扣因子0.99)。
      • 并行实例:4096个机器人同步训练,高层策略迭代12,500次,底层策略迭代1,500次。
  2. 数据分析方法

    • 性能指标:物体定位误差、能量消耗(关节动作幅值)、路径平滑性。
    • 奖励函数分解:分别监控物体接近奖励(公式8)、障碍物避让奖励、动作稳定性奖励(公式11-12)。

四、主要结果
1. 操控精度:在10m范围内,物体最终定位误差均值达11cm(图6f),显著优于传统单层策略。
2. 环境适应性
- 障碍物避让成功率达92%,归功于墙壁距离奖励的动态调整。
- 能量效率提升:动作平滑性奖励使关节功率消耗降低23%。
3. 训练收敛性
- 高层策略在8,000次迭代后稳定(图6a-b),物体-目标距离奖励从0.3提升至0.9(归一化值)。
- 底层策略的指令跟踪误差(公式11)在1,200次迭代后下降80%。

五、结论与价值
1. 科学价值
- 提出首个针对受限环境的四足机器人层级RL框架,填补了密集障碍物下locomanipulation的研究空白。
- 验证了传感器观测与奖励函数联合设计对复杂任务分解的有效性。
2. 应用价值
- 适用于仓储物流、危险环境作业等需移动与操作并行的场景。
- 开源代码与仿真工具链(如Isaac Sim)为后续研究提供基准平台。

六、研究亮点
1. 创新方法
- 层级奖励分解:将全局目标(物体定位)与局部约束(避障、能耗)解耦,提升训练效率。
- 关键点距离度量:替代传统欧氏距离,避免显式姿态误差计算(图3)。
2. 工程贡献
- 实现高精度操控(11cm误差)与实时性(50Hz控制频率)的平衡。
- 通过域随机化(Domain Randomization)增强策略的跨场景鲁棒性。

七、其他要点
- 局限性:当前框架假设静态障碍物,未来需扩展至动态环境(如行人避让)。
- 补充材料:附带的仿真视频展示了机器人在墙角环境中的物体推送过程(见原文Supplementary Materials)。


该研究通过严谨的层级设计、仿真验证与开源共享,为四足机器人在复杂场景中的应用提供了重要技术参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com