分享自:

轮腿式机器人的自主导航与运动学习

期刊:Science RoboticsDOI:10.1126/scirobotics.adi9641

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


轮腿式机器人在复杂城市环境中的自主导航与运动控制研究

1. 研究团队与发表信息

本研究由ETH Zurich(苏黎世联邦理工学院)的Joonho Lee(第一作者兼通讯作者)、Marko Bjelonic、Alexander Reske、Lorenz Wellhausen、Takahiro Miki和Marco Hutter(资深作者)合作完成,合作单位还包括韩国Neuromeka公司和瑞士Swiss-Mile Robotics AG。研究成果发表于*Science Robotics*期刊2024年第9卷第89期,论文标题为《Learning Robust Autonomous Navigation and Locomotion for Wheeled-Legged Robots》,DOI编号10.1126/scirobotics.adi9641。

2. 学术背景与研究目标

科学领域:本研究属于机器人学中的混合运动控制(hybrid locomotion)自主导航(autonomous navigation)领域,聚焦于轮腿式机器人(wheeled-legged robots)在复杂城市环境中的实际应用。

研究动机:传统轮式机器人无法跨越楼梯等障碍,而纯腿式机器人(如ANYmal)速度低(仅2.2 km/h)且续航短(1小时)。轮腿式机器人结合了轮式高速移动和腿式越障能力,但面临三大挑战:
1. 混合运动控制:需动态切换行走与驱动模式以优化效率;
2. 导航规划:传统方法未考虑机器人动态特性,导致路径跟踪误差;
3. 系统集成:各模块(如运动控制、导航、感知)需无缝协作以实现长距离自主任务。

研究目标:开发一套集成强化学习(Reinforcement Learning, RL)的层级控制系统,实现轮腿式机器人在城市环境中的高效、鲁棒导航。

3. 研究流程与方法

3.1 系统架构

研究提出分层强化学习框架(Hierarchical RL, HRL),包含两个核心模块:
- 低层控制器(Low-Level Controller, LLC):负责关节位置和轮速控制,通过模型无关RL训练,支持动态步态切换;
- 高层控制器(High-Level Controller, HLC):整合地形感知与路径规划,直接输出速度指令,替代传统分离式导航模块。

3.2 关键方法
  1. 混合运动控制训练

    • 教师-学生策略(Teacher-Student Policy):教师策略利用仿真中的特权信息(如无噪声地形数据)训练,学生策略仅依赖真实传感器(IMU、关节编码器、地形高程图)实现鲁棒迁移。
    • 动作空间设计:摒弃传统中央模式发生器(CPG),采用16维动作向量(12关节位置+4轮速),通过Beta分布约束输出范围以提升安全性。
  2. 导航控制器开发

    • 输入模态:HLC整合地形高程图、LLC隐藏状态(表征环境扰动)、20个历史位置(间隔0.5米)及目标路径点。
    • 训练环境:基于波函数坍缩算法(Wave Function Collapse, WFC)生成多样化障碍场景(如楼梯、窄道、动态行人),并通过Dijkstra算法生成全局路径。
  3. 实验验证

    • 仿真测试:在Procedural生成的虚拟环境中验证控制器的适应性;
    • 实地部署:在瑞士苏黎世和西班牙塞维利亚完成8.3公里城市导航任务,覆盖草地、沙地、楼梯等复杂地形。

4. 主要研究结果

4.1 运动性能
  • 速度与能效:机器人平均速度达1.68 m/s(较ANYmal提升3倍),机械运输成本(Cotmech)降低53%(0.16 vs. 0.34);
  • 越障能力:可跨越40 cm高台阶,下台阶时允许更高障碍(60 cm),体现非对称地形理解能力(图6c)。
4.2 导航效率
  • 与传统方法对比(图7):
    • 成功率:HRL方法失败率仅10%,而传统采样规划(如Cerberus团队方案)失败率40%;
    • 计算效率:HLC响应时间0.34 ms,远快于传统规划的秒级延迟。
4.3 实际应用
  • 安全避障:通过立体摄像头检测行人,并在高程图中添加50 cm安全缓冲(图5e);
  • 定位鲁棒性:依赖LiDAR-SLAM(Open3D实现)而非GPS,避免高层建筑信号干扰。

5. 研究结论与价值

科学价值
1. 提出首个融合混合运动控制与导航的HRL框架,解决了轮腿式机器人在动态环境中的长距离自主性问题;
2. 验证了特权学习(privileged learning)在仿真到现实迁移中的有效性。

应用价值
1. 为最后一公里物流(last-mile delivery)提供高效解决方案;
2. 系统设计可扩展至其他移动机器人平台。

6. 研究亮点

  • 方法创新
    • 首次将WFC算法用于机器人导航训练环境生成;
    • 通过显式位置记忆(position buffer)增强探索能力,避免局部极小。
  • 工程贡献
    • 实现无需手工规则(如CPG)的自主步态切换;
    • 硬件集成多模态传感器(LiDAR、RGB相机、5G路由)支持实时决策。

7. 其他价值

  • 开源数据:实验数据集与代码已公开(DOI:10.5061/dryad.gxd2547tg);
  • 跨学科意义:为游戏AI(导航图)与机器人学的结合提供范例。

此研究通过算法创新与系统工程,推动了轮腿式机器人在真实场景中的实用化进程,为未来自主物流与城市移动性提供了关键技术支撑。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com