基于强化学习实现的现实世界人形机器人行走

2024-05-28 Tue
基于强化学习实现的现实世界人形机器人行走背景介绍人形机器人在多样化环境中自主操作的潜力巨大，不仅可缓解工厂里的劳动力短缺，还能帮助居家老人并开拓新行星。尽管经典控制器在某些场景下显示出色的效果，但在新环境中的推广和适应性仍是一个重大挑战。为此，本文提出了一种完全基于学习的方法用于实际世界中的人形机器人运动控制。
研究动机经典控制方法在实现稳定和鲁棒的运动控制方面有很大进展，但其适应性和通用性受限。而基于学习的方法由于能从多样化的模拟或实际环境中学习，逐渐受到更多关注。本文旨在通过使用强化学习训练一种基于Transformer网络的控制器，实现人形机器人在复杂环境中的运动控制。
作者与出版信息本文由Ilija Radosavovic, Tete Xiao, Bike Zhang, Trevor Darrell, Jitendra Malik及Koushil Sreenath共同完成，他们均来自加州大学伯克利分校。该研究发表于2024年4月17日的《Science Robotics》上。
工作流程研究流程本研究共包含多个阶段：
模拟环境中的大规模训练：
首先在模拟环境中进行了大规模的无模型（model-free）强化学习训练。训练环境包含了大量随机化的环境条件，以确保模型对外界扰动的适应性。
使用因果Transformer从运动和观测历史中提取信息，预测下一步行动。
实际世界中的初次部署：
完全基于模拟环境中训练的模型，直接在实际世界中进行部署，而无需重新调整模型参数。
部署环境包括：人行道、跑道、草地等多种户外地形。
实验与测试户外环境部署：
在各种日常环境中进行测试，如广场、人行道、草地等。控制器的表现稳定且没发生跌倒，尽管没有使用安全支架。
室内实验：
进行了受控实验，如处理外部力量、不同地形和不同负载。实验表明，机器人能在面临外部扰动和复杂地形时依旧保持平衡，并能携带不同质量和形状的物体。
模拟对比：
与目前最先进的模型进行了对比测试，结果显示，新控制器在坡地、台阶及不稳定地面上均表现优异，且在某些场景中显现出优于现有方法的恢复能力。
主要结果户外测试结果：
机器人能够在不同材质和条件的地表上行走，如干燥和潮湿的混凝土、人行道和草地。
在为期一周的全天候测试中，机器人没有发生跌倒。
室内实验结果：
通过模拟各种外部扰动如推拉和碰撞，验证了控制器对突发外力的稳定性。
在实验室中布置了不同类型的粗糙地表，机器人能成功适应并通过。
机器人还能携带不同类型的负载，且能调整自身姿态以保持平衡。
实时命令与自然行走：
控制器能精确地追踪并执行实时变更的速度命令，支持全方向行走。
实验中，机器人展示出了类似人类自然行走的特征，如摆臂动作，这进一步降低了能耗。
结论与意义通过上述实验结果，本研究展示了基于学习的简单且通用的控制器在实际世界中复杂、高维人形机器人控制中的可行性。主要贡献包括：
适应性与鲁棒性：
控制器能在未知环境中表现稳定，适应不同类型的地形和外部扰动。
行为表现：
控制器展示了自然的行走行为，包括随指令变化的步态以及快速适应突发障碍的应对能力。
科学与应用价值：
该研究不仅在机器人控制理论上提供了新的视角，还为实际应用中人形机器人的多样化任务提供了技术支持。
方法创新与结果支持本文的方法主要通过以下创新实现：
因果Transformer模型：
使用因果Transformer从运动历史中提取信息，适应不同环境，具有动态调整行为的能力。
大规模仿真训练：
通过大规模随机化环境中的训练，确保模型的高适应性和鲁棒性。
兼顾模仿学习与强化学习：
结合教师模仿和强化学习联合优化，提升了训练效率和模型性能。
未来展望尽管这项研究的方法在适应性和鲁棒性方面显示出色表现，但仍存在一些局限性，如在极端外力扰动下的稳定性问题。未来工作可集中在提升模型对极端条件的适应性，并探索Transformer模型的更多潜在应用。
总结这项研究通过先进的学习方法，实现了人形机器人在现实环境中的高效运动控制，提供了理论新视角和实际应用的重要启示，期待未来更多研究进一步优化和拓展此类方法。