分享自:

基于深度强化学习的Solo12四足机器人控制

期刊:scientific reportsDOI:10.1038/s41598-023-38259-7

这篇文档属于类型a,是一篇关于使用深度强化学习控制四足机器人Solo12的原创性研究论文。以下是针对该研究的学术报告:


作者及机构
本研究由Michel Aractingi(第一作者,来自法国LAAS-CNRS和图卢兹大学)、Pierre-Alexandre Léziart、Thomas Flayols、Julien Perez(Naver Labs Europe)、Tomi Silander及Philippe Souères(通讯作者)共同完成,发表于Scientific Reports期刊2023年第13卷,文章编号11945。


学术背景
研究领域:本研究属于机器人控制与人工智能交叉领域,聚焦于四足机器人的运动控制。传统控制方法(如模型预测控制MPC)依赖手工调参和精确动力学建模,难以适应复杂地形且计算成本高。近年来,深度强化学习(Deep Reinforcement Learning, DRL)在机器人控制中展现出潜力,但如何实现从仿真到实物的零样本迁移(zero-shot transfer)仍是挑战。

研究动机:作者团队旨在开发一种基于DRL的端到端控制器,解决传统方法在适应性、能耗和部署效率上的局限。选择Solo12机器人作为平台,因其开源、低成本且关节扭矩可控的特性,适合作为学习与控制结合的研究载体。

研究目标
1. 设计一种通过DRL直接生成关节阻抗参考值的控制策略,实现鲁棒的3D速度跟踪;
2. 提出能量损耗惩罚机制,优化机器人能耗;
3. 通过课程学习(curriculum learning)和动态随机化(dynamic randomization)实现仿真到实物的无缝迁移。


研究流程与方法
1. 控制框架设计
- 状态空间(State Space):包含机器人本体状态(IMU测量的姿态、角速度)、关节状态(编码器测量的角度、速度)、历史动作及目标误差(q_target - q_measured),以及3D速度指令。
- 动作空间(Action Space):策略网络输出关节角度增量Δq,与初始姿态q_init叠加后输入PD控制器生成扭矩,形成弹性阻抗控制(impedance control),避免直接扭矩控制的不稳定性。
- 奖励函数:以速度跟踪为主目标(r_vel),辅以足部抬升(r_clear)、防滑(r_slip)、基座稳定性(r_base)、关节限制(r_joint)等惩罚项。创新性地引入能量损耗惩罚(r_e,综合电机焦耳损耗和摩擦损耗模型。

2. 训练与迁移技术
- 算法:采用近端策略优化(PPO, Proximal Policy Optimization)训练策略网络(3层MLP),并行300个仿真环境加速数据收集。
- 课程学习
- 奖励课程:初期忽略惩罚项(k_c=0),逐步增加至k_c=1,避免策略过早收敛至保守行为;
- 噪声课程:动态随机化PD增益、状态观测噪声,模拟硬件差异,提升鲁棒性;
- 地形课程:后期引入随机高度场(rough terrain),增强复杂地形适应性。
- 状态估计网络:通过监督学习训练MLP,从IMU和关节数据预测基座线速度,弥补真实机器人无直接速度测量的缺陷。

3. 实验验证
- 仿真测试:评估不同能量惩罚权重(c_e)对功率损耗和速度跟踪的影响,最优策略(c_e=2.0)降低能耗30%且保持跟踪精度。
- 实物部署:在草地、碎石、斜坡等场景测试,策略首次部署即成功,无需额外调参。视频数据显示机器人可适应±1.5 m/s速度指令及动态地形变化(视频链接)。


主要结果
1. 速度跟踪性能:实物实验显示,策略能精准跟踪随机速度指令(图3),运动捕捉数据与估计网络输出的误差在可接受范围内。
2. 能量优化c_e=2.0时,功率损耗降至12.0 W(对比c_e=0.0的17.7 W),验证了能量惩罚项的有效性(表4)。
3. 步频自适应:通过FFT分析,策略能自主调节步态频率以匹配速度指令(图7),此特性未依赖手工设计。
4. 鲁棒性:仅通过PD增益随机化即实现零样本迁移,表明Solo12的低惯量特性降低了仿真与现实差距。


结论与价值
科学价值
- 提出了一种可迁移的DRL框架,结合课程学习和动态随机化,为四足机器人控制提供了新范式;
- 能量损耗模型和关节阻抗控制的结合,为节能运动控制提供了理论参考。

应用价值
- 开源代码(GitHub链接)与低成本硬件平台Solo12的结合,降低了学习控制的研究门槛;
- 策略的实时性(10μs计算延迟)适合嵌入式部署,推动轻量级机器人在野外环境的应用。


研究亮点
1. 方法创新:首次在Solo12上实现端到端DRL控制,且无需额外执行器建模或滤波器设计;
2. 工程贡献:通过简单的噪声注入和课程设计即解决sim-to-real问题,简化了传统复杂迁移流程;
3. 多目标优化:平衡速度跟踪、能耗与稳定性,优于单一扭矩惩罚的传统方法(表4对比行)。

局限与展望:未涉及视觉输入与复杂障碍避障,未来可结合感知模块扩展应用场景。


(注:文中图表及参考文献索引均与原文档一致,专业术语如PPO、sim-to-real等保留英文缩写并在首次出现时标注中文解释。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com