基于深度强化学习的Solo12四足机器人控制

分享自：
基于深度强化学习的Solo12四足机器人控制

机械
信息科学
人工智能
工程学
计算机科学
期刊:scientific reportsDOI:10.1038/s41598-023-38259-7
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，是一篇关于使用深度强化学习控制四足机器人Solo12的原创性研究论文。以下是针对该研究的学术报告：
作者及机构
 本研究由Michel Aractingi（第一作者，来自法国LAAS-CNRS和图卢兹大学）、Pierre-Alexandre Léziart、Thomas Flayols、Julien Perez（Naver Labs Europe）、Tomi Silander及Philippe Souères（通讯作者）共同完成，发表于Scientific Reports期刊2023年第13卷，文章编号11945。
学术背景
 研究领域：本研究属于机器人控制与人工智能交叉领域，聚焦于四足机器人的运动控制。传统控制方法（如模型预测控制MPC）依赖手工调参和精确动力学建模，难以适应复杂地形且计算成本高。近年来，深度强化学习（Deep Reinforcement Learning, DRL）在机器人控制中展现出潜力，但如何实现从仿真到实物的零样本迁移（zero-shot transfer）仍是挑战。
研究动机：作者团队旨在开发一种基于DRL的端到端控制器，解决传统方法在适应性、能耗和部署效率上的局限。选择Solo12机器人作为平台，因其开源、低成本且关节扭矩可控的特性，适合作为学习与控制结合的研究载体。
研究目标：
 1. 设计一种通过DRL直接生成关节阻抗参考值的控制策略，实现鲁棒的3D速度跟踪；
 2. 提出能量损耗惩罚机制，优化机器人能耗；
 3. 通过课程学习（curriculum learning）和动态随机化（dynamic randomization）实现仿真到实物的无缝迁移。
研究流程与方法
 1. 控制框架设计
 - 状态空间（State Space）：包含机器人本体状态（IMU测量的姿态、角速度）、关节状态（编码器测量的角度、速度）、历史动作及目标误差（q_target - q_measured），以及3D速度指令。
 - 动作空间（Action Space）：策略网络输出关节角度增量Δq，与初始姿态q_init叠加后输入PD控制器生成扭矩，形成弹性阻抗控制（impedance control），避免直接扭矩控制的不稳定性。
 - 奖励函数：以速度跟踪为主目标（r_vel），辅以足部抬升（r_clear）、防滑（r_slip）、基座稳定性（r_base）、关节限制（r_joint）等惩罚项。创新性地引入能量损耗惩罚（r_e），综合电机焦耳损耗和摩擦损耗模型。
2. 训练与迁移技术
 - 算法：采用近端策略优化（PPO, Proximal Policy Optimization）训练策略网络（3层MLP），并行300个仿真环境加速数据收集。
 - 课程学习：
 - 奖励课程：初期忽略惩罚项（k_c=0），逐步增加至k_c=1，避免策略过早收敛至保守行为；
 - 噪声课程：动态随机化PD增益、状态观测噪声，模拟硬件差异，提升鲁棒性；
 - 地形课程：后期引入随机高度场（rough terrain），增强复杂地形适应性。
 - 状态估计网络：通过监督学习训练MLP，从IMU和关节数据预测基座线速度，弥补真实机器人无直接速度测量的缺陷。
3. 实验验证
 - 仿真测试：评估不同能量惩罚权重（c_e）对功率损耗和速度跟踪的影响，最优策略（c_e=2.0）降低能耗30%且保持跟踪精度。
 - 实物部署：在草地、碎石、斜坡等场景测试，策略首次部署即成功，无需额外调参。视频数据显示机器人可适应±1.5 m/s速度指令及动态地形变化（视频链接）。
主要结果
 1. 速度跟踪性能：实物实验显示，策略能精准跟踪随机速度指令（图3），运动捕捉数据与估计网络输出的误差在可接受范围内。
 2. 能量优化：c_e=2.0时，功率损耗降至12.0 W（对比c_e=0.0的17.7 W），验证了能量惩罚项的有效性（表4）。
 3. 步频自适应：通过FFT分析，策略能自主调节步态频率以匹配速度指令（图7），此特性未依赖手工设计。
 4. 鲁棒性：仅通过PD增益随机化即实现零样本迁移，表明Solo12的低惯量特性降低了仿真与现实差距。
结论与价值
 科学价值：
 - 提出了一种可迁移的DRL框架，结合课程学习和动态随机化，为四足机器人控制提供了新范式；
 - 能量损耗模型和关节阻抗控制的结合，为节能运动控制提供了理论参考。
应用价值：
 - 开源代码（GitHub链接）与低成本硬件平台Solo12的结合，降低了学习控制的研究门槛；
 - 策略的实时性（10μs计算延迟）适合嵌入式部署，推动轻量级机器人在野外环境的应用。
研究亮点
 1. 方法创新：首次在Solo12上实现端到端DRL控制，且无需额外执行器建模或滤波器设计；
 2. 工程贡献：通过简单的噪声注入和课程设计即解决sim-to-real问题，简化了传统复杂迁移流程；
 3. 多目标优化：平衡速度跟踪、能耗与稳定性，优于单一扭矩惩罚的传统方法（表4对比行）。
局限与展望：未涉及视觉输入与复杂障碍避障，未来可结合感知模块扩展应用场景。
（注：文中图表及参考文献索引均与原文档一致，专业术语如PPO、sim-to-real等保留英文缩写并在首次出现时标注中文解释。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问