分享自:

自主竞速无人机的极限控制:最优控制与强化学习的对比研究

期刊:Science RoboticsDOI:10.1126/scirobotics.adg1462

这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:

主要作者及研究机构
本研究的主要作者包括Yunlong Song、Angel Romero、Matthias Müller、Vladlen Koltun和Davide Scaramuzza。他们分别来自瑞士苏黎世大学的机器人与感知研究组、德国慕尼黑的英特尔公司以及美国怀俄明州杰克逊的英特尔实验室。该研究发表在2023年的《Science Robotics》期刊第8卷第82期上。

学术背景
研究的核心科学领域是机器人控制,特别是针对敏捷移动机器人(如无人机)的控制系统设计。传统上,机器人控制领域存在两种主要方法:基于模型的最优控制(Optimal Control, OC)和以学习为核心的强化学习(Reinforcement Learning, RL)。OC依赖于精确的数学模型和优化框架,而RL则通过试错和奖励信号来训练智能体。尽管两种方法都取得了显著成果,但在面对复杂、动态和未建模的环境时,它们的表现存在显著差异。
本研究的目标是通过系统性的实验,比较OC和RL在自主无人机竞速这一极具挑战性任务中的表现,并探讨RL优于OC的根本原因。研究的核心问题是:RL是否因为优化了更好的目标,而不是因为优化方法本身更优,从而在复杂任务中表现更佳?

研究流程
研究分为以下几个主要步骤:

  1. 问题定义与实验设计
    研究以自主无人机竞速为任务,目标是让无人机在最短时间内通过一系列门。这一任务要求无人机在速度和加速度上达到极限,同时容错率极低。研究选择了三种无人机模型:基于简单刚体动力学的名义模型、基于叶片元素动量理论的现实模型,以及真实世界的竞速无人机。所有方法均使用名义模型进行控制系统优化,而现实模型和真实无人机用于测试泛化能力。

  2. 方法比较
    研究比较了两种先进的OC方法(轨迹跟踪轮廓控制)与RL方法。轨迹跟踪依赖于离线时间最优轨迹规划和在线模型预测控制(MPC),而轮廓控制则通过最大化路径进度和最小化路径偏差来优化飞行。RL方法则直接优化任务级目标,无需中间表示(如轨迹)。
    在仿真实验中,研究人员从50个不同的初始位置测试了每种方法,并引入了40毫秒的系统延迟和未建模的动态效应(如推力映射和阻力系数的随机化)。

  3. 实验与分析
    研究在仿真和真实环境中进行了大规模实验。仿真实验中,轨迹跟踪在名义模型下表现最佳,但在现实模型下完全失败;轮廓控制在名义模型下表现较好,但在现实模型下成功率仅为20%。相比之下,RL在名义模型和现实模型下均实现了100%的成功率,并在真实世界中表现出色。
    在真实世界测试中,OC方法由于未建模的动态效应和系统延迟而失败,而RL策略无需微调即可直接应用于真实无人机,并实现了更快的圈速。

  4. 优化方法与优化目标的对比
    研究进一步探讨了RL优于OC的原因,提出了两个假设:优化方法假设优化目标假设。通过实验验证,研究发现RL的优越性并非源于优化方法本身,而是因为它能够直接优化任务级目标(如通过门的进度),而OC则受限于将问题分解为规划和控制两个阶段,依赖于中间表示(如轨迹)。这种分解限制了控制策略的表达范围,导致在面对未建模动态时表现不佳。

  5. 性能极限测试
    研究开发了一款最大推重比(TWR)为12的高性能竞速无人机,并在真实环境中测试了RL策略的性能。无人机在实验中达到了108 km/h的峰值速度和12.58 g的峰值加速度,并在电池电压大幅下降的情况下仍能保持控制。此外,RL策略在公开比赛中击败了三名专业人类飞行员,展示了其超越人类的表现。

主要结果
1. RL在复杂任务中的优越性
RL在仿真和真实环境中均表现出色,尤其是在面对未建模动态和系统延迟时,RL策略能够保持高成功率和高性能。
2. 优化目标的重要性
实验表明,RL的优越性源于其能够直接优化任务级目标(如通过门的进度),而OC则受限于中间表示(如轨迹)。这种直接优化使得RL能够发现更鲁棒的控制策略。
3. 性能极限的突破
研究开发的RL策略在真实无人机上实现了超高性能,达到了108 km/h的峰值速度和12.58 g的峰值加速度,并击败了专业人类飞行员。

结论
本研究通过系统性实验,揭示了RL在自主无人机竞速任务中优于OC的根本原因:RL能够直接优化任务级目标,而OC则受限于将问题分解为规划和控制两个阶段。这一发现不仅推动了敏捷机器人控制领域的发展,还为未来高性能自主系统的设计提供了重要指导。
此外,研究开发的RL策略在真实无人机上实现了超高性能,展示了RL在复杂、动态环境中的强大潜力。这一成果为RL在实际应用中的推广奠定了基础。

研究亮点
1. 系统性比较OC与RL
研究通过大规模实验,系统性地比较了OC和RL在复杂任务中的表现,揭示了RL的优越性及其根本原因。
2. 高性能RL策略的开发
研究开发的RL策略在真实无人机上实现了超高性能,达到了108 km/h的峰值速度和12.58 g的峰值加速度,并击败了专业人类飞行员。
3. 优化目标的创新
研究提出了“优化目标假设”,并通过实验验证了直接优化任务级目标的重要性,为未来机器人控制系统的设计提供了新思路。

其他有价值的内容
研究还展示了RL策略在仿真到真实世界的零样本迁移能力,即RL策略无需微调即可直接应用于真实无人机。这一成果为RL在实际应用中的推广提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com