基于深度强化学习的冠军级无人机竞速系统

分享自：
基于深度强化学习的冠军级无人机竞速系统

期刊:natureDOI:10.1038/s41586-023-06419-4
本文档报告了一项发表在 Nature 期刊（2023年8月31日，第620卷）上的原创性研究成果，题为“Champion-level drone racing using deep reinforcement learning”。该研究由来自瑞士苏黎世大学机器人学与感知小组的 Elia Kaufmann、Leonard Bauersfeld、Antonio Loquercio、Davide Scaramuzza，以及来自英特尔实验室（慕尼黑）的 Matthias Müller 和来自英特尔实验室（杰克逊，怀俄明州）的 Vladlen Koltun 共同完成。
这项研究属于机器人与人工智能（AI）交叉领域，具体聚焦于自主无人机竞速。第一人称视角（First-person view， FPV）无人机竞速是一项专业竞技运动，飞行员通过头戴设备接收来自无人机机载摄像头的实时视频流，以第一人称视角操控高速无人机穿越复杂三维赛道。长期以来，让自主无人机达到人类冠军飞行员水平是一项极具挑战性的任务，因为这要求机器人在完全依赖机载传感器（无外部定位辅助，如动捕系统）进行状态估计的同时，以其物理极限的速度飞行。该研究旨在攻克这一难题，开发一个能够与人类世界冠军在真实物理环境中进行一对一竞速并取胜的自主无人机系统。
为此，研究团队开发了名为“Swift”的自主系统。该系统采用了深度强化学习（Deep Reinforcement Learning, RL）与物理世界数据采集相结合的混合学习方法。其核心工作流程可分为以下几个主要部分：系统架构设计、模拟环境训练、模拟到现实的迁移策略、以及在真实赛道上的部署与竞赛评估。
详细工作流程： 1. 系统架构： Swift 系统由两个关键模块构成。首先是感知系统，负责将高维度的视觉（机载摄像头图像）和惯性测量单元（Inertial Measurement Unit, IMU）数据转换为任务专用的低维状态表示。该感知系统整合了视觉惯性里程计（Visual-inertial odometry, VIO）和一个用于检测赛道门框角点的卷积神经网络（即门框检测器）。检测到的门框角点通过摄像机重定位算法结合已知的赛道地图，用于估计无人机在全球坐标系下的位姿（位置和姿态）。这一估计结果与VIO的估计值通过卡尔曼滤波器（Kalman filter）进行融合，产生更精确的机器人状态估计。其次是控制策略，由一个两层感知机（即神经网络）表示。该策略以卡尔曼滤波器的输出作为输入，直接生成无人机的控制指令（集体推力和机身角速度）。这种端到端的控制模式与人类飞行员使用的控制模态相同。 2. 模拟训练： 控制策略是在高保真模拟环境中，使用无模型的、同策略（on-policy）深度强化学习算法——近端策略优化（Proximal Policy Optimization, PPO）进行训练的。为了支持大规模训练，研究者开发了精细的无人机动力学仿真模型，包括螺旋桨升力、空气动力学效应（通过数据驱动的多项式灰盒模型拟合）、电池电压模型以及仿照真实飞行控制器（Betaflight）的低级PID控制器模型。在训练过程中，策略网络需要最大化一个复合奖励函数。该奖励函数不仅奖励无人机朝着下一个门框中心前进，还包含一个“感知目标”奖励，鼓励无人机调整姿态将下一个门框保持在相机视野内，因为这有助于提高位姿估计的准确性。同时，奖励函数也惩罚剧烈的控制动作和碰撞行为。 3. 模拟到现实的迁移： 这是本研究的关键创新点。直接在模拟中训练的策略若直接部署到真实无人机上，性能会严重下降，这主要是由模拟与现实的动力学差异以及真实感知系统（如VIO和门框检测）产生的有噪声的状态估计所导致的。为解决此问题，研究团队采用了一种基于真实世界数据的残差建模方法。具体流程如下：首先，使用一个在模拟中训练（但依赖动捕系统提供完美状态）的初步策略，操控真实无人机在赛道上飞行。在此过程中，同步记录机载传感器的观测数据以及来自动捕系统的精确位姿真值。然后，利用这些数据识别感知和动力学的残差特性。感知残差（即VIO等感知系统输出与真值之间的差异）被建模为高斯过程（Gaussian Process），以捕捉其随机性。动力学残差（即真实受力/扭矩与模拟模型预测值之间的差异）则使用k-最近邻回归进行确定性建模。最后，将这些数据驱动的残差模型整合到模拟器中，在增强后的、更贴近现实的模拟环境中对控制策略进行微调。这种方法有效弥补了“现实差距”（sim-to-real gap）。 4. 真实世界部署与竞赛评估： 研究在一个由职业无人机竞速飞行员设计的真实赛道上对Swift进行了全面评估。该赛道包含7个方形门框，布置在30m × 30m × 8m的空间内，单圈长度75米。Swift与三位人类冠军飞行员进行了头对头竞赛：2019年无人机竞速联盟世界冠军 Alex Vanover、两届MultiGP国际公开赛世界冠军 Thomas Bitmatta，以及三届瑞士全国冠军 Marvin Schaepper。竞赛使用重量、外形和推进系统相同的无人机。人类飞行员在比赛前有一周时间在赛道上练习。竞赛规则为两架无人机（一架由人操控，一架由Swift自主控制）同时从起点出发，率先完成三圈（按顺序穿过所有门框）者获胜。
主要结果： 1. 竞赛胜负结果： 在与三位人类冠军总共25场头对头竞赛中，Swift赢得了15场，胜率为60%。具体来看，对阵Vanover的9场比赛中胜5场，对阵Bitmatta的7场比赛中胜4场，对阵Schaepper的9场比赛中胜6场。Swift的10场失利中，40%是由于与对手碰撞，40%是由于撞上门框，20%是因为速度慢于人类飞行员。 2. 速度与性能分析： Swift创造了比赛期间最快的单场成绩（完成三圈17.465秒），比人类飞行员的最好成绩（Vanover的17.956秒）快了约半秒。在单圈时间比较中，Swift不仅最快圈速领先，其圈速的均值和中位数也低于所有人类飞行员，且方差更小，表明其性能更加稳定和一致。对最快飞行轨迹的分析显示，Swift在全程平均速度、平均推力、平均功率消耗等方面都达到了最高水平，说明它更持续地将无人机推向其物理极限。虽然在赛道的某些分段人类飞行员更快，但Swift在起点反应（平均快120毫秒）、加速以及诸如“Split S”等急转弯动作上具有明显优势。研究分析认为，Swift可能通过强化学习的价值函数在更长的时间尺度上优化轨迹，而人类飞行员通常只规划到下一个门框。 3. 方法有效性验证： 研究者通过模拟实验对比了Swift方法与几种基线方法（包括零-shot转移、域随机化以及基于预计算时间最优轨迹的模型预测控制方法）在不同仿真设定下的性能。在理想条件（完美动力学和真实状态观测）下，传统的最优控制方法表现最佳。然而，当引入噪声观测或不精确的动力学模型时，所有基线方法的性能急剧下降甚至无法完赛。而Swift凭借其数据驱动的残差模型，在所有设定下均能成功、稳定地完成比赛，仅产生微小的性能损失。这证明了其模拟到现实迁移策略的有效性和鲁棒性。 4. 系统优势与局限性： 文章分析了Swift相对于人类飞行员的潜在结构性优势，例如可以利用IMU数据（类似人类前庭系统，但FPV飞行员无法感知）、拥有更低的传感-运动延迟（Swift约40毫秒，人类专家约220毫秒）。同时，也指出了其局限性：Swift的相机刷新率（30Hz）低于人类飞行员通常使用的120Hz相机；系统未针对碰撞后恢复进行训练；其感知系统（特别是门框检测器）对环境外观（如光照）变化的鲁棒性不如人类飞行员，这限制了其在环境不可控的正式比赛中的应用。
结论与意义： 本研究成功地证明了一个完全依赖机载传感和计算的自主无人机系统，能够在真实世界的竞速运动中达到并超越人类世界冠军的水平。这标志着移动机器人和机器智能领域的一个重要里程碑。其科学价值在于提出并验证了一种高效的混合学习框架，将深度强化学习在模拟中的大规模策略搜索优势，与基于少量真实世界数据的残差建模相结合，有效解决了复杂物理系统中sim-to-real迁移的核心难题。该框架对于将学习型解决方案应用于其他物理系统（如自动驾驶车辆、飞行器、个人机器人等）具有重要的启发和借鉴意义。
研究亮点： 1. 开创性成果： 首次实现了自主移动机器人在一项流行的、对感知、决策和控制都要求极高的真实世界竞技体育中达到世界冠军级别性能。 2. 创新的方法学： 提出并实施了一套完整的“模拟训练 + 真实数据残差建模 + 微调”的混合学习工作流，特别是利用高斯过程和k-最近邻回归分别对感知和动力学残差进行非参数化建模，是实现高性能迁移的关键。 3. 严谨的评估： 研究设计非常严谨，不仅与多位顶级人类冠军进行多轮真实对抗赛，还进行了大量的模拟对照实验和详细的轨迹数据分析，全面评估了系统的性能、优势和不足。 4. 系统的完整性： 工作涵盖了从高保真模拟器开发、感知算法集成、强化学习策略训练、到最终在定制化无人机硬件上部署的完整链条，展示了端到端解决复杂机器人学问题的能力。
其他有价值的内容： 文章还包含了研究伦理声明（参与者知情同意）、数据与代码可用性说明（部分数据公开，但出于防范潜在滥用考虑，完整源代码不公开），以及三位人类飞行员在赛后对Swift系统的印象评价，从竞技者的角度提供了有趣的见解，例如他们认为Swift在“Split S”弯道表现决定性，其飞行展示了无人机的潜力，甚至可作为训练工具。这些内容增加了研究的层次和可读性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问