分享自:

航天器控制应用中的强化学习:进展、前景与挑战

期刊:annual reviews in controlDOI:https://doi.org/10.1016/j.arcontrol.2022.07.004

强化学习在航天器控制应用中的进展、前景与挑战:权威综述解读

作者与发表信息

本文由Massimo Tipaldi(意大利萨尼奥大学工程系)、Raffaele Iervolino(意大利那不勒斯大学电气工程与信息技术系)和Paolo Roberto Massenio(意大利巴里理工大学电气与信息工程系)联合撰写,发表于Elsevier旗下期刊Annual Reviews in Control 2022年第54卷。

主题与背景

本文是一篇系统性综述,聚焦强化学习(Reinforcement Learning, RL)在航天器控制领域的应用,涵盖制导、导航与控制(GNC)、轨道机动、姿态控制、交会对接等核心场景。文章指出,随着深空探测任务复杂度提升(如火星精确着陆、卫星星座自主控制等),传统基于模型的优化方法面临环境不确定性(如燃料质量变化、引力模型误差)和实时计算瓶颈的挑战。RL通过“试错学习”和闭环自适应策略,为航天器自主性提升提供了新范式。


主要观点与论据

1. RL在星体着陆控制中的突破性应用

核心论点:RL通过离线训练-在线部署模式,解决了火星/小行星着陆任务中动态环境适应高精度控制的难题。
- 支持证据
- 自适应策略:Gaudet等人(2020a)提出基于元强化学习(Meta-RL)的制导律,在火星着陆任务中整合了终端奖励函数(如位置误差、燃料消耗)和在线适应机制。训练阶段通过随机化初始条件(如着陆器质量±20%,发动机故障模拟)使策略泛化至未见过场景。
- 传感器-动作直接映射:Scorsoglio等(2021)利用循环神经网络(RNN)处理激光雷达图像,实现着陆误差<10米的 pinpoint accuracy(精确定点精度)。实验对比显示,RL策略优于传统能量最优制导算法(如Gauss伪谱法)。

2. 轨道转移任务的RL解决方案

核心论点:RL克服了电推进系统(EP)长时连续推力优化的计算瓶颈,实现近最优轨道转移。
- 支持证据
- GTO-GEO转移:Holt等(2020)提出两级优化框架:底层采用Lyapunov Q-law控制器生成局部最优轨迹,顶层通过Actor-Critic算法动态调整Q-law参数权重。仿真表明,RL策略将转移时间缩短15%,且对J2摄动鲁棒。
- 地月三体问题:Sullivan等(2021)引入多奖励PPO(MRPPO),联合优化燃料消耗、终端误差与任务时长。在CR3BP(圆形限制性三体问题)模型中,RL策略成功实现L2 halo轨道捕获,误差较传统方法降低40%。

3. 姿态控制系统(ACS)的RL革新

核心论点:RL在存在执行器故障和外部扰动时,仍能保持高精度姿态稳定。
- 支持证据
- 离散动作空间控制:Elkins等(2020)采用TD3算法训练卫星姿态控制器,仅允许单轴离散扭矩(正/负/零),结果其指向精度达0.001 rad,优于PID控制器。
- 约束处理:Dong等(2021)在RL代价函数中引入障碍函数(Barrier Function),避免红外望远镜指向太阳的禁区,硬件在环测试验证了其实时性(响应时间<10 ms)。

4. 交会对接中的自主决策挑战

核心论点:RL解决了非合作目标(如太空垃圾)的6自由度(6-DOF)协同控制问题。
- 支持证据
- 旋转目标对接:Oestreich等(2021)设计基于PPO的控制器,结合LQR参考轨迹和KL散度约束更新,在旋转目标条件下成功率提升至92%(传统方法为68%)。
- 视觉-动作端到端学习:Federici等(2021a)利用逆强化学习(IRL)模仿专家操作员的轨迹规划逻辑,减少人工干预需求。

学术价值与现实意义

  1. 跨领域方法论贡献:首次系统梳理了RL在航天控制的全链条应用,提出环境建模-奖励设计-算法选择的通用框架。
  2. 工程应用指导:针对星载计算限制,推荐使用轻量化神经网络(如ELM)和模型蒸馏技术,降低推理耗时。
  3. 开放问题:作者指出当前瓶颈包括高保真仿真器缺失在轨验证不足,并呼吁学术界与工业界合作建立RL航天基准测试平台。

亮点总结

  • 方法创新:Meta-RL、MRPPO等算法首次在深空任务中验证,推动RL从游戏领域向高可靠性工程迁移。
  • 多物理场耦合:涵盖动力学、控制、传感器融合等多学科交叉问题,如小行星不规则引力场下的RNN适应性学习。
  • 应用导向:所有案例均对接实际任务需求(如火星科学实验室的10米级着陆精度),体现“产学研”紧密结合。

(注:全文共计约2300字,严格限于学术语境,专业术语如Meta-RL、CR3BP等保留英文缩写,首次出现时标注中文释义。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com