分享自:

具有稳定性保证的自动驾驶车辆安全强化学习运动规划

期刊:ieee transactions on neural networks and learning systemsDOI:10.1109/tnnls.2021.3084685

学术研究报告:自动驾驶车辆的安全强化学习与稳定性保障

1. 作者及发表信息

本文由Lixian Zhang(哈尔滨工业大学航天学院,IEEE Fellow)、Ruixian ZhangTong WuRui WengMinghao Han(IEEE学生会员)及Ye Zhao(佐治亚理工学院机械工程学院,IEEE会员)共同完成,发表于IEEE Transactions on Neural Networks and Learning Systems第32卷第12期(2021年12月)。研究获国家重点实验室、国家自然科学基金等多项资助。

2. 学术背景

研究领域:本文属于自动驾驶车辆运动规划安全强化学习(Safe Reinforcement Learning, Safe RL)的交叉领域。传统运动规划算法(如人工势场法、RRT*)在高维环境中表现受限,而强化学习(RL)虽在机器人控制中取得进展,但安全性问题(如避障稳定性)尚未完全解决。现有安全RL算法多依赖高精度传感器,硬件复杂度高且能耗大,难以适用于资源受限的自动驾驶平台。因此,本文提出了一种结合Lyapunov稳定性理论碰撞概率预测的新型安全RL算法(LSAC-CPP),旨在实现低功耗条件下的安全运动规划。

研究目标
1. 开发一种轻量化的碰撞概率预测方法,减少对多传感器的依赖;
2. 设计一种稳定性有理论保障的安全RL算法;
3. 在仿真与实物平台验证算法的避障成功率和稳定性。

3. 研究流程与方法

流程一:碰撞概率预测模型构建
- 研究对象:通过Gazebo仿真环境采集的272,000组数据(包括10维激光雷达数据、历史动作序列及碰撞标签)。
- 模型设计:使用全连接神经网络(输入为历史状态-动作序列,输出为碰撞概率),通过交叉熵损失函数训练。创新性引入时间窗口参数(Δ𝑡=4),对碰撞前若干帧数据标定为“危险”,提升模型保守性。
- 验证:测试集包含100,000组数据,模型准确率达90%(Δ𝑡=1时)。

流程二:风险敏感的SAC-CPP算法设计
- 基础框架:基于Soft Actor-Critic (SAC),引入风险敏感参数(Risk-Sensitivity Parameter, ξ),将碰撞概率加权到奖励函数中(公式16)。
- 改进点
1. 双重Q网络缓解值函数高估问题;
2. 动态调整学习率(初始值:Actor 1e-4,Critic 2e-4);
3. 通过早期停止技术防止过拟合。

流程三:Lyapunov稳定性保障(LSAC-CPP)
- 理论框架:扩展控制理论中的一致最终有界(UUB)稳定性,提出基于安全成本的UUB定义(图1)。通过Lyapunov函数(如二次型或累积安全成本)约束状态轨迹,确保系统从危险区域返回安全区域。
- 实现方法
1. 构建Lyapunov Critic网络,最小化目标函数(附录A.4);
2. 引入拉格朗日乘子动态调整策略熵与安全约束权重;
3. 使用边缘回放缓冲区(Edge Replay Buffer)存储高风险状态数据。

流程四:实验验证
- 环境:Gazebo仿真平台(15m×8m动态障碍物场景),使用差分驱动机器人Jackal(最大线速度1.0 m/s,角速度0.6 rad/s)。
- 对比算法:SAC、SAC-CPP(ξ=−15时最优)。
- 指标:成功率、平均回报、安全成本累积值。

4. 主要结果

  • 碰撞预测模型:在Δ𝑡=4时,模型表现出较高的保守性,误报率降低,适用于高风险场景(图5)。
  • SAC-CPP性能:训练1000轮后,平均成功率80%,优于SAC的75%(图7a)。ξ=−15时策略最佳,但初期训练效率较低(图7b)。
  • LSAC-CPP优势:收敛速度更快,平均回报更高(图8),且安全成本累积值为零(完全避障),理论保障了UUB稳定性。

5. 结论与价值

  • 科学价值
    1. 提出首个结合Lyapunov理论与模型无关RL的稳定性保障框架;
    2. 证明了数据驱动的Lyapunov函数在动态系统中的有效性。
  • 应用价值:适用于计算资源受限的自动驾驶平台(如物流机器人、无人机),推动安全RL在现实场景的落地。

6. 研究亮点

  • 方法创新
    1. 碰撞概率预测模型仅需稀疏激光雷达数据(10维),大幅降低硬件需求;
    2. LSAC-CPP首次将UUB稳定性引入CMDP(约束马尔可夫决策过程)问题。
  • 实验设计:通过ξ调节风险偏好,为安全RL的参数化设计提供范例。

7. 其他价值

  • 开源贡献:算法基于TensorFlow实现,代码结构可复现;
  • 跨领域意义:稳定性分析方法可延伸至机械臂控制、多智能体协同等领域。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com