具有稳定性保证的自动驾驶车辆安全强化学习运动规划

分享自：

具有稳定性保证的自动驾驶车辆安全强化学习运动规划

自动化

工程学

信息科学

人工智能

计算机科学

期刊:ieee transactions on neural networks and learning systemsDOI:10.1109/tnnls.2021.3084685

【点击此处】阅读全文、收藏及针对性提问

学术研究报告：自动驾驶车辆的安全强化学习与稳定性保障1. 作者及发表信息本文由Lixian Zhang（哈尔滨工业大学航天学院，IEEE Fellow）、Ruixian Zhang、Tong Wu、Rui Weng、Minghao Han（IEEE学生会员）及Ye Zhao（佐治亚理工学院机械工程学院，IEEE会员）共同完成，发表于IEEE Transactions on Neural Networks and Learning Systems第32卷第12期（2021年12月）。研究获国家重点实验室、国家自然科学基金等多项资助。
2. 学术背景研究领域：本文属于自动驾驶车辆运动规划与安全强化学习（Safe Reinforcement Learning, Safe RL）的交叉领域。传统运动规划算法（如人工势场法、RRT*）在高维环境中表现受限，而强化学习（RL）虽在机器人控制中取得进展，但安全性问题（如避障稳定性）尚未完全解决。现有安全RL算法多依赖高精度传感器，硬件复杂度高且能耗大，难以适用于资源受限的自动驾驶平台。因此，本文提出了一种结合Lyapunov稳定性理论与碰撞概率预测的新型安全RL算法（LSAC-CPP），旨在实现低功耗条件下的安全运动规划。
研究目标：
 1. 开发一种轻量化的碰撞概率预测方法，减少对多传感器的依赖；
 2. 设计一种稳定性有理论保障的安全RL算法；
 3. 在仿真与实物平台验证算法的避障成功率和稳定性。
3. 研究流程与方法流程一：碰撞概率预测模型构建
 - 研究对象：通过Gazebo仿真环境采集的272,000组数据（包括10维激光雷达数据、历史动作序列及碰撞标签）。
 - 模型设计：使用全连接神经网络（输入为历史状态-动作序列，输出为碰撞概率），通过交叉熵损失函数训练。创新性引入时间窗口参数（Δ𝑡=4），对碰撞前若干帧数据标定为“危险”，提升模型保守性。
 - 验证：测试集包含100,000组数据，模型准确率达90%（Δ𝑡=1时）。
流程二：风险敏感的SAC-CPP算法设计
 - 基础框架：基于Soft Actor-Critic (SAC)，引入风险敏感参数（Risk-Sensitivity Parameter, ξ），将碰撞概率加权到奖励函数中（公式16）。
 - 改进点：
 1. 双重Q网络缓解值函数高估问题；
 2. 动态调整学习率（初始值：Actor 1e-4，Critic 2e-4）；
 3. 通过早期停止技术防止过拟合。
流程三：Lyapunov稳定性保障（LSAC-CPP）
 - 理论框架：扩展控制理论中的一致最终有界（UUB）稳定性，提出基于安全成本的UUB定义（图1）。通过Lyapunov函数（如二次型或累积安全成本）约束状态轨迹，确保系统从危险区域返回安全区域。
 - 实现方法：
 1. 构建Lyapunov Critic网络，最小化目标函数（附录A.4）；
 2. 引入拉格朗日乘子动态调整策略熵与安全约束权重；
 3. 使用边缘回放缓冲区（Edge Replay Buffer）存储高风险状态数据。
流程四：实验验证
 - 环境：Gazebo仿真平台（15m×8m动态障碍物场景），使用差分驱动机器人Jackal（最大线速度1.0 m/s，角速度0.6 rad/s）。
 - 对比算法：SAC、SAC-CPP（ξ=−15时最优）。
 - 指标：成功率、平均回报、安全成本累积值。
4. 主要结果碰撞预测模型：在Δ𝑡=4时，模型表现出较高的保守性，误报率降低，适用于高风险场景（图5）。
 
SAC-CPP性能：训练1000轮后，平均成功率80%，优于SAC的75%（图7a）。ξ=−15时策略最佳，但初期训练效率较低（图7b）。
 
LSAC-CPP优势：收敛速度更快，平均回报更高（图8），且安全成本累积值为零（完全避障），理论保障了UUB稳定性。
 
5. 结论与价值科学价值：
 提出首个结合Lyapunov理论与模型无关RL的稳定性保障框架；
 
证明了数据驱动的Lyapunov函数在动态系统中的有效性。
 
应用价值：适用于计算资源受限的自动驾驶平台（如物流机器人、无人机），推动安全RL在现实场景的落地。
 
6. 研究亮点方法创新：
 碰撞概率预测模型仅需稀疏激光雷达数据（10维），大幅降低硬件需求；
 
LSAC-CPP首次将UUB稳定性引入CMDP（约束马尔可夫决策过程）问题。
 
实验设计：通过ξ调节风险偏好，为安全RL的参数化设计提供范例。
 
7. 其他价值开源贡献：算法基于TensorFlow实现，代码结构可复现；
 
跨领域意义：稳定性分析方法可延伸至机械臂控制、多智能体协同等领域。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问