本文由Lixian Zhang(哈尔滨工业大学航天学院,IEEE Fellow)、Ruixian Zhang、Tong Wu、Rui Weng、Minghao Han(IEEE学生会员)及Ye Zhao(佐治亚理工学院机械工程学院,IEEE会员)共同完成,发表于IEEE Transactions on Neural Networks and Learning Systems第32卷第12期(2021年12月)。研究获国家重点实验室、国家自然科学基金等多项资助。
研究领域:本文属于自动驾驶车辆运动规划与安全强化学习(Safe Reinforcement Learning, Safe RL)的交叉领域。传统运动规划算法(如人工势场法、RRT*)在高维环境中表现受限,而强化学习(RL)虽在机器人控制中取得进展,但安全性问题(如避障稳定性)尚未完全解决。现有安全RL算法多依赖高精度传感器,硬件复杂度高且能耗大,难以适用于资源受限的自动驾驶平台。因此,本文提出了一种结合Lyapunov稳定性理论与碰撞概率预测的新型安全RL算法(LSAC-CPP),旨在实现低功耗条件下的安全运动规划。
研究目标:
1. 开发一种轻量化的碰撞概率预测方法,减少对多传感器的依赖;
2. 设计一种稳定性有理论保障的安全RL算法;
3. 在仿真与实物平台验证算法的避障成功率和稳定性。
流程一:碰撞概率预测模型构建
- 研究对象:通过Gazebo仿真环境采集的272,000组数据(包括10维激光雷达数据、历史动作序列及碰撞标签)。
- 模型设计:使用全连接神经网络(输入为历史状态-动作序列,输出为碰撞概率),通过交叉熵损失函数训练。创新性引入时间窗口参数(Δ𝑡=4),对碰撞前若干帧数据标定为“危险”,提升模型保守性。
- 验证:测试集包含100,000组数据,模型准确率达90%(Δ𝑡=1时)。
流程二:风险敏感的SAC-CPP算法设计
- 基础框架:基于Soft Actor-Critic (SAC),引入风险敏感参数(Risk-Sensitivity Parameter, ξ),将碰撞概率加权到奖励函数中(公式16)。
- 改进点:
1. 双重Q网络缓解值函数高估问题;
2. 动态调整学习率(初始值:Actor 1e-4,Critic 2e-4);
3. 通过早期停止技术防止过拟合。
流程三:Lyapunov稳定性保障(LSAC-CPP)
- 理论框架:扩展控制理论中的一致最终有界(UUB)稳定性,提出基于安全成本的UUB定义(图1)。通过Lyapunov函数(如二次型或累积安全成本)约束状态轨迹,确保系统从危险区域返回安全区域。
- 实现方法:
1. 构建Lyapunov Critic网络,最小化目标函数(附录A.4);
2. 引入拉格朗日乘子动态调整策略熵与安全约束权重;
3. 使用边缘回放缓冲区(Edge Replay Buffer)存储高风险状态数据。
流程四:实验验证
- 环境:Gazebo仿真平台(15m×8m动态障碍物场景),使用差分驱动机器人Jackal(最大线速度1.0 m/s,角速度0.6 rad/s)。
- 对比算法:SAC、SAC-CPP(ξ=−15时最优)。
- 指标:成功率、平均回报、安全成本累积值。