自动驾驶车辆在操控极限下的轨迹规划与运动控制:基于残差强化学习的新方法
作者与机构
本研究的通讯作者为清华大学车辆与运载学院、汽车安全与节能国家重点实验室的Junzhi Zhang(张俊智),合作者包括Xiaohui Hou(侯晓辉)、Chengkun He(何承坤)、Yuan Ji(纪元)、Junfeng Zhang(张俊峰)、Jinheng Han(韩金恒)。研究成果发表于期刊《Advanced Engineering Informatics》2022年第54卷。
学术背景
自动驾驶技术在Level 5(完全自动驾驶)场景下需具备在车辆动力学极限(如轮胎附着极限)下安全操控的能力,而传统的高级驾驶辅助系统(ADAS)因过于保守而无法满足极端工况需求。赛车运动中,专业车手通过主动控制使车辆持续处于牵引力极限状态,这为自动驾驶的轨迹规划与运动控制提供了重要参考。然而,传统基于模型的算法(如曲线拟合、数值优化)难以精确处理复杂多变的赛道条件及高度非线性的车辆动力学问题。为此,研究提出结合模型驱动方法、无模型强化学习(Reinforcement Learning, RL)与专家先验知识的新型控制框架,旨在提升自动驾驶车辆在极限工况下的速度与圈速表现。
研究流程与方法
1. 虚拟平台与数据采集
研究采用专业赛车模拟软件“rFactor 2”构建高保真仿真环境,其物理引擎包含精确的底盘、轮胎及空气动力学模型。通过驾驶员在环(DIL)实验采集专业车手的操作数据(转向角、车速、轮胎力等),采样频率为10 Hz。数据用于构建专家演示数据集,并作为残差强化学习的先验知识。
车辆动力学建模
建立三自由度(3-DOF)双轨车辆模型,结合Pacejka轮胎模型与摩擦圆约束描述非线性轮胎特性。通过神经网络学习未建模的动态残差项(如气动效应),使模型与rFactor 2的高保真仿真结果一致(纵向速度、横向速度、横摆角速度误差均小于5%)。
分层控制框架
训练与验证
在三种不同难度赛道(Wakefield Park、NOLA、Atlanta)上进行训练,采用迁移学习策略:先在简单赛道学习基础驾驶技能,再迁移至复杂赛道。对比实验包括:
主要结果
1. 性能提升
- Wakefield赛道:训练轨迹较参考轨迹圈速缩短1.6秒(2.6%),且操作点更接近G-G图边界(图14)。
- NOLA赛道:圈速提升4.9秒(4.75%),关键弯道出口速度提高15%(如Corner 2出口速度从150.9 km/h增至166.5 km/h)。
- 结果表明,残差RL能有效优化专家策略,使车辆更充分利用动力学极限。
关键驾驶技巧
算法优势
对比无专家策略辅助的SAC算法,残差RL收敛更快且最终奖励更高(图12),证明结合先验知识可缩小探索范围并提升训练效率。
结论与价值
1. 科学价值
- 首次将残差强化学习应用于车辆极限操控领域,提出分层控制框架,解决了传统方法难以建模高度非线性动力学的问题。
- 证明了专家经验与数据驱动方法的协同优势,为复杂控制问题提供了新思路。
研究亮点
1. 方法创新
- 结合模型驱动、RL与专家知识的混合框架,显著降低训练复杂度。
- 奖励函数设计引入专业车手实战经验(如弯道优先级划分、G-G图边界利用)。
其他发现
研究还揭示了极限操控下车辆状态与执行器操作的动态耦合关系(如转向角与驱动扭矩的协同优化),为后续研究提供了数据支持。