分享自:

基于残差强化学习的极限操控下自动驾驶轨迹规划与运动控制

期刊:Advanced Engineering InformaticsDOI:10.1016/j.aei.2022.101754

自动驾驶车辆在操控极限下的轨迹规划与运动控制:基于残差强化学习的新方法

作者与机构
本研究的通讯作者为清华大学车辆与运载学院、汽车安全与节能国家重点实验室的Junzhi Zhang(张俊智),合作者包括Xiaohui Hou(侯晓辉)、Chengkun He(何承坤)、Yuan Ji(纪元)、Junfeng Zhang(张俊峰)、Jinheng Han(韩金恒)。研究成果发表于期刊《Advanced Engineering Informatics》2022年第54卷。

学术背景
自动驾驶技术在Level 5(完全自动驾驶)场景下需具备在车辆动力学极限(如轮胎附着极限)下安全操控的能力,而传统的高级驾驶辅助系统(ADAS)因过于保守而无法满足极端工况需求。赛车运动中,专业车手通过主动控制使车辆持续处于牵引力极限状态,这为自动驾驶的轨迹规划与运动控制提供了重要参考。然而,传统基于模型的算法(如曲线拟合、数值优化)难以精确处理复杂多变的赛道条件及高度非线性的车辆动力学问题。为此,研究提出结合模型驱动方法、无模型强化学习(Reinforcement Learning, RL)与专家先验知识的新型控制框架,旨在提升自动驾驶车辆在极限工况下的速度与圈速表现。

研究流程与方法
1. 虚拟平台与数据采集
研究采用专业赛车模拟软件“rFactor 2”构建高保真仿真环境,其物理引擎包含精确的底盘、轮胎及空气动力学模型。通过驾驶员在环(DIL)实验采集专业车手的操作数据(转向角、车速、轮胎力等),采样频率为10 Hz。数据用于构建专家演示数据集,并作为残差强化学习的先验知识。

  1. 车辆动力学建模
    建立三自由度(3-DOF)双轨车辆模型,结合Pacejka轮胎模型与摩擦圆约束描述非线性轮胎特性。通过神经网络学习未建模的动态残差项(如气动效应),使模型与rFactor 2的高保真仿真结果一致(纵向速度、横向速度、横摆角速度误差均小于5%)。

  2. 分层控制框架

    • 上层控制器(残差强化学习)
      采用Soft Actor-Critic(SAC)算法,以纵向/横向加速度为中间控制变量。动作空间为对专家基础策略的修正量(δax, δay),状态空间包括车辆运动状态(如位置、速度、横摆角)及专家策略参数。奖励函数设计融入了赛车实战经验,如路径跟踪偏差、速度奖励、G-G图边界利用等。
    • 下层执行器控制
      通过前馈-反馈控制器跟踪上层指令,调节驱动扭矩与前轮转向角。
  3. 训练与验证
    在三种不同难度赛道(Wakefield Park、NOLA、Atlanta)上进行训练,采用迁移学习策略:先在简单赛道学习基础驾驶技能,再迁移至复杂赛道。对比实验包括:

    • 参考轨迹:专业车手操作的轨迹。
    • 训练轨迹:基于残差RL优化后的轨迹。

主要结果
1. 性能提升
- Wakefield赛道:训练轨迹较参考轨迹圈速缩短1.6秒(2.6%),且操作点更接近G-G图边界(图14)。
- NOLA赛道:圈速提升4.9秒(4.75%),关键弯道出口速度提高15%(如Corner 2出口速度从150.9 km/h增至166.5 km/h)。
- 结果表明,残差RL能有效优化专家策略,使车辆更充分利用动力学极限。

  1. 关键驾驶技巧

    • 提前加速策略:训练轨迹在弯道中段即开始加速,以最大化出口速度(如Wakefield的Corner 4出口速度提升9.4 km/h)。
    • 动态平衡:在直线与弯道的耦合区域(如NOLA的Corner 3),通过调整纵向/横向加速度分配,实现整体圈速最优。
  2. 算法优势
    对比无专家策略辅助的SAC算法,残差RL收敛更快且最终奖励更高(图12),证明结合先验知识可缩小探索范围并提升训练效率。

结论与价值
1. 科学价值
- 首次将残差强化学习应用于车辆极限操控领域,提出分层控制框架,解决了传统方法难以建模高度非线性动力学的问题。
- 证明了专家经验与数据驱动方法的协同优势,为复杂控制问题提供了新思路。

  1. 应用价值
    • 可扩展至日常驾驶的极端场景(如低附着路面、紧急避障)。
    • 为自动驾驶赛道测试提供了高效训练工具,缩短算法开发周期。

研究亮点
1. 方法创新
- 结合模型驱动、RL与专家知识的混合框架,显著降低训练复杂度。
- 奖励函数设计引入专业车手实战经验(如弯道优先级划分、G-G图边界利用)。

  1. 验证全面性
    • 在多样化的真实赛道场景中验证算法泛化能力,迁移学习策略减少复杂赛道的训练难度。

其他发现
研究还揭示了极限操控下车辆状态与执行器操作的动态耦合关系(如转向角与驱动扭矩的协同优化),为后续研究提供了数据支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com