基于残差强化学习的极限操控下自动驾驶轨迹规划与运动控制

分享自：

基于残差强化学习的极限操控下自动驾驶轨迹规划与运动控制

交通与运载工程

工程学

信息科学

人工智能

计算机科学

期刊:Advanced Engineering InformaticsDOI:10.1016/j.aei.2022.101754

【点击此处】阅读全文、收藏及针对性提问

自动驾驶车辆在操控极限下的轨迹规划与运动控制：基于残差强化学习的新方法
作者与机构
 本研究的通讯作者为清华大学车辆与运载学院、汽车安全与节能国家重点实验室的Junzhi Zhang（张俊智），合作者包括Xiaohui Hou（侯晓辉）、Chengkun He（何承坤）、Yuan Ji（纪元）、Junfeng Zhang（张俊峰）、Jinheng Han（韩金恒）。研究成果发表于期刊《Advanced Engineering Informatics》2022年第54卷。
学术背景
 自动驾驶技术在Level 5（完全自动驾驶）场景下需具备在车辆动力学极限（如轮胎附着极限）下安全操控的能力，而传统的高级驾驶辅助系统（ADAS）因过于保守而无法满足极端工况需求。赛车运动中，专业车手通过主动控制使车辆持续处于牵引力极限状态，这为自动驾驶的轨迹规划与运动控制提供了重要参考。然而，传统基于模型的算法（如曲线拟合、数值优化）难以精确处理复杂多变的赛道条件及高度非线性的车辆动力学问题。为此，研究提出结合模型驱动方法、无模型强化学习（Reinforcement Learning, RL）与专家先验知识的新型控制框架，旨在提升自动驾驶车辆在极限工况下的速度与圈速表现。
研究流程与方法
 1. 虚拟平台与数据采集
 研究采用专业赛车模拟软件“rFactor 2”构建高保真仿真环境，其物理引擎包含精确的底盘、轮胎及空气动力学模型。通过驾驶员在环（DIL）实验采集专业车手的操作数据（转向角、车速、轮胎力等），采样频率为10 Hz。数据用于构建专家演示数据集，并作为残差强化学习的先验知识。
车辆动力学建模
 建立三自由度（3-DOF）双轨车辆模型，结合Pacejka轮胎模型与摩擦圆约束描述非线性轮胎特性。通过神经网络学习未建模的动态残差项（如气动效应），使模型与rFactor 2的高保真仿真结果一致（纵向速度、横向速度、横摆角速度误差均小于5%）。
分层控制框架
上层控制器（残差强化学习）：
 采用Soft Actor-Critic（SAC）算法，以纵向/横向加速度为中间控制变量。动作空间为对专家基础策略的修正量（δax, δay），状态空间包括车辆运动状态（如位置、速度、横摆角）及专家策略参数。奖励函数设计融入了赛车实战经验，如路径跟踪偏差、速度奖励、G-G图边界利用等。
 
下层执行器控制：
 通过前馈-反馈控制器跟踪上层指令，调节驱动扭矩与前轮转向角。
 
训练与验证
 在三种不同难度赛道（Wakefield Park、NOLA、Atlanta）上进行训练，采用迁移学习策略：先在简单赛道学习基础驾驶技能，再迁移至复杂赛道。对比实验包括：
参考轨迹：专业车手操作的轨迹。
 
训练轨迹：基于残差RL优化后的轨迹。
 
主要结果
 1. 性能提升
 - Wakefield赛道：训练轨迹较参考轨迹圈速缩短1.6秒（2.6%），且操作点更接近G-G图边界（图14）。
 - NOLA赛道：圈速提升4.9秒（4.75%），关键弯道出口速度提高15%（如Corner 2出口速度从150.9 km/h增至166.5 km/h）。
 - 结果表明，残差RL能有效优化专家策略，使车辆更充分利用动力学极限。
关键驾驶技巧
提前加速策略：训练轨迹在弯道中段即开始加速，以最大化出口速度（如Wakefield的Corner 4出口速度提升9.4 km/h）。
 
动态平衡：在直线与弯道的耦合区域（如NOLA的Corner 3），通过调整纵向/横向加速度分配，实现整体圈速最优。
 
算法优势
 对比无专家策略辅助的SAC算法，残差RL收敛更快且最终奖励更高（图12），证明结合先验知识可缩小探索范围并提升训练效率。
结论与价值
 1. 科学价值
 - 首次将残差强化学习应用于车辆极限操控领域，提出分层控制框架，解决了传统方法难以建模高度非线性动力学的问题。
 - 证明了专家经验与数据驱动方法的协同优势，为复杂控制问题提供了新思路。
应用价值
 可扩展至日常驾驶的极端场景（如低附着路面、紧急避障）。
 
为自动驾驶赛道测试提供了高效训练工具，缩短算法开发周期。
 
研究亮点
 1. 方法创新
 - 结合模型驱动、RL与专家知识的混合框架，显著降低训练复杂度。
 - 奖励函数设计引入专业车手实战经验（如弯道优先级划分、G-G图边界利用）。
验证全面性
 在多样化的真实赛道场景中验证算法泛化能力，迁移学习策略减少复杂赛道的训练难度。
 
其他发现
 研究还揭示了极限操控下车辆状态与执行器操作的动态耦合关系（如转向角与驱动扭矩的协同优化），为后续研究提供了数据支持。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问