基于强化学习的自动驾驶速度控制:一项追求安全、高效与舒适的研究报告
一、 研究团队与发表信息
本研究的主要作者包括Meixin Zhu(同济大学/华盛顿大学)、Yinhai Wang(华盛顿大学,通讯作者)、Ziyuan Pu(华盛顿大学)、Jingyun Hu(华盛顿大学)、Xuesong Wang(同济大学,通讯作者)以及Ruimin Ke(华盛顿大学)。该研究以题为“Safe, efficient, and comfortable velocity control based on reinforcement learning for autonomous driving”的论文形式,发表于2020年的期刊 *Transportation Research Part C*(第117卷)。
二、 学术背景与研究目标
本研究属于智能交通系统与自动驾驶领域,具体聚焦于自动驾驶汽车在跟车场景下的纵向速度控制问题。跟车是驾驶中最频繁发生的场景之一,其核心任务是控制自车速度,以保持与前车的安全、舒适距离。传统的跟车模型主要分为两类:基于规则的方法(如智能驾驶员模型IDM)和基于监督学习的方法。然而,这两种方法本质上都是在模仿人类驾驶行为。
研究者指出,单纯模仿人类驾驶并非自动驾驶的最佳解决方案。首先,用户可能不希望自动驾驶汽车完全模仿自己的驾驶方式;其次,人类驾驶行为本身可能并非最优,驾驶应围绕安全、效率和舒适性等核心目标进行优化。因此,本研究旨在超越模仿学习,直接优化这些驾驶性能指标。
为此,研究团队提出了一个基于强化学习(Reinforcement Learning, RL)的自动驾驶跟车速度控制模型。强化学习的核心思想是智能体通过与环境的试错交互来学习最优策略,非常适合用于序列决策优化问题。本研究的具体目标是:开发一个基于深度强化学习的控制器,使其在跟车过程中能够自主学会如何平衡安全、效率和舒适性,并最终在性能上超越人类驾驶员和传统的模型预测控制(Model Predictive Control, MPC)方法。
三、 详细研究流程与方法
本研究的工作流程主要包括数据准备、奖励函数设计、强化学习算法构建与训练、安全策略整合、基准模型建立以及性能评估等多个环节。
1. 数据准备与研究对象 研究使用了来自下一代仿真(Next Generation Simulation, Ngsim)项目的真实世界车辆轨迹数据。数据采集于加州埃默里维尔80号州际公路东行方向,包含三个15分钟时段(下午4:00-4:15,5:00-5:15,5:15-5:30)的交通流,涵盖了从畅通到拥堵的不同状态。数据采样频率为10赫兹,提供了每辆车的精确位置信息。为提高数据质量,研究采用了经过重建的Ngsim I-80数据集。
研究者从数据中提取了“跟车事件”。一个跟车事件被定义为前车与后车保持在同一车道、且持续时间超过15秒的连续过程。通过应用跟车过滤器,最终从数据集中提取了总计1,341个独立的跟车事件。这些事件构成了训练和测试强化学习智能体的“环境”。其中,70%(938个事件)用于训练模型,剩余的30%(403个事件)用于测试模型性能。
2. 奖励函数特征设计 奖励函数是引导强化学习智能体学习方向的关键。本研究没有直接模仿人类驾驶数据,而是设计了一个多目标奖励函数,直接优化安全、效率和舒适性。
最终的奖励函数是上述三个特征的线性加权和(权重均设为1),即 R = f_ttc + f_headway + f_jerk。通过最大化累积奖励,智能体被引导去同时追求高TTC(安全)、理想车头时距(效率)和低Jerk(舒适)。
3. 强化学习模型与安全策略 由于车辆加速度是连续动作,研究采用了适用于连续控制任务的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法。DDPG是一种演员-评论家(Actor-Critic)算法,包含两个神经网络: * 演员网络(Actor Network):输入是当前状态(自车速度、相对速度、车间距),输出是自车的加速度动作。 * 评论家网络(Critic Network):输入是状态-动作对,输出一个Q值,用于评估该动作在给定状态下的长期价值,并指导演员网络的更新。
为了确保训练和部署过程中的绝对安全,研究者将RL模型与一个基于运动学的防碰撞策略相结合。该策略计算了一个安全距离阈值d_safe,其基于前车突然紧急制动时,后车能在其最大减速度下安全停住所需的最小距离。在每一步,如果实际车间距小于d_safe,系统将覆盖RL模型输出的加速度,强制施加一个最大减速度(-3 m/s²)以避免碰撞;否则,则执行RL模型输出的动作。这一策略的引入不仅保证了零碰撞,还加速了训练过程的收敛。
4. 训练过程与基准模型 训练在一个简化的数值仿真环境中进行。环境以前车的真实轨迹(来自Ngsim数据)作为外部输入,后车(FV)则由DDPG智能体控制。状态根据运动学点质量模型更新。智能体在随机打乱的938个训练事件中反复进行试错学习,共进行了3000个训练周期(每个周期为一个跟车事件)。网络采用Adam优化器更新,并设置了经验回放缓冲区、目标网络等稳定训练的技巧。
为了进行性能对比,研究还实现了一个基于模型预测控制(MPC)的自适应巡航控制(ACC)算法作为基准。该MPC控制器在每个时间步求解一个有限时域的最优控制问题,目标是在满足安全距离(设定为1.2秒恒定车头时距)、速度和非负加速度等约束的前提下,最小化与期望距离的跟踪误差、相对速度和Jerk。
5. 性能评估与数据分析 在测试阶段,使用403个未参与训练的跟车事件来评估训练好的DDPG模型、MPC基准模型以及原始Ngsim人类驾驶员数据的性能。评估指标直接对应于奖励函数的目标: * 安全性:比较三者在所有时间步上的TTC累积分布。 * 效率:比较三者的车头时距累积分布。 * 舒适性:比较三者的Jerk绝对值累积分布。 此外,还通过具体案例的轨迹图(速度、间距、TTC、加速度、Jerk随时间变化)进行直观对比,并统计了模型运行时间。
四、 主要研究结果
1. 安全性结果:DDPG模型产生的跟车行为,其TTC值整体上显著高于人类驾驶员和MPC基准算法。这意味着DDPG模型保持了更大的安全裕度。在整个训练和测试过程中,得益于集成的防碰撞策略,DDPG模型实现了零碰撞。
2. 效率结果:DDPG模型和MPC算法都将车头时距稳定地维持在1.2秒左右(平均值分别为1.24秒和1.23秒),且分布范围很窄。而人类驾驶员的车头时距分布则非常分散(0-6秒),既包含低于1秒的危险跟车,也包含远大于3秒的低效跟车。这表明DDPG模型能够实现高效且安全的跟车。
3. 舒适性结果:DDPG模型和MPC算法产生的Jerk值远低于人类驾驶员。人类驾驶员的平均Jerk为1.73 m/s³,而DDPG模型和MPC算法分别为0.63 m/s³和0.70 m/s³。这表明DDPG模型能够以前所未有的平顺度控制车辆加速度,显著提升了乘坐舒适性。
4. 综合性能与优势:案例轨迹图清晰显示,在人类驾驶员出现TTC极低或Jerk剧烈波动的时段,DDPG模型仍能保持较大的TTC和平滑的加速度。与MPC基准相比,DDPG模型在安全性和舒适性上略优,但其最大优势在于运行速度。在测试403个事件时,DDPG模型的总运行时间为20.7秒(平均每个事件0.05秒),而MPC算法需要5305.9秒(平均每个事件13.17秒),DDPG模型快了超过200倍。这是因为MPC需要在每个时间步(0.1秒)在线求解一个优化问题,计算负担重;而DDPG模型训练好后,只需通过前向传播的神经网络即可瞬时输出动作。此外,MPC有时可能无法找到优化问题的可行解,导致控制失败,而DDPG模型不存在此问题,且内置了安全后备策略。
五、 结论与研究价值
本研究成功地将深度强化学习应用于真实世界驾驶数据,开发了一个用于自动驾驶跟车速度控制的多目标优化框架。研究结论表明,所提出的基于DDPG的模型能够实现安全、高效且舒适的驾驶,其综合性能显著超越了人类驾驶员。与传统的基于优化的MPC方法相比,该模型在保持相当甚至更优性能的同时,具备了实时部署的巨大潜力。
该研究的科学价值在于:1)为自动驾驶决策规划提供了一种基于学习、直接优化高层驾驶目标(而非模仿)的新范式;2)证明了将强化学习与经典安全规则(防碰撞策略)相结合的有效性,为解决强化学习在安全关键应用中探索风险高的问题提供了实用方案;3)设计了一个融合多维度驾驶特征的奖励函数,为构建更复杂的驾驶目标函数提供了参考。
其应用价值在于:所开发的模型框架和训练方法可以直接用于自动驾驶系统的跟车控制器开发,为实现更优的驾乘体验和交通流效率提升提供了技术路径。
六、 研究亮点
七、 其他有价值的延伸
研究在讨论部分指出了未来可能的改进方向:1)在奖励函数中加入更多目标,如节能驾驶;2)调整奖励函数中各目标的权重,以反映不同用户的个性化偏好;3)采用更复杂的非线性奖励函数形式;4)采用优先级经验回放(Prioritized Experience Replay)等更先进的学习机制来提升采样效率和最终性能。这些方向为后续研究提供了清晰的路线图。