分享自:

29.大型语言模型引导的深度强化学习用于安全自动驾驶决策

期刊:transportation research part cDOI:10.1016/j.trc.2025.105511

本文研究的主要作者是来自北京理工大学的Hao PangZhenpo Wang以及通讯作者Guoqiang Li。他们的研究成果以题为《Large Language Model Guided Deep Reinforcement Learning for Safe Autonomous Vehicle Decision Making》的论文形式,发表于Elsevier旗下的期刊 Transportation Research Part C,网络发表于2026年1月12日,属于该期刊第184卷,文章编号为105511。

学术背景与研究动机

本研究的科学领域属于智能交通与人工智能交叉领域,具体聚焦于自动驾驶汽车(Autonomous Vehicle, AV)的行为决策系统。随着自动驾驶技术的快速发展,车辆需要具备在复杂、动态的多智能体交通环境中进行安全、高效决策的能力。深度强化学习(Deep Reinforcement Learning, DRL)因其在处理高维复杂问题上的潜力,已成为该领域的研究热点。

然而,DRL在实际应用中面临两大核心挑战:一是学习效率低下。传统DRL方法需要在环境中进行大量交互试错,而在复杂的驾驶场景中,成功轨迹(即安全完成任务的序列)难以获取,严重阻碍了策略优化过程,最终可能导致决策策略性能不佳。二是专家指导的局限性。虽然将专家知识引入DRL是一个有前景的解决方案,但现有方法多依赖人类专家提供指导,这带来了高昂的人力成本,并且人类在长期训练过程中可能因疲劳导致指导质量不一致,反而可能损害学习效果。

与此同时,大型语言模型(Large Language Model, LLM) 展现出强大的推理与知识能力,为替代人类专家提供了可能。然而,直接将LLM用于实时自动驾驶决策面临推理延迟过高、无法满足实时性要求,以及现有方法未能高效地将LLM指导整合进DRL框架等问题。

因此,本研究的目标是提出一个新颖的框架,旨在利用LLM的强大推理能力,在DRL的训练阶段提供高质量的智能指导,从而显著提升DRL代理(agent)的学习效率和最终驾驶性能,同时确保训练完成的DRL代理在脱离LLM指导的部署阶段,依然能够保持独立、可靠、实时的决策能力。

详细研究流程

本研究提出了一套名为LLM引导的深度强化学习(LGDRL)框架,其工作流程整合了多个创新组件,具体可分为以下几个关键步骤:

1. 问题建模与DRL基础设定 首先,研究将自动驾驶行为决策问题形式化为一个马尔可夫决策过程(Markov Decision Process, MDP)。具体定义了: * 状态空间(State Space):包含自车(Ego Vehicle, EV)和周围车辆(Surrounding Vehicles, SVs)的运动学特征(位置、速度、航向角),以及目标点的位置信息(距离和相对车道编码)。所有观测值均进行了归一化处理。 * 动作空间(Action Space):定义了5个离散的驾驶动作:左变道、右变道、保持车道(怠速)、加速、减速。 * 奖励函数(Reward Function):设计了一个复合奖励函数,包含四个部分:任务成功/失败奖励、鼓励适当变道行为的奖励、鼓励高效行驶(保持接近限速)的奖励、以及基于碰撞时间(Time-to-Collision, TTC) 的驾驶安全惩罚项。

2. LLM驾驶专家的构建 为了解决传统人类专家指导的弊端,研究构建了一个基于LLM的驾驶专家模块。该模块包含四个子组件: * 提示生成器:将当前驾驶场景的环境状态(车辆、车道、目标信息)编码为结构化的文本描述(场景提示),并结合设定LLM角色和推理步骤的系统提示,共同构成输入给LLM的完整提示。研究中采用了思维链(Chain-of-Thought, CoT) 提示技术,引导LLM进行分步推理。 * 开箱即用的LLM:使用预训练好的大语言模型(研究中使用了Gemma-3 27B模型)接收提示,并输出文本形式的驾驶决策分析。 * 动作提取器:使用正则表达式从LLM的文本响应中解析出预设格式的驾驶动作。 * 安全检查器:为确保LLM建议动作的安全性,该组件会计算建议动作执行后与周围车辆的TTC。若判断为不安全,则会生成安全反馈信息,并触发重新查询机制,要求LLM重新生成决策,形成安全闭环。

3. 专家策略约束DRL算法 这是本研究的核心算法创新。为了高效利用LLM专家的指导,研究将专家知识整合为一个策略约束,形式化为一个带约束的优化问题:在最大化累计奖励的同时,限制DRL策略与LLM专家策略之间的偏差不超过一个预设阈值。 * 约束函数:采用Jensen-Shannon(JS)散度来衡量DRL策略分布与LLM专家策略分布(以独热编码表示)之间的差异。JS散度是KL散度的一种对称、有界变体,其值域在0到1之间,有助于保持训练过程中梯度的稳定性。 * 算法求解:采用拉格朗日对偶理论将约束优化问题转化为其拉格朗日对偶形式,并通过策略迭代(Policy Iteration) 方案求解。具体在演员-评论家(Actor-Critic) 框架中实现: * 评论家网络:评估动作价值函数,其更新目标中引入了策略约束项。 * 演员网络:输出DRL策略,其更新目标是在最大化评论家评估的价值的同时,最小化与专家策略的JS散度(由拉格朗日乘子加权)。 * 对偶变量更新:动态调整拉格朗日乘子。当策略差异超过阈值时增大乘子,迫使策略向专家对齐;当差异较小时减小乘子,让智能体更专注于奖励优化。

4. LLM干预式交互机制 在训练阶段,研究提出了一种新颖的交互机制,允许LLM专家间歇性地干预DRL代理与环境的交互过程。 * 干预逻辑:在每个时间步,DRL代理首先输出其动作。系统会根据当前状态和DRL动作计算相关TTC(例如,对于变道动作,计算目标车道前后车的TTC),并与安全阈值比较。若DRL动作被判定为危险,且当前训练回合被随机选为允许干预的回合,则应用LLM专家建议的动作来与环境交互;否则,仍使用DRL自身的动作。 * 间歇模式:并非所有训练回合都允许干预。研究采用在整个训练过程中均匀随机选择一部分回合作为可干预回合的策略。这确保了在整个学习阶段都能持续提供高质量的训练数据,同时又避免了LLM的过度干预损害DRL代理的自主探索能力。

5. 实验设置与评估 * 实验场景:使用Highway-env仿真器构建了一个四车道高速公路场景,自车需要安全驶达右车道上的目标点。交通流设置了稀疏(10-15辆车)密集(20-25辆车) 两种条件,周围车辆采用结合了智能驾驶员模型(IDM)和MOBIL车道变换模型的混合行为,并随机赋予攻击型、正常型、防御型三种驾驶风格。 * 基线方法:为了全面评估,研究实现了五类基线方法进行比较:无专家指导的Vanilla-SAC;采用在线专家指导的三种方法(RP+SAC, BC+SAC, HRL);以及采用离线专家演示的Demo+SAC。所有使用专家指导的方法均采用相同的LLM专家和干预逻辑以保证公平。 * 训练与测试流程:在训练阶段,DRL代理在LLM专家的引导下学习。训练完成后,在测试阶段完全禁用LLM专家,仅由训练好的DRL代理独立执行驾驶任务,以此验证其独立性能和实时性。 * 评估指标:主要包括任务成功率、碰撞率、累计奖励(Return),以及关键的安全指标当前车道TTC(CLT)目标车道TTC(TLT)。同时,还统计了训练过程中的专家干预次数以衡量指导利用效率,并测量了单步推理时间以验证实时性。

主要研究结果

1. 训练性能对比 在稀疏和密集交通流下,所提出的LGDRL方法均取得了最高的累计奖励,收敛速度和学习效率显著优于所有基线方法。特别是,与仅使用离线演示(Demo+SAC)或在线指导但整合方式低效(如RP+SAC仅使用奖励惩罚)的方法相比,LGDRL的优势更为明显。在专家干预次数方面,LGDRL所需干预远少于其他在线指导方法(如BC+SAC、RP+SAC),并且随着训练进行,干预次数迅速下降至很低的水平(最后100回合平均每回合少于5次),而其他方法在整个训练过程中始终需要较高的干预频率。这证明了LGDRL框架能最高效地利用专家指导,使DRL代理快速学习到接近专家的策略,从而减少对外部指导的依赖。

2. 测试性能对比 在脱离LLM指导的独立测试中,LGDRL训练出的代理表现卓越: * 成功率与安全性:在稀疏和密集交通流下,成功率分别达到99.20%94.40%,碰撞率极低,显著优于所有基线方法。 * 安全指标:CLT和TLT的分布显示,LGDRL代理在绝大多数时间步都能保持较大的TTC值(例如,CLT在稀疏流下全程大于3秒),而基线方法则频繁出现TTC小于2秒的危险情况。这表明LGDRL代理能更好地维持与周围车辆的安全距离。 * 实时性:LGDRL代理的单步推理时间仅为0.01秒,完全满足自动驾驶的实时性要求。相比之下,直接使用LLM专家进行决策的单步时间约为2.73秒,无法满足实时需求。这凸显了LGDRL框架“训练时用LLM引导,部署时用高效DRL独立运行”的实用价值。

3. 策略对齐分析 通过计算测试过程中DRL代理策略与LLM专家策略之间的JS散度,发现LGDRL代理的策略与LLM专家策略的差异最小(平均JS散度0.12),比其他基线方法低23%-32%。具体决策案例对比也显示,在关键决策点(如安全变道时机),LGDRL代理选择的动作与LLM专家认为的最优动作高度一致。这从定量和定性两方面证明,LGDRL能够最有效地吸收LLM专家的决策知识。

4. 消融研究与参数分析 * 策略约束组件的作用:移除策略约束的变体方法(AC方法)在训练中表现显著变差,尤其是在没有专家干预的回合中性能大幅下降,且在整个训练过程中需要更多的专家干预。这证明了基于JS散度的策略约束对于高效学习和吸收专家知识至关重要。 * 干预策略与模式的影响:实验表明,间歇性干预模式优于连续性干预模式DAgger方法。连续性干预因过度干预而损害了代理的探索能力,导致测试性能最差。而仅在训练早期或晚期干预的策略也不如在整个训练过程均匀干预的策略有效。 * 安全阈值(TTC阈值)的影响:研究发现,阈值设置存在权衡。较高的阈值(如3.0秒)能带来更高的训练回报(更主动地避免风险),但会导致干预更频繁,影响训练效率。1.5秒的阈值在取得接近最优性能的同时,大幅减少了干预次数,被认为是性能与效率的较好平衡点。

5. 可迁移性验证 研究在多种不同场景下测试了LGDRL方法的可迁移性,包括不同车道数的公路(2、3、5车道)、合流场景、以及不同周围车辆驾驶风格组合的场景,甚至使用了基于真实世界轨迹(HighD数据集)重构的场景。结果表明,LGDRL方法在所有场景下均能实现稳定、高效的学习和良好的测试性能,证明了其强大的适应性和泛化能力

研究结论与价值

本研究成功提出并验证了一个创新的LLM引导深度强化学习(LGDRL)框架,用于解决自动驾驶安全决策问题。其核心结论是:通过构建LLM驾驶专家,并结合基于JS散度的专家策略约束算法间歇性LLM干预交互机制,能够以前所未有的效率将LLM的高级推理知识注入DRL的学习过程。这不仅大幅提升了DRL代理的学习速度和最终驾驶性能(高成功率、高安全性),还确保了训练完成的代理能够在脱离LLM的情况下,以毫秒级的延迟进行独立、可靠的实时决策

本研究的科学价值在于:为人工智能(LLM)与强化学习(DRL)的深度融合提供了一个新颖、有效且理论坚实的范式。它巧妙地解决了LLM推理慢与自动驾驶实时性要求之间的矛盾,即“训练用LLM,部署用DRL”。同时,提出的约束优化公式和交互机制对相关领域研究具有方法论上的借鉴意义。

其应用价值显著:极大地降低了对人类专家监督的依赖,为开发高性能、高安全、可部署的自动驾驶决策系统提供了一条切实可行的技术路径。该方法在多种复杂和真实交通场景下展现出的优异性能和强适应性,使其具备广阔的实际应用前景。

研究亮点

  1. 框架创新性:首次系统性地提出了一个完整的“LLM引导DRL”框架(LGDRL),用于自动驾驶决策,并实现了训练与部署的解耦。
  2. 算法新颖性:创新性地将Jensen-Shannon(JS)散度作为策略约束引入DRL的演员-评论家框架,并通过拉格朗日对偶进行高效求解,为整合专家知识提供了新的理论工具。
  3. 机制有效性:提出的间歇性LLM干预交互机制,在提供高质量训练数据、防止灾难性动作的同时,有效保护了DRL代理的自主探索能力,解决了模仿学习中常见的分布偏移问题。
  4. 性能卓越性:在多项指标上全面超越现有先进基线,特别是在专家指导利用效率最终策略与专家的对齐度以及独立部署时的实时性与安全性方面表现突出。
  5. 验证全面性:不仅进行了丰富的对比实验和消融分析,还深入探讨了关键参数的影响,并跨多种道路结构和驾驶风格验证了方法的鲁棒性和可迁移性,增强了结论的说服力。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com