分享自:

大语言模型在自动驾驶决策中的评估

期刊:symposium on machine learning for autonomous driving (ml4ad 2023)

这篇文档属于类型a的单一原创研究报告,以下是基于该研究内容生成的学术报告:


作者及研究机构:

本文的主要作者包括 Kotaro Tanahashi, Yuichi Inoue, Yu Yamaguchi, Hidetatsu Yaginuma, Daiki Shiotsuka 等,他们隶属于 Turing Inc., Japan。作者的联系邮箱为 {kotaro.tanahashi, y.inoue}@turing-motors.com。这项研究尚未正式发表,但在科研交流平台 arXiv(arXiv:2312.06351v1)上进行了预印本公开,时间为2023年12月11日。


研究背景:

本研究致力于探讨在自动驾驶领域中利用大型语言模型(Large Language Models, LLMs)的可能性。近年来,自动驾驶系统普遍依赖传统的机器学习技术,这些系统通常基于大量的历史驾驶数据进行模型训练。然而,驾驶场景具有长尾分布特性,许多实际驾驶中的复杂和罕见场景无法被历史数据充分覆盖,因此这些模型在应对新颖或未预见的信息时表现出不足。相比之下,LLMs 经过海量文本数据的训练,具备通用知识和一定的推理能力。因此,研究人员希望将LLMs整合进自动驾驶系统中,期望其能够像人类一样基于通用常识处理陌生场景,同时理解并遵循交通规则,甚至做出基于伦理的驾驶决策。

现有研究提出了多种利用LLMs的技术,包括通过文字描述生成驾驶操作(如基于环境感知的对象分类、坐标与速度信息)和通过输入驾驶场景的图像生成文字描述的方式等。但这些方法的实际能力,尤其是“空间感知决策能力”(spatial-aware decision making, SADM)和“遵守交通规则的能力”(following traffic rules, FTR)尚缺乏定量评估。因此,本文旨在首次通过定量分析全面评估不同LLMs在自动驾驶情境中的上述关键能力,并开发一个基于LLMs的车辆驾驶实验系统完成概念验证(proof of concept, POC)。


研究方法:

本研究分为两大阶段:基于真实世界交通情境的模拟实验及在实际车辆中的部署实验。

(1)真实世界交通条件模拟实验

实验设计:

在模拟实验中,研究的关键目标是评估LLMs在以下两方面的能力: - “空间感知决策能力”(SADM):LLMs是否能基于车辆定位和速度信息,辨识同一车道或相邻车道的动态,并据此做出避免碰撞等决策。 - “遵守交通规则的能力”(FTR):LLMs能否依据速度限制规则、车道变更规则等提供正确决策。

实验模拟的环境是双车道高速公路。在模拟中,自车所在车道信息、自车速度、周围车辆的类型、位置信息(x、y坐标,以米为单位)、速度信息(以 km/h 为单位)以及交通规则以自然语言的形式提供给LLMs。用户指令同样以自然语言形式输入,如“请跟随前方车辆”。要求模型从五个选项中选择最优操作(”accelerate”、”maintain”、”decelerate”、”change lane to the right”、”change lane to the left”),并说明选择的理由。

数据集与模型:

实验数据包括手动构建的三类数据集:34个样本用于评估SADM能力,24个样本用于评估FTR能力,以及50个样本包含综合场景(SADM 和 FTR 结合情境)。所评估的模型为公开的 LLaMA-2 7B,以及基于 OpenAI API 的 GPT-3.5 和 GPT-4。评估指标基于决策的准确率及其理由的质量。本研究还引入 Prompt 工程技术,分析要求模型提供理由是否能够提高决策准确率。

数据处理与分析方式:

  • 所有模型的决策均以JSON格式输出。
  • 通过定量测量决策准确度及其质量来评估不同模型在任务中的性能。
  • 固定随机种子及不采用采样以确保输出结果的可重复性。

(2)实际车辆部署实验

实验设计:

为验证LLMs在真实环境中的应用能力,研究人员在封闭私有场地进行车辆驾驶实验。实验涉及两个任务: 1. 测试SADM能力:在车辆前方设置不同颜色的圆锥体,当用户语音指令(如“前往右侧黄色圆锥”)输入到LLM后,LLM需正确识别目标并输出导航指令。 2. 测试FTR能力:实验中,交通指挥员站在车辆前方发出“停下”或“前进”等信号。在此情况下,LLM需优先遵循交通规则,而非用户的语音指令。

数据集与实验流程:

与模拟实验类似,研究人员构建了20个样本的独立数据集以量化这种实验场景下的模型性能。实验使用 GPT-4 接口,车辆前端摄像头识别的物体被编码为格式化提示(prompt),输入至模型。


实验结果:

模拟实验结果:

(1)定量结果:

模型性能的准确率如表1与表2所示。总体来看,GPT-4在所有评估指标(SADM、FTR及两者结合任务)中表现最优,其准确率远高于GPT-3.5和LLaMA-2 7B。特别是,当要求模型提供理由时,GPT-4和GPT-3.5显示出显著的准确率提升,而LLaMA-2未表现出类似改进。

(2)定性结果:

在提供理由的情况下,GPT-4能正确理解流量规则,并以优先级为依据排除用户可能的误导干扰。例如,当交通规则要求减速以避免超速时,即使用户指令模糊或错误,GPT-4仍能做出正确减速决策。


实际车辆部署实验结果:

在所有实验任务中,GPT-4依然展现出了最高的准确率,验证了其在真实决策场景中的适用性。GPT-4的能力包括: 1. 准确定位并理解用户指令的目标位置。 2. 优先遵循“停止”规则,展示了在复杂场景中遵守交通规则的能力。

此外,GPT-4的框架支持更复杂的场景,如考虑车辆行进方向和动态障碍物的多目标协作。


研究结论与意义:

本研究首次系统性评估了LLMs在自动驾驶中SADM和FTR的核心能力。结果表明,LLMs在模拟实验与实际部署中均展现了优异的适应性与推理能力,尤其是GPT-4,其在模拟及真实环境中均表现出了显著的规则理解与环境判断能力。

研究的主要科学意义包括: 1. 推动了LLMs在自动驾驶领域的创新应用:基于LLMs的驱动方案在理解新颖场景、解决长尾问题方面显示出潜力。 2. 实现了交通规则的语言化解释与推理:不再依赖传统的复杂规则编码,可以通过Prompt灵活定义具体任务。 3. 探索了自动驾驶伦理判断可能性:证明LLMs有能力根据输入内容完成价值评估和伦理决策。

同时,此研究指出了实现实时自动驾驶的挑战:如通信延迟及计算效率问题。未来需要平衡高效性与决策精度。


研究亮点:

  1. 本研究是少数深入探讨LLMs在驾驶场景中定量能力的前沿研究。
  2. 集成模拟与实际驾驶实验,验证了研究结论的广泛适用性。
  3. GPT-4展现了在复杂驾驶决策中的显著优越性,为未来进一步研究指明了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com