这篇文档属于类型a的单一原创研究报告,以下是基于该研究内容生成的学术报告:
作者及研究机构:
本文的主要作者包括 Kotaro Tanahashi, Yuichi Inoue, Yu Yamaguchi, Hidetatsu Yaginuma, Daiki Shiotsuka 等,他们隶属于 Turing Inc., Japan。作者的联系邮箱为 {kotaro.tanahashi, y.inoue}@turing-motors.com。这项研究尚未正式发表,但在科研交流平台 arXiv(arXiv:2312.06351v1)上进行了预印本公开,时间为2023年12月11日。
研究背景:
本研究致力于探讨在自动驾驶领域中利用大型语言模型(Large Language Models, LLMs)的可能性。近年来,自动驾驶系统普遍依赖传统的机器学习技术,这些系统通常基于大量的历史驾驶数据进行模型训练。然而,驾驶场景具有长尾分布特性,许多实际驾驶中的复杂和罕见场景无法被历史数据充分覆盖,因此这些模型在应对新颖或未预见的信息时表现出不足。相比之下,LLMs 经过海量文本数据的训练,具备通用知识和一定的推理能力。因此,研究人员希望将LLMs整合进自动驾驶系统中,期望其能够像人类一样基于通用常识处理陌生场景,同时理解并遵循交通规则,甚至做出基于伦理的驾驶决策。
现有研究提出了多种利用LLMs的技术,包括通过文字描述生成驾驶操作(如基于环境感知的对象分类、坐标与速度信息)和通过输入驾驶场景的图像生成文字描述的方式等。但这些方法的实际能力,尤其是“空间感知决策能力”(spatial-aware decision making, SADM)和“遵守交通规则的能力”(following traffic rules, FTR)尚缺乏定量评估。因此,本文旨在首次通过定量分析全面评估不同LLMs在自动驾驶情境中的上述关键能力,并开发一个基于LLMs的车辆驾驶实验系统完成概念验证(proof of concept, POC)。
研究方法:
本研究分为两大阶段:基于真实世界交通情境的模拟实验及在实际车辆中的部署实验。
在模拟实验中,研究的关键目标是评估LLMs在以下两方面的能力: - “空间感知决策能力”(SADM):LLMs是否能基于车辆定位和速度信息,辨识同一车道或相邻车道的动态,并据此做出避免碰撞等决策。 - “遵守交通规则的能力”(FTR):LLMs能否依据速度限制规则、车道变更规则等提供正确决策。
实验模拟的环境是双车道高速公路。在模拟中,自车所在车道信息、自车速度、周围车辆的类型、位置信息(x、y坐标,以米为单位)、速度信息(以 km/h 为单位)以及交通规则以自然语言的形式提供给LLMs。用户指令同样以自然语言形式输入,如“请跟随前方车辆”。要求模型从五个选项中选择最优操作(”accelerate”、”maintain”、”decelerate”、”change lane to the right”、”change lane to the left”),并说明选择的理由。
实验数据包括手动构建的三类数据集:34个样本用于评估SADM能力,24个样本用于评估FTR能力,以及50个样本包含综合场景(SADM 和 FTR 结合情境)。所评估的模型为公开的 LLaMA-2 7B,以及基于 OpenAI API 的 GPT-3.5 和 GPT-4。评估指标基于决策的准确率及其理由的质量。本研究还引入 Prompt 工程技术,分析要求模型提供理由是否能够提高决策准确率。
为验证LLMs在真实环境中的应用能力,研究人员在封闭私有场地进行车辆驾驶实验。实验涉及两个任务: 1. 测试SADM能力:在车辆前方设置不同颜色的圆锥体,当用户语音指令(如“前往右侧黄色圆锥”)输入到LLM后,LLM需正确识别目标并输出导航指令。 2. 测试FTR能力:实验中,交通指挥员站在车辆前方发出“停下”或“前进”等信号。在此情况下,LLM需优先遵循交通规则,而非用户的语音指令。
与模拟实验类似,研究人员构建了20个样本的独立数据集以量化这种实验场景下的模型性能。实验使用 GPT-4 接口,车辆前端摄像头识别的物体被编码为格式化提示(prompt),输入至模型。
实验结果:
模型性能的准确率如表1与表2所示。总体来看,GPT-4在所有评估指标(SADM、FTR及两者结合任务)中表现最优,其准确率远高于GPT-3.5和LLaMA-2 7B。特别是,当要求模型提供理由时,GPT-4和GPT-3.5显示出显著的准确率提升,而LLaMA-2未表现出类似改进。
在提供理由的情况下,GPT-4能正确理解流量规则,并以优先级为依据排除用户可能的误导干扰。例如,当交通规则要求减速以避免超速时,即使用户指令模糊或错误,GPT-4仍能做出正确减速决策。
在所有实验任务中,GPT-4依然展现出了最高的准确率,验证了其在真实决策场景中的适用性。GPT-4的能力包括: 1. 准确定位并理解用户指令的目标位置。 2. 优先遵循“停止”规则,展示了在复杂场景中遵守交通规则的能力。
此外,GPT-4的框架支持更复杂的场景,如考虑车辆行进方向和动态障碍物的多目标协作。
研究结论与意义:
本研究首次系统性评估了LLMs在自动驾驶中SADM和FTR的核心能力。结果表明,LLMs在模拟实验与实际部署中均展现了优异的适应性与推理能力,尤其是GPT-4,其在模拟及真实环境中均表现出了显著的规则理解与环境判断能力。
研究的主要科学意义包括: 1. 推动了LLMs在自动驾驶领域的创新应用:基于LLMs的驱动方案在理解新颖场景、解决长尾问题方面显示出潜力。 2. 实现了交通规则的语言化解释与推理:不再依赖传统的复杂规则编码,可以通过Prompt灵活定义具体任务。 3. 探索了自动驾驶伦理判断可能性:证明LLMs有能力根据输入内容完成价值评估和伦理决策。
同时,此研究指出了实现实时自动驾驶的挑战:如通信延迟及计算效率问题。未来需要平衡高效性与决策精度。
研究亮点: