大语言模型在自动驾驶决策中的评估

分享自：
大语言模型在自动驾驶决策中的评估

交通与运载工程
人工智能
期刊:symposium on machine learning for autonomous driving (ml4ad 2023)
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a的单一原创研究报告，以下是基于该研究内容生成的学术报告：
作者及研究机构：
本文的主要作者包括 Kotaro Tanahashi, Yuichi Inoue, Yu Yamaguchi, Hidetatsu Yaginuma, Daiki Shiotsuka 等，他们隶属于 Turing Inc., Japan。作者的联系邮箱为 {kotaro.tanahashi, y.inoue}@turing-motors.com。这项研究尚未正式发表，但在科研交流平台 arXiv（arXiv:2312.06351v1）上进行了预印本公开，时间为2023年12月11日。
研究背景：
本研究致力于探讨在自动驾驶领域中利用大型语言模型（Large Language Models, LLMs）的可能性。近年来，自动驾驶系统普遍依赖传统的机器学习技术，这些系统通常基于大量的历史驾驶数据进行模型训练。然而，驾驶场景具有长尾分布特性，许多实际驾驶中的复杂和罕见场景无法被历史数据充分覆盖，因此这些模型在应对新颖或未预见的信息时表现出不足。相比之下，LLMs 经过海量文本数据的训练，具备通用知识和一定的推理能力。因此，研究人员希望将LLMs整合进自动驾驶系统中，期望其能够像人类一样基于通用常识处理陌生场景，同时理解并遵循交通规则，甚至做出基于伦理的驾驶决策。
现有研究提出了多种利用LLMs的技术，包括通过文字描述生成驾驶操作（如基于环境感知的对象分类、坐标与速度信息）和通过输入驾驶场景的图像生成文字描述的方式等。但这些方法的实际能力，尤其是“空间感知决策能力”（spatial-aware decision making, SADM）和“遵守交通规则的能力”（following traffic rules, FTR）尚缺乏定量评估。因此，本文旨在首次通过定量分析全面评估不同LLMs在自动驾驶情境中的上述关键能力，并开发一个基于LLMs的车辆驾驶实验系统完成概念验证（proof of concept, POC）。
研究方法：
本研究分为两大阶段：基于真实世界交通情境的模拟实验及在实际车辆中的部署实验。
（1）真实世界交通条件模拟实验实验设计：在模拟实验中，研究的关键目标是评估LLMs在以下两方面的能力： - “空间感知决策能力”（SADM）：LLMs是否能基于车辆定位和速度信息，辨识同一车道或相邻车道的动态，并据此做出避免碰撞等决策。 - “遵守交通规则的能力”（FTR）：LLMs能否依据速度限制规则、车道变更规则等提供正确决策。
实验模拟的环境是双车道高速公路。在模拟中，自车所在车道信息、自车速度、周围车辆的类型、位置信息（x、y坐标，以米为单位）、速度信息（以 km/h 为单位）以及交通规则以自然语言的形式提供给LLMs。用户指令同样以自然语言形式输入，如“请跟随前方车辆”。要求模型从五个选项中选择最优操作（”accelerate”、”maintain”、”decelerate”、”change lane to the right”、”change lane to the left”），并说明选择的理由。
数据集与模型：实验数据包括手动构建的三类数据集：34个样本用于评估SADM能力，24个样本用于评估FTR能力，以及50个样本包含综合场景（SADM 和 FTR 结合情境）。所评估的模型为公开的 LLaMA-2 7B，以及基于 OpenAI API 的 GPT-3.5 和 GPT-4。评估指标基于决策的准确率及其理由的质量。本研究还引入 Prompt 工程技术，分析要求模型提供理由是否能够提高决策准确率。
数据处理与分析方式：所有模型的决策均以JSON格式输出。
通过定量测量决策准确度及其质量来评估不同模型在任务中的性能。
固定随机种子及不采用采样以确保输出结果的可重复性。
（2）实际车辆部署实验实验设计：为验证LLMs在真实环境中的应用能力，研究人员在封闭私有场地进行车辆驾驶实验。实验涉及两个任务： 1. 测试SADM能力：在车辆前方设置不同颜色的圆锥体，当用户语音指令（如“前往右侧黄色圆锥”）输入到LLM后，LLM需正确识别目标并输出导航指令。 2. 测试FTR能力：实验中，交通指挥员站在车辆前方发出“停下”或“前进”等信号。在此情况下，LLM需优先遵循交通规则，而非用户的语音指令。
数据集与实验流程：与模拟实验类似，研究人员构建了20个样本的独立数据集以量化这种实验场景下的模型性能。实验使用 GPT-4 接口，车辆前端摄像头识别的物体被编码为格式化提示（prompt），输入至模型。
实验结果：
模拟实验结果：（1）定量结果：模型性能的准确率如表1与表2所示。总体来看，GPT-4在所有评估指标（SADM、FTR及两者结合任务）中表现最优，其准确率远高于GPT-3.5和LLaMA-2 7B。特别是，当要求模型提供理由时，GPT-4和GPT-3.5显示出显著的准确率提升，而LLaMA-2未表现出类似改进。
（2）定性结果：在提供理由的情况下，GPT-4能正确理解流量规则，并以优先级为依据排除用户可能的误导干扰。例如，当交通规则要求减速以避免超速时，即使用户指令模糊或错误，GPT-4仍能做出正确减速决策。
实际车辆部署实验结果：在所有实验任务中，GPT-4依然展现出了最高的准确率，验证了其在真实决策场景中的适用性。GPT-4的能力包括： 1. 准确定位并理解用户指令的目标位置。 2. 优先遵循“停止”规则，展示了在复杂场景中遵守交通规则的能力。
此外，GPT-4的框架支持更复杂的场景，如考虑车辆行进方向和动态障碍物的多目标协作。
研究结论与意义：
本研究首次系统性评估了LLMs在自动驾驶中SADM和FTR的核心能力。结果表明，LLMs在模拟实验与实际部署中均展现了优异的适应性与推理能力，尤其是GPT-4，其在模拟及真实环境中均表现出了显著的规则理解与环境判断能力。
研究的主要科学意义包括： 1. 推动了LLMs在自动驾驶领域的创新应用：基于LLMs的驱动方案在理解新颖场景、解决长尾问题方面显示出潜力。 2. 实现了交通规则的语言化解释与推理：不再依赖传统的复杂规则编码，可以通过Prompt灵活定义具体任务。 3. 探索了自动驾驶伦理判断可能性：证明LLMs有能力根据输入内容完成价值评估和伦理决策。
同时，此研究指出了实现实时自动驾驶的挑战：如通信延迟及计算效率问题。未来需要平衡高效性与决策精度。
研究亮点：
本研究是少数深入探讨LLMs在驾驶场景中定量能力的前沿研究。
集成模拟与实际驾驶实验，验证了研究结论的广泛适用性。
GPT-4展现了在复杂驾驶决策中的显著优越性，为未来进一步研究指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问