BEV-Locator:基于多视角图像的端到端视觉语义定位网络

一项基于多视图图像的端到端视觉语义定位研究

背景与研究意义

随着智能驾驶技术的迅速发展,自动驾驶汽车的精确定位能力成为研究和工业界的热点问题。准确的车辆定位不仅是自动驾驶的核心模块,同时也是高级驾驶辅助系统(ADAS)的重要组成部分。传统的基于视觉定位的方法通常依赖几何模型和复杂的参数调优,但在复杂的场景下,其鲁棒性和大规模部署能力有限。此外,受环境变化(如天气、光照条件等)影响,传统特征提取方法(例如SIFT(尺度不变特征变换)、SURF(加速鲁棒特征)、ORB(方向快速和旋转简要特征)等)在动态环境中表现有限。近年来,带有丰富语义信息的高精度地图(HD Maps, 高精地图)被证明能够增强定位的鲁棒性。然而,如何在多视图图像与语义地图之间实现高效的跨模态匹配,同时避免复杂的几何优化和多阶段参数调优,仍然是研究的一个重大挑战。

为了解决这些问题,本研究提出了一种新的端到端视觉语义定位框架,名为“BEV-Locator”。该方法结合了多视图图像和语义地图,通过跨模态Transformer(转换器)模块进行信息交互和车辆位姿解码,旨在显著提高自动驾驶场景中的定位精度和适用性。

论文来源

本研究由来自多所机构的研究团队合作完成,包括University of International Business and Economics、Tsinghua University、Queen Mary University of London以及Qcraft Inc.。研究成果发表在2025年2月的《Science China Information Sciences》(68卷第2期)上,论文标题为“BEV-Locator: An End-to-End Visual Semantic Localization Network Using Multi-View Images”。论文由Zhihuang Zhang、Meng Xu(通讯作者)、Wenqiang Zhou、Tao Peng、Liang Li和Stefan Poslad等学者撰写。

研究流程

研究目标与问题定义

研究的目标是解决视觉语义定位问题,具体而言:给定来自多视图相机的图像、带有语义信息的高精地图以及车辆的初始位姿,预测车辆的精确位姿。研究的输入是多视图图像和投影到初始位置的语义地图,输出是车辆的位姿增量,即相较初始位置的偏移量(∆x、∆y、∆ψ)。

研究框架

研究提出了一种全新的端到端框架,包括四个主要模块:视觉BEV(Bird-Eye-View, 鸟瞰图)编码器、语义地图编码器、跨模态Transformer模块以及位姿解码器。

1. 视觉BEV编码器

视觉BEV编码器负责提取多视图图像的特征并将其投影到BEV空间,具体步骤如下: - 图像特征提取器:利用EfficientNet(预训练于ImageNet)提取来自多台相机的图像特征,每张图像特征大小被压缩至多通道特征图。 - 视角变换模块:利用MLP(多层感知机)和相机的外参,将相机坐标系下的特征变换到BEV空间。 - 特征降维模块:采用ResNet模型对高维BEV特征进行降维,生成更低分辨率的多通道BEV特征图。

随后,二维BEV特征被展开成一维序列,并附加位置嵌入(Positional Embedding),为后续的Transformer输入提供空间顺序信息。

2. 语义地图编码器

语义地图中包含诸多元素(如车道线、路标、行人通道等),这些元素被离散地表示为点、直线或多边形。研究采用VectorNet的启发性方法将这些元素编码为结构化向量,具体步骤如下: - 每个语义元素首先被编码为高维的节点向量,通过共享MLP实现。 - 然后,通过最大池化层对节点信息进行聚合,生成全局向量表示(即地图查询,Map Queries)。

3. 跨模态Transformer模块

该模块采用Transformer的编码-解码结构来强化BEV特征与语义地图之间的映射关系: - 编码器:对BEV特征序列执行自注意力(Self-Attention)操作,提取全局信息。 - 解码器:利用跨注意力(Cross-Attention)机制,通过语义地图查询提取车辆与地图元素之间的空间约束关系。

值得注意的是,研究中特殊设计了跨注意力模块中的位置嵌入操作,将BEV特征位置编码到解码器值(Value)中,以提升语义地图和BEV特征的匹配能力。

4. 位姿解码器

该模块通过进一步编码语义查询的全局信息,采用最大池化层聚合后,通过MLP预测车辆的位姿增量(∆x、∆y、∆ψ)。

数据集与实验过程

研究在两个大型自动驾驶数据集(nuscenes和Qcraft dataset)上进行了验证: - nuscenes数据集:覆盖242公里,包含1000个场景,提供多模态传感器数据(6台相机、激光雷达、雷达等)以及11层语义地图。 - Qcraft数据集:涵盖400公里,此数据集中通过7台相机和高精度RTK生成精准的语义地图和车辆轨迹信息。

实验设计

  • 将BEV-Locator的训练目标设置为根据随机偏移(横向±1米、纵向±2米、偏航±2°)生成的初始位姿,预测最优车辆位姿。
  • 比较不同BEV网格尺寸(0.15m, 0.25m, 0.5m)对模型精度的影响。
  • 进行消融研究(Ablation Studies),评估Transformer编码器、自注意力机制和动态位置嵌入的作用。

实验结果与发现

精度表现

在nuscenes数据集上,模型展示了横向(0.076米)、纵向(0.178米)和偏航角(0.510°)的高定位精度。相比之下,在道路清晰且构造良好的Qcraft数据集上,精度进一步提升,横向误差仅为0.052米,纵向误差0.135米,偏航角误差0.251°。

可视化结果

实验通过语义地图与多视图图像的投影匹配验证定位精度。在大部分场景下,BEV-Locator能够准确预测车辆位姿,使语义地图元素与实际环境中的标志物完美匹配。

消融研究结果

  • 利用Transformer编码器能够显著提升全局特征交互能力,降低纵向与横向误差。
  • 动态位置嵌入策略对提高语义查询的匹配效果至关重要,特别是在纵向方向上的显著提升。

研究意义与应用价值

BEV-Locator框架开创性地将视觉语义定位问题表述为端到端学习任务,避免了传统方法中的复杂优化和多阶段处理。作为一种高精度、易部署的算法,该模型在自动驾驶领域具有广泛的应用前景。其精度和鲁棒性不仅能显著提升车辆定位能力,也证明了将语义地图匹配融合到BEV感知系统的可行性,为未来的智能驾驶路线规划和控制提供了新的技术支持。

研究的亮点在于其创新的方法学和实验结果的高精度表现,同时也为视觉语义定位的研究提出了新的方向。在未来,研究团队计划将BEV-Locator与其他基于BEV的感知任务相结合,为自动驾驶系统提供一个统一的解决方案。