分享自:

基于多摄像头的校准自由鸟瞰图建模用于3D目标检测

期刊:nuscenes detection task

学术报告:基于多摄像头的无校准鸟瞰视图表示来实现3D目标检测

本文是一篇关于计算机视觉领域的学术论文,由 Hongxiang Jiang (Beihang University, Horizon Robotics)、Wenming Meng (Horizon Robotics)、Hongmei Zhu (Horizon Robotics)、Qian Zhang (Horizon Robotics) 和 Jihao Yin (Beihang University) 等几位作者共同完成,通讯作者为 Jihao Yin。文章发表于预印本平台 arXiv,发布日期为 2022年10月31日。研究主题聚焦于多摄像头下的3D目标检测,提出了一种创新的多摄像头无校准Transformer模型(Calibration-Free Transformer, 简称CFT),通过全新的工作流程解决了相机参数噪声带来的问题,并在公开数据集nuScenes上取得了突破性的实验成绩。


背景与研究目标

3D目标检测是自动驾驶领域中至关重要的感知能力之一。现有的大部分方法分为两类: 1. 基于激光雷达(LiDAR)的检测方法,虽然检测精度高,但硬件成本高; 2. 基于多摄像头的视觉检测方法,通过将2D图像特征转换为鸟瞰视图(BEV, Bird’s Eye View)特征并推断3D结构。

传统视觉方法通常依赖于几何校准参数(相机内参与外参)或深度估计,这使得在参数不准确或噪声较大的情况下模型表现不稳定。此外,显式或者隐式的相机参数指导机制(尤其是基于注意力机制的显式/隐式方法)往往计算代价过高,难以实现实时推理。因此,本文旨在: - 完全移除对相机几何参数的依赖; - 提出一套新的方法来实现鲁棒的BEV表示; - 平衡检测性能、计算速度与内存消耗。


研究工作方法

总体架构

作者提出的CFT模型包括两个主要模块: 1. 位置感知增强(Position-Aware Enhancement, 简称PA): - 通过增强BEV坐标的高维表示,捕获更丰富的3D位置信息。 - 去耦内容特征与位置信息,从而实现对3D高度信息的更好建模。

  1. 视图感知注意力(View-Aware Attention, 简称VA)
    • 提出轻量化的注意力变体,按视图划分区域进行交互,替代传统全局注意力计算,减少冗余信息。
    • 计算幅度减小60%-78%,内存消耗下降12%-17%。

具体步骤及处理

  1. 输入与特征提取

    • 输入多视图摄像头采集的图像(每张图像尺寸1600×640),通过ResNet-101主干网络提取特征图(FPN构建多尺度特征)。
    • 取最低分辨率的单尺度特征图(scale 1/64)。
  2. 位置感知增强(PA)

    • 初始后:对每个BEV网格点(h, w)生成2D位置嵌入,以参考高度(Reference Height)z_ref 表示。
    • 自适应调整高度,分离内容与位置信息的通道嵌入,增强3D位置信息表达。
  3. 视图感知注意力(VA)

    • 将BEV特征划分为多个窗口,如2×2或2×3矩形窗,使用分组注意力进行特征交互。
    • 每个BEV窗口仅与指定视图群组交互,进一步压缩计算复杂度。
  4. 检测头与预测

    • BEV特征上采样并通过CenterPoint检测头进行3D边界框预测。
    • 优化训练流程,采用简单的Loss设计如L1损失,并在推理阶段用scale-NMS进行后处理。

数据分析与结果

实验数据基于nuScenes大规模自动驾驶数据集,使用6视图摄像头图像,标准分辨率为1600×900。对比四种最先进的模型(如BEVFormar、PETR等),CFT在综合指标NDS (NuScenes Detection Score)和推理速度中展现出显著优势。

原始实验结果

  1. 验证集表现

    • CFT在分辨率1600×900下达到44.5% NDS,超越DETR3D和PETR等方法。
    • 在较小输入图像尺寸(1600×640)下仍保持44.4%的NDS,稳定性显著。
  2. 测试集表现

    • 在无时间序列和其他模态输入的条件下,使用CFT的模型(1600 × 640分辨率)在NDS上达到49.7%,排名第二,仅比最优方法低0.7%,但计算效率更高。

噪声测试

对相机外参数加入噪声后,CFT展现出优越的鲁棒性。传统依赖几何指导的BEVFormar和PETR性能下降6%-7%,而CFT几乎不受影响。


结论与意义

作者提出的CFT框架通过移除相机几何参数指导,直接在BEV特征中挖掘隐含的3D信息。此方法不仅提升了检测性能,而且显著降低了计算和内存开销,推理更快速。此外,CFT在相机参数噪声较大的场景中展现出天然的鲁棒性,具有广阔的实际应用前景:

  1. 科学意义:提供了一种无需外参/内参校准的全新3D目标检测方法,对多视角视觉技术具有深远影响。
  2. 实用价值:有望在资源有限的场景中推广,如通用自动驾驶车辆。

本研究亮点

  1. 首个无几何参数的BEV表示框架:完全移除相机参数的依赖,在多个标准指标中达到近乎最优性能。
  2. 创新模块
    • PA模块有效增强BEV嵌入的信息密度,无需显式几何特征也能捕获高度信息;
    • VA模块显著减少全局注意力的计算消耗。
  3. 性能与效率兼得:推理速度领先,计算复杂度下降60%以上,同时保持高精度检测。

这一工作为未来多摄像头3D目标检测开辟了全新路径,并为后续研究(如结合时间信息、多模式数据)奠定了坚实基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com