本文是一篇关于计算机视觉领域的学术论文,由 Hongxiang Jiang (Beihang University, Horizon Robotics)、Wenming Meng (Horizon Robotics)、Hongmei Zhu (Horizon Robotics)、Qian Zhang (Horizon Robotics) 和 Jihao Yin (Beihang University) 等几位作者共同完成,通讯作者为 Jihao Yin。文章发表于预印本平台 arXiv,发布日期为 2022年10月31日。研究主题聚焦于多摄像头下的3D目标检测,提出了一种创新的多摄像头无校准Transformer模型(Calibration-Free Transformer, 简称CFT),通过全新的工作流程解决了相机参数噪声带来的问题,并在公开数据集nuScenes上取得了突破性的实验成绩。
3D目标检测是自动驾驶领域中至关重要的感知能力之一。现有的大部分方法分为两类: 1. 基于激光雷达(LiDAR)的检测方法,虽然检测精度高,但硬件成本高; 2. 基于多摄像头的视觉检测方法,通过将2D图像特征转换为鸟瞰视图(BEV, Bird’s Eye View)特征并推断3D结构。
传统视觉方法通常依赖于几何校准参数(相机内参与外参)或深度估计,这使得在参数不准确或噪声较大的情况下模型表现不稳定。此外,显式或者隐式的相机参数指导机制(尤其是基于注意力机制的显式/隐式方法)往往计算代价过高,难以实现实时推理。因此,本文旨在: - 完全移除对相机几何参数的依赖; - 提出一套新的方法来实现鲁棒的BEV表示; - 平衡检测性能、计算速度与内存消耗。
作者提出的CFT模型包括两个主要模块: 1. 位置感知增强(Position-Aware Enhancement, 简称PA): - 通过增强BEV坐标的高维表示,捕获更丰富的3D位置信息。 - 去耦内容特征与位置信息,从而实现对3D高度信息的更好建模。
输入与特征提取:
位置感知增强(PA):
视图感知注意力(VA):
检测头与预测:
实验数据基于nuScenes大规模自动驾驶数据集,使用6视图摄像头图像,标准分辨率为1600×900。对比四种最先进的模型(如BEVFormar、PETR等),CFT在综合指标NDS (NuScenes Detection Score)和推理速度中展现出显著优势。
验证集表现:
测试集表现:
对相机外参数加入噪声后,CFT展现出优越的鲁棒性。传统依赖几何指导的BEVFormar和PETR性能下降6%-7%,而CFT几乎不受影响。
作者提出的CFT框架通过移除相机几何参数指导,直接在BEV特征中挖掘隐含的3D信息。此方法不仅提升了检测性能,而且显著降低了计算和内存开销,推理更快速。此外,CFT在相机参数噪声较大的场景中展现出天然的鲁棒性,具有广阔的实际应用前景:
这一工作为未来多摄像头3D目标检测开辟了全新路径,并为后续研究(如结合时间信息、多模式数据)奠定了坚实基础。