分享自:

基于反向鸟瞰图表示的多相机校准模型

期刊:ACM International Conference on Multimedia (MM '24)DOI:10.1145/3664647.3680572

Academic Report on “CalibrBEV: Multi-Camera Calibration via Reversed Bird’s-Eye-View Representations for Autonomous Driving”

研究作者与发表信息

本文的主要研究作者包括Wenlong Liao(Shanghai Jiao Tong University、Cowarobot)、Sunyuan Qiang(Macau University of Science and Technology)、Xianfei Li(Cowarobot)、Xiaolei Chen(Shanghai Jiao Tong University)、Haoyu Wang(Cowarobot)等。论文将于2024年在第32届ACM国际多媒体会议(MM ‘24)上发表,会议举办时间为2024年10月28日至11月1日,地点是澳大利亚墨尔本。论文的DOI为:https://doi.org/10.11453664647.3680572。


学术背景与研究目的

本研究属于计算机视觉自动驾驶领域,聚焦多摄像头标定(multi-camera calibration)问题,这一技术对于保证自动驾驶系统的环境感知准确性具有至关重要的作用。摄影机标定主要用于预测摄像头的内参(intrinsic parameters)外参(extrinsic parameters),涉及摄像机的焦距、主点坐标和世界坐标系到相机坐标系的转化矩阵。

传统标定方法通常采用数学建模(如基准物体、几何先验和自标定),但流程复杂且耗费大量时间和人工,特别是在自动驾驶车辆大规模量产和交付后需要重新标定时。深度学习标定方法虽然提高了许多场景的适应性,但在复杂真实的多摄像头自动驾驶应用中仍显不足。

近年来,鸟瞰图(Bird’s-Eye-View, BEV)感知模型在3D目标检测和多摄像头特征融合领域取得了显著进展,因此本文探讨了BEV模型在多摄像头标定中的潜在应用价值。作者提出了一种基于反向鸟瞰图表示(Reversed BEV Representations)的多摄像头标定方法,命名为CalibrBEV,以高效、低成本地预测标定参数。

研究目标:重新思考传统标定方法的流程,通过反转BEV感知管道的思路,提出一种利用3D目标边界框数据优化标定参数的新方法。


研究流程与详细实验设计

研究分为三个主要模块展开:骨干网络(Backbone Module)标定模块(Calibration Module)自编码模块(Auto-Encoder Module)

1. 骨干网络

骨干网络的设计为研究第一环节。多视角摄像头拍摄的图像输入骨干网络(选用ResNet101-DCN,经过FCOS3D预训练),以获取多摄像头的特征图表示。这些特征图随后用于后续的标定和自编码任务。

  • 数据输入:来自不同视角的多摄像头高清图片。
  • 输出:多摄像机图像的低分辨率特征图,供后续BEV转换使用。

创新点在于综合利用多摄像视图特征图,实现了全局和局部信息的高效提取。

2. 标定模块

标定模块是本研究的核心部分,设计主要分为两个阶段: (1)利用反向BEV表示(Reversed BEV Representations)反转BEV模型管道。不同于传统BEV管道(使用摄像头内外参和图像特征生成BEV特征),本研究从3D目标边界框反推BEV特征。 (2)通过交叉注意力机制(Cross-Attention Mechanism)对BEV特征和多摄像图像特征进行交互,提炼输入来优化标定参数。

具体实验步骤包括: - 第一步:通过1维编码器将3D目标边界框转化为编码特征图(Code Map)。 - 第二步:在标定解码(Calibration Decoder)阶段,使用多个自注意力模块堆叠,训练模型以生成目标标定信息。 - 第三步:最终输出回归预测的内参和外参,例如旋转矩阵(Rotation Matrix)和位移向量(Translation Vector)。

3. 自编码模块

为了提高网络对BEV特征的泛化性能,研究设计了一个基于注意力的自编码模块(Auto-Encoder Module),以实现3D边界框信息的重建。 - 编码器部分:向BEV编码器中引入了自监督学习,通过预训练冻结其参数,供标定模块直接调用。编码器的结构与后续的标定模块一致。 - 解码器部分:该模块使用经典目标检测解码器,输出重构后的3D目标边界框。 - 损失函数:L1损失(控制预测边界框与真实边界框的误差)和focal loss(目标分类)共同指导训练过程。

此模块创新性地结合了自监督潜特征抽取技术,大幅提高了系统对小规模标定数据的鲁棒性。


实验结果与数据支持

  1. 实验数据集
    研究使用了NuScenes数据集Waymo数据集两个主流基准。
  • NuScenes:包含6000个标定摄像头的数据,共分为训练集(4200)、验证集(900)和测试集(900)。
  • Waymo:涵盖5个摄像头视图,包含90台车辆训练瑗、25台验证车辆。
  1. 主要实验结果
    标定性能的评估以标定参数误差为基准:
  • NuScenes数据集
    当训练数据为4200摄像头时,CalibrBEV预测标定参数的误差分别为:旋转矩阵0.0614°、位移向量0.0193m。
    在极小样本(300摄像头)情况下,旋转矩阵误差为0.1637°,展现了优越的泛化能力。
  • Waymo数据集
    CalibrBEV在位移向量t预测中较传统方法表现更优,误差降至x轴0.0010m。
  1. 模型性能拓展
    结合BEV模型(如BEVFormer和PETRV2),使用预测的标定参数进行3D目标检测,性能与传统标定方法接近但实现流程显著简化。

研究结论与意义

  1. 研究结论
    CalibrBEV提出了基于反向BEV表示进行多摄像机标定的一种全新方法,通过自编码器和交叉注意力机制的深度耦合,有效降低了标定步骤的手工成本,尤其适用于真实自动驾驶场景的小规模数据。

  2. 研究贡献

  • 提出了一种基于反向BEV管道的标定新思路,为领域提供了方法学创新。
  • 通过自编码模块,优化了对BEV特征的获取,成功削弱大规模数据需求。
  • 实验验证显示,与传统复杂标定相比,CalibrBEV方法简单灵活,预测精度较佳。
  1. 应用价值
    CalibrBEV在自动驾驶中能够作为低成本实时标定的潜在解决方案,应用前景广阔。未来有望扩展至摄像-雷达多模态感知。

亮点与未来方向

这篇研究的亮点在于:
- 将BEV感知理念首次用于相机标定问题,拓宽领域应用边界。
- 使用自监督学习实现小样本标定数据的鲁棒解决方案。
未来可从以下方向深入:
- 探讨BEV特征在时间序列标定场景中的性能。
- 设计实时应用中的轻量级交叉注意力网络结构。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com