本文的主要研究作者包括Wenlong Liao(Shanghai Jiao Tong University、Cowarobot)、Sunyuan Qiang(Macau University of Science and Technology)、Xianfei Li(Cowarobot)、Xiaolei Chen(Shanghai Jiao Tong University)、Haoyu Wang(Cowarobot)等。论文将于2024年在第32届ACM国际多媒体会议(MM ‘24)上发表,会议举办时间为2024年10月28日至11月1日,地点是澳大利亚墨尔本。论文的DOI为:https://doi.org/10.1145⁄3664647.3680572。
本研究属于计算机视觉和自动驾驶领域,聚焦多摄像头标定(multi-camera calibration)问题,这一技术对于保证自动驾驶系统的环境感知准确性具有至关重要的作用。摄影机标定主要用于预测摄像头的内参(intrinsic parameters)和外参(extrinsic parameters),涉及摄像机的焦距、主点坐标和世界坐标系到相机坐标系的转化矩阵。
传统标定方法通常采用数学建模(如基准物体、几何先验和自标定),但流程复杂且耗费大量时间和人工,特别是在自动驾驶车辆大规模量产和交付后需要重新标定时。深度学习标定方法虽然提高了许多场景的适应性,但在复杂真实的多摄像头自动驾驶应用中仍显不足。
近年来,鸟瞰图(Bird’s-Eye-View, BEV)感知模型在3D目标检测和多摄像头特征融合领域取得了显著进展,因此本文探讨了BEV模型在多摄像头标定中的潜在应用价值。作者提出了一种基于反向鸟瞰图表示(Reversed BEV Representations)的多摄像头标定方法,命名为CalibrBEV,以高效、低成本地预测标定参数。
研究目标:重新思考传统标定方法的流程,通过反转BEV感知管道的思路,提出一种利用3D目标边界框数据优化标定参数的新方法。
研究分为三个主要模块展开:骨干网络(Backbone Module)、标定模块(Calibration Module) 和 自编码模块(Auto-Encoder Module)。
骨干网络的设计为研究第一环节。多视角摄像头拍摄的图像输入骨干网络(选用ResNet101-DCN,经过FCOS3D预训练),以获取多摄像头的特征图表示。这些特征图随后用于后续的标定和自编码任务。
创新点在于综合利用多摄像视图特征图,实现了全局和局部信息的高效提取。
标定模块是本研究的核心部分,设计主要分为两个阶段: (1)利用反向BEV表示(Reversed BEV Representations),反转BEV模型管道。不同于传统BEV管道(使用摄像头内外参和图像特征生成BEV特征),本研究从3D目标边界框反推BEV特征。 (2)通过交叉注意力机制(Cross-Attention Mechanism)对BEV特征和多摄像图像特征进行交互,提炼输入来优化标定参数。
具体实验步骤包括: - 第一步:通过1维编码器将3D目标边界框转化为编码特征图(Code Map)。 - 第二步:在标定解码(Calibration Decoder)阶段,使用多个自注意力模块堆叠,训练模型以生成目标标定信息。 - 第三步:最终输出回归预测的内参和外参,例如旋转矩阵(Rotation Matrix)和位移向量(Translation Vector)。
为了提高网络对BEV特征的泛化性能,研究设计了一个基于注意力的自编码模块(Auto-Encoder Module),以实现3D边界框信息的重建。 - 编码器部分:向BEV编码器中引入了自监督学习,通过预训练冻结其参数,供标定模块直接调用。编码器的结构与后续的标定模块一致。 - 解码器部分:该模块使用经典目标检测解码器,输出重构后的3D目标边界框。 - 损失函数:L1损失(控制预测边界框与真实边界框的误差)和focal loss(目标分类)共同指导训练过程。
此模块创新性地结合了自监督潜特征抽取技术,大幅提高了系统对小规模标定数据的鲁棒性。
研究结论
CalibrBEV提出了基于反向BEV表示进行多摄像机标定的一种全新方法,通过自编码器和交叉注意力机制的深度耦合,有效降低了标定步骤的手工成本,尤其适用于真实自动驾驶场景的小规模数据。
研究贡献
这篇研究的亮点在于:
- 将BEV感知理念首次用于相机标定问题,拓宽领域应用边界。
- 使用自监督学习实现小样本标定数据的鲁棒解决方案。
未来可从以下方向深入:
- 探讨BEV特征在时间序列标定场景中的性能。
- 设计实时应用中的轻量级交叉注意力网络结构。