本文档是Lue Fan、Feng Wang、Naiyan Wang和Zhaoxiang Zhang等人合作完成的一篇关于三维物体检测的原创性研究论文。它于2022年10月3日以预印本形式发布在arXiv上(arXiv:2207.10035v2),并发表在NeurIPS 2022(第36届神经信息处理系统会议)上。作者分别来自中国科学院自动化研究所(CASIA)和图森未来(Tusimple)。
学术背景 本研究属于自动驾驶领域的计算机视觉与三维感知方向,具体聚焦于基于激光雷达(LiDAR)的三维物体检测。随着激光雷达感知范围的扩大,长距离感知成为自动驾驶系统的迫切需求。然而,当前主流的3D检测器通常在网络骨干和预测头中构建密集的特征图,其计算和空间成本与感知范围的平方成正比,难以扩展到长距离场景。虽然激光雷达点云本身具有稀疏性,但现有的“半稠密”或“稠密”检测器为了处理“中心特征缺失”问题,仍需将稀疏特征转换为稠密特征图进行卷积和特征扩散,这造成了巨大的计算冗余。另一方面,纯基于点的方法虽天生稀疏,但存在效率低下(邻域查询耗时)和因激进下采样导致信息丢失的问题。因此,本研究旨在构建一个完全稀疏的三维物体检测器,使其计算和内存成本与点数大致成线性关系,并独立于感知范围,从而为高效的长距离检测提供根本性解决方案。
详细工作流程 本研究提出的方法名为完全稀疏检测器,其核心创新在于稀疏实例识别模块。整个工作流程包含四个主要步骤:
稀疏体素特征提取与中心投票:
实例点分组:
稀疏实例识别:
分组校正与细化:
整个模型的总体损失函数是上述所有损失项的加权和。研究在Waymo Open Dataset和Argoverse 2 Dataset这两个大规模自动驾驶数据集上进行了广泛的实验验证。
主要结果 本研究通过详尽的实验验证了FSD的有效性、高效性和在长距离检测上的优越性。
在Waymo Open Dataset上的性能:FSD(包括基于SST和基于Sparse Conv的两种变体)在车辆、行人、骑行者等多个类别的3D检测精度上达到了最先进的水平。这表明FSD不仅在效率上有优势,其精度也超越了众多依赖稠密特征图的先进方法。
对“中心特征缺失”问题的治疗研究:通过设计对比实验(FSD-plain, SST-center, FSD-noGC, CenterPoint-pp),并按照物体长度进行性能细分,研究深入分析了CFM问题。结果发现:(a) 依赖特征扩散的稠密方法(如SST-center)在大型车辆上性能显著下降,因为大物体中心区域空洞大,特征难以有效扩散或扩散后特征太弱。(b) 直接从每个体素预测(FSD-plain)虽然对大物体有一定效果,但由于回归目标方差大,对正常尺寸物体效果很差。© FSD-noGC(仅使用分组和SIR,无校正)相比SST-center在大型车辆上取得了巨大提升,证明SIR能有效解决CFM。(d) 即使与从网络开始就使用稠密特征图、受CFM影响较小的CenterPoint-pp相比,FSD-noGC和完整FSD在大型物体上仍表现更优。
长距离检测优势:在感知范围达200米的Argoverse 2数据集上,FSD在平均精度和综合评分上均超越了重新实现的强基线CenterPoint模型。特别是在一些微小物体(如行人、施工锥桶)和极大尺寸物体(如铰接式公交车、校车)上,FSD表现出了显著优势,这得益于SIR模块的实例级细粒度特征提取能力。
效率与可扩展性:研究绘制了不同感知范围下FSD与稠密检测器(CenterPoint)的训练内存和推理延迟对比图。结果显示,随着感知范围从50米扩大到200米,稠密检测器的内存消耗和延迟呈二次方增长,而FSD的增长则近乎线性,且绝对数值远低于前者。在200米范围下,FSD比其稠密版本快2.4倍。这证明了完全稀疏架构在长距离场景下的巨大效率优势。
在更稀疏场景下的优势:利用Argoverse 2的高精地图先验移除不感兴趣区域(如非道路区域、地面点)后,场景变得更加稀疏。实验表明,FSD的内存和延迟大幅下降,而精度损失可控;相反,稠密检测器的效率提升微乎其微。这揭示了FSD能从数据稀疏性增加中获益更多。
消融研究:
结论与价值 本研究提出并实现了第一个完全稀疏的3D物体检测器FSD,其核心是通过新颖的稀疏实例识别模块解决了阻碍完全稀疏架构设计的中心特征缺失问题。FSD的计算和内存成本与输入点数大致成线性关系,且独立于感知范围。实验证明,FSD不仅在标准数据集上达到了最先进的性能,更重要的是,它在长距离、大范围感知任务中展现出卓越的效率和可扩展性,为自动驾驶的长距离实时感知提供了切实可行的解决方案。其科学价值在于为3D检测领域提供了一种摆脱对稠密特征图依赖的新范式,证明了在保持甚至提升精度的前提下,完全利用数据稀疏性以实现极高效率是可行的。
研究亮点 1. 概念创新:首次明确提出并实现了“完全稀疏3D检测器”的概念,为长距离激光雷达检测提供了本质性的高效解决方案。 2. 核心模块创新:提出了稀疏实例识别模块,通过动态广播/池化操作和“实例即组”的设计理念,高效地实现了实例级别的特征提取与预测,从根本上解决了中心特征缺失问题。 3. 卓越的性能与效率平衡:在Waymo和Argoverse 2两大权威数据集上均取得了最先进的检测精度,同时在长距离场景下实现了数倍于稠密检测器的推理速度,内存占用优势明显。 4. 详实的分析验证:通过系统的消融实验、针对CFM的深入分析、不同感知范围的缩放实验以及在更稀疏场景下的测试,全面且令人信服地验证了FSD各个组件的有效性和架构优势。 5. 实用性:方法不依赖于特定的稀疏编码器,具有良好的通用性;代码已开源,促进了相关领域的研究与应用。
其他有价值内容 论文还讨论了FSD与早期点基方法(如VoteNet)的本质区别:FSD通过SIR进行高效的实例级深度特征提取,且无需对全场景进行激进的下采样,从而保留了更多信息并提升了处理大规模点云的效率。同时,作者也指出了当前方法的局限性,即分组策略仍有改进空间,这为未来的研究指明了方向。