全稀疏三维目标检测

分享自：
全稀疏三维目标检测

工程学
信息科学
期刊:Neural Information Processing Systems
【点击此处】阅读全文、收藏及针对性提问
本文档是Lue Fan、Feng Wang、Naiyan Wang和Zhaoxiang Zhang等人合作完成的一篇关于三维物体检测的原创性研究论文。它于2022年10月3日以预印本形式发布在arXiv上（arXiv:2207.10035v2），并发表在NeurIPS 2022（第36届神经信息处理系统会议）上。作者分别来自中国科学院自动化研究所（CASIA）和图森未来（Tusimple）。
学术背景 本研究属于自动驾驶领域的计算机视觉与三维感知方向，具体聚焦于基于激光雷达（LiDAR）的三维物体检测。随着激光雷达感知范围的扩大，长距离感知成为自动驾驶系统的迫切需求。然而，当前主流的3D检测器通常在网络骨干和预测头中构建密集的特征图，其计算和空间成本与感知范围的平方成正比，难以扩展到长距离场景。虽然激光雷达点云本身具有稀疏性，但现有的“半稠密”或“稠密”检测器为了处理“中心特征缺失”问题，仍需将稀疏特征转换为稠密特征图进行卷积和特征扩散，这造成了巨大的计算冗余。另一方面，纯基于点的方法虽天生稀疏，但存在效率低下（邻域查询耗时）和因激进下采样导致信息丢失的问题。因此，本研究旨在构建一个完全稀疏的三维物体检测器，使其计算和内存成本与点数大致成线性关系，并独立于感知范围，从而为高效的长距离检测提供根本性解决方案。
详细工作流程 本研究提出的方法名为完全稀疏检测器，其核心创新在于稀疏实例识别模块。整个工作流程包含四个主要步骤：
稀疏体素特征提取与中心投票：
研究对象与处理：输入为原始的大规模激光雷达点云（例如来自Waymo Open Dataset或Argoverse 2 Dataset的场景）。首先，使用一个通用的稀疏体素编码器（如SST中的稀疏注意力块或基于稀疏卷积的U-Net）对点云进行体素化并提取稀疏体素特征。本研究并未发明新的稀疏编码器，而是灵活利用现有高效模块。
实验与方法：将体素特征与点到其对应体素中心的偏移量拼接，形成点特征。随后，通过两个预测头进行处理：一个用于前景点分类（区分物体点与背景点），另一个用于中心投票。投票机制类似于VoteNet，每个前景点预测一个指向其所属物体几何中心的偏移向量。这里使用Focal Loss作为分类损失，L1 Loss作为投票损失。
实例点分组：
研究对象：上一步骤中所有被预测为前景点并投票生成的中心点（称为“投票中心”）。
实验与方法：为了解决从稀疏特征直接预测物体时的“中心特征缺失”问题，FSD不是从单个点预测框，而是先将属于同一物体的点分组。这里采用了一种简单高效的连通组件标记方法。将所有投票中心视为图中的顶点，如果两个顶点之间的距离小于设定阈值，则在它们之间添加一条边。然后，通过深度优先搜索找出图中所有连通分量，每个连通分量被视为一个实例，所有投票到该连通分量的原始点被赋予同一个组ID。这种方法避免了复杂耗时的邻域查询（如球查询），并能有效减少实例碎片化。
稀疏实例识别：
研究对象：经过分组后得到的各个实例点集。
实验与方法：这是本研究的核心创新模块。SIR模块对每个实例进行实例级的特征提取和预测。其关键操作是动态广播/池化，它能高效处理大小可变的实例组，无需填充或采样。对于一个实例，SIR首先计算其所有投票中心的质心作为组中心。然后，对于组内每个点，计算其与组中心的相对坐标，并将该点的特征与广播来的组特征进行拼接。接着，通过动态池化（如最大池化或平均池化）聚合组内所有点的特征，形成实例级别的特征。这个过程可以堆叠多个SIR层以增强特征提取能力。最后，利用从各SIR层汇聚的实例特征，通过多层感知机直接预测该实例的边界框（中心、尺寸、方向）和类别标签。这里，回归使用L1 Loss，分类使用Focal Loss。SIR避免了在密集特征图上进行锚点或中心点分配，从而彻底解决了中心特征缺失问题。
分组校正与细化：
研究对象：初始分组可能不完美，存在漏点或包含背景噪声。因此，利用第一个SIR模块生成的边界框提案来校正分组。
实验与方法：将落在同一个提案框内的所有点重新归为一个校正后的组，无论它们之前的组ID是什么。然后，使用第二个SIR模块（称为SIR2）对这些校正后的新组进行特征提取和边界框细化。SIR2预测的是提案框到真实框的残差。为了使SIR2感知提案框的大小和位置，额外加入了点到提案框边界的偏移量作为点特征。回归损失为L1 Loss，分类损失采用基于3D IoU的软标签交叉熵损失。
整个模型的总体损失函数是上述所有损失项的加权和。研究在Waymo Open Dataset和Argoverse 2 Dataset这两个大规模自动驾驶数据集上进行了广泛的实验验证。
主要结果 本研究通过详尽的实验验证了FSD的有效性、高效性和在长距离检测上的优越性。
在Waymo Open Dataset上的性能：FSD（包括基于SST和基于Sparse Conv的两种变体）在车辆、行人、骑行者等多个类别的3D检测精度上达到了最先进的水平。这表明FSD不仅在效率上有优势，其精度也超越了众多依赖稠密特征图的先进方法。
对“中心特征缺失”问题的治疗研究：通过设计对比实验（FSD-plain, SST-center, FSD-noGC, CenterPoint-pp），并按照物体长度进行性能细分，研究深入分析了CFM问题。结果发现：(a) 依赖特征扩散的稠密方法（如SST-center）在大型车辆上性能显著下降，因为大物体中心区域空洞大，特征难以有效扩散或扩散后特征太弱。(b) 直接从每个体素预测（FSD-plain）虽然对大物体有一定效果，但由于回归目标方差大，对正常尺寸物体效果很差。© FSD-noGC（仅使用分组和SIR，无校正）相比SST-center在大型车辆上取得了巨大提升，证明SIR能有效解决CFM。(d) 即使与从网络开始就使用稠密特征图、受CFM影响较小的CenterPoint-pp相比，FSD-noGC和完整FSD在大型物体上仍表现更优。
长距离检测优势：在感知范围达200米的Argoverse 2数据集上，FSD在平均精度和综合评分上均超越了重新实现的强基线CenterPoint模型。特别是在一些微小物体（如行人、施工锥桶）和极大尺寸物体（如铰接式公交车、校车）上，FSD表现出了显著优势，这得益于SIR模块的实例级细粒度特征提取能力。
效率与可扩展性：研究绘制了不同感知范围下FSD与稠密检测器（CenterPoint）的训练内存和推理延迟对比图。结果显示，随着感知范围从50米扩大到200米，稠密检测器的内存消耗和延迟呈二次方增长，而FSD的增长则近乎线性，且绝对数值远低于前者。在200米范围下，FSD比其稠密版本快2.4倍。这证明了完全稀疏架构在长距离场景下的巨大效率优势。
在更稀疏场景下的优势：利用Argoverse 2的高精地图先验移除不感兴趣区域（如非道路区域、地面点）后，场景变得更加稀疏。实验表明，FSD的内存和延迟大幅下降，而精度损失可控；相反，稠密检测器的效率提升微乎其微。这揭示了FSD能从数据稀疏性增加中获益更多。
消融研究：
组件有效性：实验验证了分组（Grouping）和SIR模块各自的作用。仅分组而不进行SIR特征提取（FSD-agg）提升有限；结合分组与SIR（FSD-noGC）则带来显著性能提升，证明了SIR模块进行深度特征提取的重要性。
下采样影响：在SIR模块前对点进行体素化下采样会损害小物体的检测性能（如施工锥桶、停止标志）。FSD得益于SIR的高效性，能够在不进行任何下采样的情况下处理原始点，保留了细粒度信息，这对小物体检测至关重要。
结论与价值 本研究提出并实现了第一个完全稀疏的3D物体检测器FSD，其核心是通过新颖的稀疏实例识别模块解决了阻碍完全稀疏架构设计的中心特征缺失问题。FSD的计算和内存成本与输入点数大致成线性关系，且独立于感知范围。实验证明，FSD不仅在标准数据集上达到了最先进的性能，更重要的是，它在长距离、大范围感知任务中展现出卓越的效率和可扩展性，为自动驾驶的长距离实时感知提供了切实可行的解决方案。其科学价值在于为3D检测领域提供了一种摆脱对稠密特征图依赖的新范式，证明了在保持甚至提升精度的前提下，完全利用数据稀疏性以实现极高效率是可行的。
研究亮点 1. 概念创新：首次明确提出并实现了“完全稀疏3D检测器”的概念，为长距离激光雷达检测提供了本质性的高效解决方案。 2. 核心模块创新：提出了稀疏实例识别模块，通过动态广播/池化操作和“实例即组”的设计理念，高效地实现了实例级别的特征提取与预测，从根本上解决了中心特征缺失问题。 3. 卓越的性能与效率平衡：在Waymo和Argoverse 2两大权威数据集上均取得了最先进的检测精度，同时在长距离场景下实现了数倍于稠密检测器的推理速度，内存占用优势明显。 4. 详实的分析验证：通过系统的消融实验、针对CFM的深入分析、不同感知范围的缩放实验以及在更稀疏场景下的测试，全面且令人信服地验证了FSD各个组件的有效性和架构优势。 5. 实用性：方法不依赖于特定的稀疏编码器，具有良好的通用性；代码已开源，促进了相关领域的研究与应用。
其他有价值内容 论文还讨论了FSD与早期点基方法（如VoteNet）的本质区别：FSD通过SIR进行高效的实例级深度特征提取，且无需对全场景进行激进的下采样，从而保留了更多信息并提升了处理大规模点云的效率。同时，作者也指出了当前方法的局限性，即分组策略仍有改进空间，这为未来的研究指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问