分享自:

基于先验引导稀疏专家混合的点云配准方法

期刊:the thirty-ninth aaai conference on artificial intelligence (aaai-25)

本文作者团队包括来自上海交通大学、江西财经大学、山东大学、安庆师范大学、怀化大学等单位的研究人员,其中黄晓水(Xiaoshui Huang)和黄洲(Zhou Huang)为共同第一作者,左逸凡(Yifan Zuo)为通讯作者。该研究以“psreg: prior-guided sparse mixture of experts for point cloud registration”为题,发表于“the thirty-ninth AAAI conference on artificial intelligence (AAAI-25)”,这是一篇发表于人工智能领域顶级会议AAAI上的单篇原创性研究报告,属于类型a。

学术背景与研究动机 本研究属于计算机视觉领域,聚焦于点云配准这一核心任务。点云配准旨在为两个点云估计一个最优的刚性变换(旋转和平移),从而将它们对齐到同一个坐标系中,其在三维重建、自动驾驶、增强现实等领域有着广泛的应用。当前,基于深度学习的方法在点云配准任务中占据主导地位。然而,当两个点云仅部分重叠时,成功配准仍然面临巨大挑战。问题的关键在于提取具有判别力的特征。现有方法(如PEAL)虽然通过区分重叠区域和非重叠区域来提升特征判别力,但仍难以处理重叠区域内存在的大量模糊结构(例如缺乏明显纹理的墙壁或地板),导致大量误匹配。

本研究旨在解决上述重叠区域内结构模糊导致的特征区分度不足问题。研究人员认为,在Transformer架构中应用稀疏混合专家模型(Sparse Mixture of Experts, SMoE)是一个可行的解决方案。SMoE通过其路由机制将输入的特征标记分组,并由不同的专家网络处理不同组别的特征。理论上,若路由机制能有效区分重叠/非重叠区域,并将潜在对应的特征标记分配到同一专家进行处理,则可以通过SMoE的多专家网络提取更具判别力的特征。然而,直接将Vanilla SMoE应用于点云配准任务效果不佳,其路由网络缺乏足够的信息交互和引导,无法有效区分标记。受此启发,本研究提出了一种新型的先验引导SMoE模块,以克服上述挑战,并最终构建了一个完整的配准框架。

研究流程与方法详述 本研究设计了一个名为PSReg的点云配准框架,整体采用由粗到精的策略,其核心在于通过新提出的先验引导SMoE(PSMoE)模块增强特征判别力,特别是重叠区域内的特征。

  1. 超点提取与初始特征获取:首先,采用KPConv-FPN骨干网络对原始的源点云和目标点云进行下采样,得到超点及其对应特征。这一步是标准流程,旨在降低后续处理的计算复杂度并获得高层次语义特征。

  2. 先验超点对应关系预测:这是PSMoE模块的先决条件。为了打破“精准对应关系需要判别力强的特征,而判别力强的特征又需要先验对应关系引导”的循环依赖问题,研究采用了一个现成的、性能领先的预训练配准模型(文中使用的是GeoTransformer)来预测一个初始的刚性变换矩阵。利用这个预测的变换矩阵,计算源和目标超点之间的重叠率矩阵。随后,设定一个重叠率阈值(在实验中设置为0,即允许所有重叠率>0的匹配),选择重叠率超过阈值的超点对作为先验的超点对应关系。这些对应关系不仅提供了重叠区域信息,更重要的是直接关联了两个点云中可能匹配的“锚点”。

  3. 先验超点对应关系编码:这是PSMoE模块的核心设计之一。为了将先验信息有效融入路由决策,研究人员设计了先验超点对应关系编码模块。不同于简单的二值编码(匹配点与非匹配点),该模块采用了一种有序编码策略:将所有识别出的先验超点对应关系用一个离散有序序列进行编码,而所有未匹配的超点则被赋予同一个数字。然后,利用正弦函数和MLP组成的嵌入层,将这些离散的数字转换为稠密的先验嵌入向量。这种有序编码方式旨在引导路由网络将潜在匹配的特征标记(即使它们属于不同的点云)尽可能分配到同一个专家网络进行处理,从而促进特征对齐。对于可能一个超点对应多个候选匹配的情况,会根据重叠率进行加权求和,确保先验嵌入的唯一性。最终,为源和目标点云中的每个超点都生成了对应的先验嵌入。

  4. 先验引导路由稀疏混合专家处理:这是PSMoE模块的核心运作机制。区别于Vanilla SMoE仅基于输入特征进行路由,PSMoE将原始特征标记与上一步生成的先验嵌入直接相加,形成融合了先验信息的组合标记。然后,路由网络(一个全连接层)基于这些组合标记计算每个标记应分配到的专家。在先验嵌入的明确引导下,路由网络能够更好地识别哪些专家更适合处理来自重叠区域的标记,尤其是那些具有潜在对应关系的标记。根据路由结果,每个特征标记会被分配给一个最相关的专家网络(FFN)进行处理,其输出再根据路由权重进行聚合。这样,不同的专家可以专业化地处理来自不同区域(特别是不同潜在匹配簇)的特征,从而提取出更具判别力的特征。

  5. 特征增强与对应关系推断:将PSMoE模块与Transformer(特别是其自注意力机制)相结合,构成特征增强的主体。经过若干层这样的Transformer-PSMoE块处理,超点特征得到显著增强。随后,基于增强后的特征,通过特征匹配模块推断出精确的点级别对应关系。

  6. 最终变换估计:利用获得的点对应关系,采用局部到全局配准算法估计出最终的旋转矩阵和平移向量,完成配准。

  7. 优化目标:模型的整体损失函数由三部分组成:粗粒度对应关系损失(关注高重叠率的正样本)、细粒度对应关系损失(负对数似然损失)以及用于平衡各个专家负载的负载均衡损失。

主要实验结果 研究在多个公开数据集上进行了广泛的实验验证,包括真实世界场景数据集(3DMatch/3DLoMatch)和合成数据集(ModelNet/ModelLoNet)。

在3DMatch和3DLoMatch数据集上,PSReg方法在关键指标上均取得了领先或极具竞争力的结果: - 配准召回率:这是衡量最终配准成功率的直接指标。PSReg在3DMatch上达到了最高的95.7%,在3DLoMatch上达到了79.3%,均优于所有基线方法。即使在采样点对应数量减少到250个的极端情况下,其性能依然稳健,证明了方法提取的特征质量很高,对匹配点数量依赖较小。 - 内点率:这是衡量所找到对应关系质量的关键指标。PSReg在这一指标上显著超越了所有基线方法(在3DLoMatch上最高达到66.3%)。这直接证明了在先验引导下,PSMoE模块极大地增强了特征的判别力,从而能够找到更多准确的、位于重叠区域内的对应点。 - 特征匹配召回率:在此指标上,PSReg表现优秀,在3DMatch上与顶级方法持平,在3DLoMatch上略低于部分基线。作者分析认为,这可能是因为PSReg方法对先验的质量更敏感。当先验能提供足够正确的超点对应时,它能大幅提升IR;反之,在少数先验质量不佳的场景下,性能可能略有下降。

在ModelNet40合成数据集上的实验进一步验证了方法的泛化能力。在更具挑战性的低重叠版本ModelLoNet上,PSReg在未使用RANSAC的情况下,仅使用LGR估计器就在相对旋转误差等指标上超越了其他对比方法。

定性分析结果同样支持定量结论。可视化图表显示,相比于基线方法和使用二值编码的PSMoE变体,采用有序编码的PSMoE能够更准确地在重叠区域建立超点对应关系,尤其是在包含大量相似结构(如墙壁)的低重叠场景中,PSReg成功实现了配准,而现有方法(如PEAL)则失败了。

消融实验系统地验证了各个组件的作用: - 重叠率阈值分析表明,保留更多的先验超点对应关系(阈值设为0)对配准最有利。 - 对比(a)无SMoE的基线、(b)使用Vanilla SMoE、(c)使用二值编码PSMoE、(d)使用有序编码PSMoE,结果清晰显示:引入SMoE本身提升有限,但结合先验引导后性能显著提升,其中有序编码方法在提升内点率方面效果尤为突出,可视化结果也证实了其能产生更准确的对应关系。

结论与研究价值 本研究提出了一种新颖的、基于先验引导稀疏混合专家的点云配准方法PSReg。其核心贡献在于提出的PSMoE模块,该模块通过融合先验重叠信息和潜在对应关系嵌入来指导路由机制,从而有效区分了重叠区域内的模糊结构,显著增强了特征的判别力。基于此构建的PSReg框架在多个标准数据集上实现了最先进的性能,特别是在低重叠和存在大量模糊结构的挑战性场景下表现优异。

本研究的科学价值在于: 1. 问题洞察与方法创新:深入分析了现有方法在重叠区域内部结构模糊问题上的局限性,并创造性地将SMoE模型引入点云配准领域,为解决该问题提供了新思路。 2. 技术创新:设计了先验引导的路由机制和有序编码的PCE模块,克服了Vanilla SMoE在点云配准任务中应用的技术障碍,实现了可控的、面向任务目标的路由。 3. 性能突破:通过增强特征判别力,有效提升了配准的准确性和鲁棒性,特别是在低重叠场景下,为实际应用提供了更可靠的解决方案。

研究亮点 1. 首次探索SMoE用于点云配准:本研究是首次系统性地探索并成功应用稀疏混合专家模型来解决点云配准任务的工作,开辟了利用多专家网络增强特征判别力的新研究方向。 2. 创新的先验引导路由机制:提出的PSMoE模块,通过设计精巧的先验对应关系编码和融合方案,为SMoE的路由网络提供了明确、有效的引导信号,这是方法成功的关键。 3. 显著的性能提升:在最具挑战性的低重叠数据集3DLoMatch上,实现了配准召回率和内点率的显著提升,证明了该方法处理复杂真实场景的强大能力。 4. 详尽的分析与验证:通过全面的定量比较、定性可视化和系统的消融实验,有力地验证了方法每个组件的有效性和必要性,为后续研究提供了清晰的参考。

其他有价值的内容 论文还对相关研究工作进行了清晰的梳理,将现有方法分为基于Transformer和非基于Transformer的两大类进行综述,并指出了各自面临的挑战,这有助于读者理解本研究的定位和贡献。此外,论文详细介绍了SMoE的基本原理及其在NLP和CV领域的成功应用,为在3D视觉中引入这一技术铺垫了背景知识。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com