分享自:

基于视觉几何的深度运动结构(VGGSFM)

期刊:CVPR

视觉几何驱动的深度运动结构重建(VGGSFM):一种端到端可微分的新型SfM框架

作者及机构
本研究的核心团队来自牛津大学视觉几何组(Visual Geometry Group, University of Oxford)和Meta AI,主要作者包括Jianyuan Wang、Nikita Karaev、Christian Rupprecht和David Novotny。研究成果以论文形式发布于计算机视觉领域顶级会议CVPR(具体年份需根据文档补充),并同步开放了项目主页(https://vggsfm.github.io)供学术社区参考。


学术背景
运动结构重建(Structure-from-Motion, SfM)是计算机视觉领域的经典问题,旨在从无序的二维图像中恢复场景的三维结构和相机姿态。传统SfM流程(如COLMAP)采用增量式方法,依赖关键点检测、匹配、三角化和集束调整(Bundle Adjustment, BA)等模块,但存在两大局限:
1. 非端到端性:流程中多个环节(如匹配链式拼接)不可微分,难以通过深度学习整体优化;
2. 复杂性高:增量式注册需迭代处理图像,易引入累积误差。

近年来,尽管有研究尝试用深度学习改进局部模块(如SuperPoint和SuperGlue提升关键点匹配),但整体框架仍受限于传统流程。为此,作者提出VGGSFM——首个完全可微分的端到端SfM框架,通过深度学习方法统一优化所有组件,在简化流程的同时提升性能。


研究方法与流程
VGGSFM的核心创新在于将传统SfM分解为四个可微分阶段,并通过深度学习实现端到端训练:

  1. 深度点追踪(Deep Point Tracker)

    • 输入:无序图像集合(3-30张图像/批次)。
    • 方法:基于视频点追踪技术(如PIPS、TAPIR)改进,提出粗到细的双阶段跟踪器
      • 粗跟踪:通过CNN提取图像特征,构建跨帧成本体积金字塔,用Transformer预测初始轨迹;
      • 细跟踪:裁剪局部图像块进行亚像素级精修,结合异方差不确定性预测(Aleatoric Uncertainty)过滤低置信度轨迹。
    • 创新点:摒弃传统两两匹配链式拼接,直接输出跨帧像素级轨迹,减少累积误差。
  2. 联合相机初始化(Deep Camera Predictor)

    • 输入:图像全局特征(ResNet50提取)与轨迹描述符。
    • 方法:设计基于Transformer的相机预测器:
      • 通过交叉注意力机制融合图像与轨迹特征;
      • 结合8点算法生成的初始位姿,输出所有相机的联合初始化参数(旋转、平移、焦距)。
    • 优势:替代传统增量式注册,避免组合优化带来的不可微问题。
  3. 可微三角化(Deep Triangulator)

    • 输入:轨迹数据与初始化相机参数。
    • 方法
      • 先通过多视图直接线性变换(DLT)生成粗略点云;
      • 利用Transformer对点云位置进行谐波编码(Harmonic Embedding),输出精细化三维结构。
  4. 可微集束调整(Differentiable BA)

    • 方法:采用Theseus库实现二阶Levenberg-Marquardt优化,通过隐函数定理实现反向传播,最小化重投影误差:
      $$ \mathcal{L}{ba} = \sum{i,j} v_i^j | p_i(x^j) - y_i^j | $$
    • 过滤机制:剔除低可见性、低置信度或几何不一致的点。

实验结果
VGGSFM在三大基准测试中均达到SOTA性能:
1. 相机姿态估计
- CO3D数据集(宽基线场景):AUC@30°达74.0%,较传统方法(COLMAP: 25.3%)提升近50个百分点;
- IMC Phototourism数据集(窄基线场景):AUC@10°达73.92%,超越PixSFM(70.47%)和DFSFM(72.19%)。
- 关键发现:端到端训练使性能提升显著(如CO3D上AUC@30°从70.7%→74.0%)。

  1. 三维三角化(ETH3D数据集)

    • 在5cm误差阈值下,完整度(Completeness)达33.96%,优于DFSFM(29.54%),证明其重建密度与精度优势。
  2. 消融实验

    • 跟踪策略:直接预测轨迹比传统两两匹配链式拼接性能更优(AUC@10°提升3.3%);
    • 粗到细跟踪:移除细跟踪模块导致AUC@10°下降11.62个百分点。

结论与价值
1. 科学意义
- 首次实现完全可微分的SfM流程,为深度学习与几何视觉的结合提供新范式;
- 证明端到端训练能简化传统流程(如联合相机初始化替代增量注册),同时提升性能。

  1. 应用价值

    • 适用于宽/窄基线场景,支持非结构化图像输入,可用于AR/VR、三维重建等领域;
    • 开源实现促进社区发展,Python代码库便于后续改进。
  2. 局限性

    • 目前处理图像规模(≤30帧)不及传统SfM(如COLMAP支持千级图像),未来需优化计算效率。

研究亮点
1. 方法论创新
- 提出首个端到端可微分SfM框架,统一优化跟踪、相机估计、三角化与BA;
- 设计粗到细点追踪器与异方差不确定性模型,提升轨迹精度。

  1. 性能突破

    • 在宽/窄基线场景均超越传统方法和现有深度学习方案;
    • 可微BA实现与传统Ceres求解器相当的精度,同时支持梯度回传。
  2. 开源贡献

    • 提供完整PyTorch实现,推动可微分几何计算的发展。

注:文档中未明确提及发表年份,部分细节需参考原文补充。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com