本研究的核心作者包括Jiahe Li(第一作者)、Jiawei Zhang、Youmin Zhang、Xiao Bai、Jin Zheng、Xiaohan Yu和Lin Gu,分别来自北京航空航天大学计算机科学与工程学院、Rawmantic AI、东京大学等机构。该研究发表于第39届神经信息处理系统大会(NeurIPS 2025),是计算机视觉与图形学领域的重要成果。
研究领域与动机
表面重建(Surface Reconstruction)是计算机视觉和图形学的核心问题之一,旨在从多视角图像中恢复物体的三维几何结构。近年来,基于神经辐射场(Neural Radiance Fields, NeRF)和3D高斯泼溅(3D Gaussian Splatting, 3DGS)的方法取得了显著进展,但仍面临表示瓶颈:
1. 3DGS依赖初始点云:其几何精度受限于多视角几何(Multi-View Geometry, MVG)生成的初始点云质量,易因纹理模糊或视角覆盖不足导致重建不完整。
2. 隐式表示计算成本高:基于符号距离函数(Signed Distance Function, SDF)的方法(如NeuS、VolSDF)需要复杂优化,难以兼顾效率与细节。
GeoSVR提出了一种显式稀疏体素框架,通过探索稀疏体素(Sparse Voxels)的潜力,实现高精度、高完整性的表面重建,同时保持计算效率。
GeoSVR基于SVRaster方法改进,将场景表示为稀疏体素的密度场,每个体素包含:
- 几何参数:8个角点的密度值,通过三线性插值定义内部密度场。
- 外观参数:球谐系数(SH Coefficients)存储颜色信息。
- 动态八叉树结构:根据梯度优先级自适应细分体素,以捕捉细节。
渲染过程采用α混合(α-blending),通过射线与体素求交计算像素颜色、法线和深度。
核心问题:如何有效利用单目深度(Monocular Depth)先验,避免误差导致的质量下降?
解决方案:
- 不确定性评估:定义体素几何不确定性((u_{geom})),与体素层级((l))和密度值负相关。低层级体素(大尺寸)或低密度区域不确定性高。
- 自适应权重:通过渲染层级图(Level Map)动态调整深度约束强度,高不确定性区域依赖外部深度,低不确定性区域保留光度一致性。
- 损失函数:结合全局-局部深度损失(Patch-wise Depth Loss)和不确定性权重,实现鲁棒优化。
挑战:微小体素的局部性导致表面形成不连续。
创新方法:
- 体素随机丢弃(Voxel Dropout):在几何正则化中随机屏蔽部分体素,迫使剩余体素保持全局几何一致性。
- 表面矫正(Surface Rectification):通过惩罚体素入口/出口密度差异,使渲染权重与密度峰值对齐,消除深度偏差。
- 尺度惩罚(Scaling Penalty):抑制几何不准确的大体素参与表面形成。
数据集:DTU、Tanks and Temples(TNT)、Mip-NeRF 360。
基线方法:对比隐式方法(NeuS、Neuralangelo)和显式方法(2DGS、GOF、PGSR)。
评估指标:
- 几何精度:Chamfer距离(DTU)、F1分数(TNT)。
- 渲染质量:PSNR、SSIM、LPIPS(Mip-NeRF 360)。
科学价值:
- 理论创新:首次系统探索稀疏体素在表面重建中的潜力,提出体素不确定性约束和局部-全局正则化框架。
- 方法突破:解决了显式表示中几何失真与局部性限制,为高精度重建提供新范式。
应用价值:
- 工业场景:适用于虚拟现实、自动驾驶等高精度三维建模需求。
- 基础模型支持:为几何基础模型(如Depth Anything V2)的深度利用提供可靠接口。
当前方法对光照变化和纹理缺失区域的鲁棒性有待提升,未来可结合体素全局性增强(如光线传播模型)进一步优化。
(报告全文约2000字,涵盖方法细节、实验对比与理论贡献,符合学术报告规范。)