分享自:

基于神经逆渲染和互反射模型的非朗伯光度立体视觉

期刊:optics and lasers in engineeringDOI:10.1016/j.optlaseng.2024.108138

基于神经逆渲染与互反射模型的光度立体视觉研究:PS-SINI方法

作者与发表信息

本研究的核心作者为南京航空航天大学航天学院的Yuze YangJiahang Liu(通讯作者)、Yangyu FuYue Ni,研究成果发表于期刊Optics and Lasers in Engineering第178卷(2024年),论文标题为《Non-Lambertian Photometric Stereo via Neural Inverse Rendering and Interreflection Model》。

学术背景

研究领域:光度立体视觉(Photometric Stereo, PS)是三维表面精细重建的重要方法,其核心目标是通过分析物体在不同光照条件下的明暗变化来估计表面法向量。传统方法基于Lambertian表面假设(即理想漫反射),但现实物体常具有空间变化的材料属性(如颜料分布)和全局光照效应(如复杂形状导致的互反射和阴影),导致传统非线性映射法向量求解方法失效。

研究动机:现有深度学习方法虽在非Lambertian表面法向量估计中表现优异,但存在以下问题:
1. 依赖合成数据集与真实法向量标签,而真实三维几何数据获取困难;
2. 忽略互反射(interreflection)对表面法向估计的影响;
3. 对阴影(cast shadow)和材质不连续性的处理不足。

研究目标:提出一种无需真实法向量标签的自监督神经网络框架PS-SINI,通过联合优化阴影渲染、BRDF(双向反射分布函数)参数化和互反射建模,实现高精度表面法向量估计。

研究方法与流程

1. 核心模型架构

PS-SINI由三个子网络构成:
- PositionNet:多层感知机(MLP)结构,输入图像坐标与像素值,输出表面法向量(\mathbf{n})、漫反射系数(\rho_d)和镜面反射权重(\mathbf{c})。采用16层全连接GELU激活函数,嵌入8级位置编码(positional encoding)以提升空间分辨率。
- DepthNet:MLP结构,输入图像坐标,输出深度图(d)。通过几何损失函数(梯度损失+余弦相似度损失)约束深度与法向量的一致性。
- SpecularNet:MLP结构,输入半角向量(\mathbf{h})与法向量(\mathbf{n}),输出镜面反射基函数(G(\mathbf{h},\mathbf{n})),用于拟合高度非线性的镜面BRDF。

2. 阴影与互反射建模

  • 阴影处理:基于DepthNet生成的深度图,通过光线追踪计算阴影图(s(\mathbf{p}))(公式5)。采样32个点沿光线方向,比较表面高度与光线高度,利用Heaviside阶跃函数判断阴影区域。
  • 互反射模型:将物体表面离散化为微面元(3×3像素),通过核函数(K(\mathbf{p},\mathbf{p}‘))(公式7)量化微面元间的二次反射贡献,仅考虑单次互反射以简化计算。

3. 损失函数设计

总损失函数包含四部分:
1. 重建损失((\mathcal{L}_{rec})):(L1)范数约束渲染强度与观测强度的一致性;
2. 几何损失((\mathcal{L}
{geometry})):通过4点法将深度转换为法向量,与PositionNet输出的法向量比对;
3. 图像梯度损失((\mathcal{L}{image}^{grad})):保留高频细节;
4. 预热损失((\mathcal{L}
{warmup})):初期约束漫反射与法向量的局部平滑性,避免陷入局部最优。

主要结果

1. 性能对比实验

DiLiGenT基准数据集上,PS-SINI以平均法向量角误差(MAE)6.29°超越所有自监督方法,与最优监督方法PX-Net(MAE 6.28°)相当。尤其在高光物体(如金属“cow”和“goblet”)和阴影区域(如“reading”的胸部)表现突出。

2. 稀疏输入鲁棒性

仅用10张输入图像时,PS-SINI平均MAE为9.70°,优于专为稀疏输入设计的LMPS和Spline-Net方法,验证其对光照条件变化的适应性。

3. 阴影与互反射的贡献

  • 阴影处理:移除阴影模块后,MAE上升3.21°,尤其在非凸物体(如“buddha”)上误差显著增加;
  • 镜面反射:忽略镜面分量导致MAE升至13.19°,且渲染图像无法复现高光区域(图9);
  • 互反射模型:禁用互反射后,MAE增加0.48°,且二次反射区域的亮度重建精度下降(图10)。

研究结论与价值

科学价值

  1. 自监督学习框架:首次实现无需真实法向量标签的非Lambertian光度立体视觉,解决了合成与真实数据间的领域鸿沟(domain gap)问题;
  2. 物理模型融合:通过可微阴影渲染与互反射建模,将计算机图形学原理嵌入神经网络,提升了解释性;
  3. 高效训练:相比CNN方法(如IRPS需1小时训练),PS-SINI平均训练时间仅10分钟(RTX 3090Ti)。

应用价值

适用于复杂材质(如陶瓷、金属)和结构(凹面、凸面混合)物体的高精度三维重建,在工业检测、文化遗产数字化等领域潜力显著。

研究亮点

  1. 多物理效应联合建模:首次在光度立体视觉中同时优化阴影、BRDF分解与互反射;
  2. 轻量化设计:MLP架构参数仅150万,显著低于CNN方法(如PS-FCN的220万);
  3. 跨数据集泛化性:在Light Stage Data Gallery和Gourd&Apple数据集上未经微调即取得细节丰富的重建结果(图11)。

局限性与未来方向

  1. 深度估计依赖法向量:当前DepthNet通过软约束优化,对表面不连续敏感;
  2. 光照校准需求:需已知光照方向,未来可扩展至非校准(uncalibrated)光度立体视觉。

本研究通过神经逆渲染与物理先验的结合,为复杂表面的三维重建提供了新范式,其方法论可拓展至多视角重建与动态场景建模。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com