本研究的核心作者为南京航空航天大学航天学院的Yuze Yang、Jiahang Liu(通讯作者)、Yangyu Fu和Yue Ni,研究成果发表于期刊Optics and Lasers in Engineering第178卷(2024年),论文标题为《Non-Lambertian Photometric Stereo via Neural Inverse Rendering and Interreflection Model》。
研究领域:光度立体视觉(Photometric Stereo, PS)是三维表面精细重建的重要方法,其核心目标是通过分析物体在不同光照条件下的明暗变化来估计表面法向量。传统方法基于Lambertian表面假设(即理想漫反射),但现实物体常具有空间变化的材料属性(如颜料分布)和全局光照效应(如复杂形状导致的互反射和阴影),导致传统非线性映射法向量求解方法失效。
研究动机:现有深度学习方法虽在非Lambertian表面法向量估计中表现优异,但存在以下问题:
1. 依赖合成数据集与真实法向量标签,而真实三维几何数据获取困难;
2. 忽略互反射(interreflection)对表面法向估计的影响;
3. 对阴影(cast shadow)和材质不连续性的处理不足。
研究目标:提出一种无需真实法向量标签的自监督神经网络框架PS-SINI,通过联合优化阴影渲染、BRDF(双向反射分布函数)参数化和互反射建模,实现高精度表面法向量估计。
PS-SINI由三个子网络构成:
- PositionNet:多层感知机(MLP)结构,输入图像坐标与像素值,输出表面法向量(\mathbf{n})、漫反射系数(\rho_d)和镜面反射权重(\mathbf{c})。采用16层全连接GELU激活函数,嵌入8级位置编码(positional encoding)以提升空间分辨率。
- DepthNet:MLP结构,输入图像坐标,输出深度图(d)。通过几何损失函数(梯度损失+余弦相似度损失)约束深度与法向量的一致性。
- SpecularNet:MLP结构,输入半角向量(\mathbf{h})与法向量(\mathbf{n}),输出镜面反射基函数(G(\mathbf{h},\mathbf{n})),用于拟合高度非线性的镜面BRDF。
总损失函数包含四部分:
1. 重建损失((\mathcal{L}_{rec})):(L1)范数约束渲染强度与观测强度的一致性;
2. 几何损失((\mathcal{L}{geometry})):通过4点法将深度转换为法向量,与PositionNet输出的法向量比对;
3. 图像梯度损失((\mathcal{L}{image}^{grad})):保留高频细节;
4. 预热损失((\mathcal{L}{warmup})):初期约束漫反射与法向量的局部平滑性,避免陷入局部最优。
在DiLiGenT基准数据集上,PS-SINI以平均法向量角误差(MAE)6.29°超越所有自监督方法,与最优监督方法PX-Net(MAE 6.28°)相当。尤其在高光物体(如金属“cow”和“goblet”)和阴影区域(如“reading”的胸部)表现突出。
仅用10张输入图像时,PS-SINI平均MAE为9.70°,优于专为稀疏输入设计的LMPS和Spline-Net方法,验证其对光照条件变化的适应性。
适用于复杂材质(如陶瓷、金属)和结构(凹面、凸面混合)物体的高精度三维重建,在工业检测、文化遗产数字化等领域潜力显著。
本研究通过神经逆渲染与物理先验的结合,为复杂表面的三维重建提供了新范式,其方法论可拓展至多视角重建与动态场景建模。