学术研究报告:基于学习的远心结构光成像系统多视图轮廓测量技术
一、 研究作者、机构与发表信息
本研究由哈尔滨工业大学智能控制与系统研究所的贾志祥、于金勇、袁晨皓、杨显强(通讯作者,邮箱:xianqiangyang@hit.edu.cn)、宁波永江实验室的刘伟华以及宁波智能装备技术研究院有限公司的于兴虎共同完成。研究成果以题为“Learning-based multi-view profilometry for a telecentric structured light imaging system”的论文形式,发表于光学领域的知名期刊《Optics Letters》第50卷第10期,发表日期为2025年5月15日。该论文于2025年3月11日收到,历经修订后于2025年4月30日被接受,并于2025年5月12日正式在线发表。
二、 学术背景与研究目的
本研究属于光学三维测量与计算机视觉交叉领域,具体聚焦于微观光学计量学中的一个重要分支——多视图条纹投影轮廓术(Multi-view Fringe Projection Profilometry, MvFPP)。MvFPP技术通过从多个视角向被测物体投射编码的光栅图案,并利用相机捕获受物体表面形貌调制的变形图案,进而重建出物体表面的密集三维表示。该技术在精密制造、半导体质量监测等具有挑战性的工业场景中有着广泛应用。
然而,传统的MvFPP方法存在显著局限性。首先,它们严重依赖于手工设计的解码模型和度量标准(如零均值归一化互相关,ZNCC)来建立传感器像素间的统一对应关系。这种依赖使得传统方法在面对低编码位数、低反射率、阴影遮挡以及多径干扰等复杂问题时,鲁棒性不足,解码精度和稳定性下降。其次,传统流程通常将多视图重建解耦为多个独立的单视图处理步骤(包括图案解码、相位计算、同源点匹配和深度计算),随后再进行后融合策略将各视图结果整合。这种分步式方法容易导致误差累积和对齐问题。
近年来,深度学习技术已被广泛应用于单视图条纹投影轮廓术(FPP),例如使用卷积神经网络(CNN)来估计相位分布、条纹级次等物理量。但现有的学习方法大多仍将FPP过程分解为多个子步骤,未能实现真正的端到端映射,因此同样无法避免误差传递问题。
基于以上背景,本研究团队旨在解决传统及现有学习型MvFPP方法的根本缺陷。他们的核心目标是:首次提出一个端到端的多视图条纹投影轮廓术学习框架。该框架旨在将解码过程视为一种深度特征关联问题,通过引入一种由全局空间一致性约束引导的特征迁移算法,使其能够灵活适应各种编码图案和任意数量的输入视图。最终目标是实现更稳定、更鲁棒的三维表面重建,特别是在低编码位、低反射率和存在阴影遮挡的苛刻条件下。
三、 研究详细工作流程
本研究的工作流程围绕其提出的核心框架——多视图结构光网络(Multi-view Structured Light Network, MvSLNet)展开,主要包含以下几个关键步骤:
1. 系统搭建与数据准备: 研究团队构建了一套实验系统,该系统由一个配备双远心镜头的相机和四个环绕布置的(配备针孔倾斜镜头的)数字光处理(DLP)投影仪组成。为了训练和评估所提出的MvSLNet,他们专门收集并创建了一个名为“MvSLS”的工业电子场景数据集。该数据集总计包含1320个样本,其中1000个用于训练,320个用于测试。每个样本包含从四个投影仪投射的图案序列,并使用传统的12步相移法生成高精度的“真实值”列坐标图(作为监督学习的标签)。数据集的建立为基于学习的方法提供了必要的训练基础。
2. 网络架构与特征提取: MvSLNet的整体架构如图1(b)所示。其第一步是进行深度特征提取,分为两部分: * 观测特征提取:对于捕获的N个二维图像序列,采用一个类似于特征金字塔网络(FPN)的共享权重主干网络,提取多尺度的观测特征图。 * 编码特征提取:对于投影仪共享的一维编码图案,设计了一个三分支的一维CNN网络,以对齐不同阶段的列采样间隔。二维和一维网络均输出32通道的特征图。
3. 基于几何约束的特征迁移与代价体构建: 这是本研究的核心创新环节,旨在解决多视图结构光中投影仪无法主动“观察”从而导致视图间直接关联困难的问题。具体流程如下: * 列空间平面扫描:与传统多视图立体视觉(MVS)在物体空间进行平面扫描不同,本研究利用所有投影仪共享固定编码方案的特点,在编码列空间进行平面扫描。他们首先推导并揭示了基于几何约束的各视图间列坐标的映射关系(公式5和公式6)。该关系由系统标定参数(如旋转矩阵、平移向量、焦距、主点等)决定。 * 特征转移算法:选择其中一个视图作为参考视图,在其编码列范围内按照从粗到精的间隔生成一系列列坐标假设。然后,利用上述推导的几何映射关系,将参考视图的每个列假设所对应的编码特征,“转移”到每一个源视图的对应列坐标上。为了与受镜头畸变影响的观测特征对齐,算法还利用倾斜镜头的畸变模型,将所有视图的采样编码特征“扭曲”到畸变空间中。详细的步骤参见论文中的算法1。 * 多视图代价体聚合:对于每个视图,通过计算观测特征与经转移和扭曲后的编码特征之间的分组相关性(内积操作),构建该视图的代价体。然后,通过一种提出的自适应平均代价度量(公式7),将所有N个视图的代价体聚合为一个统一的代价体。该度量引入了像素级的自适应权重图,用于融合多视图信息。
4. 代价体正则化与深度回归: 使用一个三维CNN对聚合后的统一代价体进行正则化,将其转换为一个概率体。最终的列坐标估计通过对所有假设进行概率加权求和得到(公式8)。整个估计过程在一个三阶段(G=3)的级联结构中完成,逐步细化列坐标的估计范围和精度。第一阶段可根据远心镜头的景深约束初始列采样范围,后续阶段则围绕前一阶段的估计值进行更精细的均匀采样。
5. 损失函数与训练细节: 将MvFPP任务视为一个回归问题,采用L1损失函数(公式9)。总损失是各阶段损失的加权平均。网络使用Adam优化器训练120个周期,在6块NVIDIA RTX-4090 GPU上总训练时间约为4小时。
6. 消融实验与对比实验设计: 为了全面验证所提方法的有效性,研究设计了系统的实验: * 消融研究一:畸变处理必要性。对比了在特征转移过程中是否显式应用镜头畸变模型对网络性能的影响。 * 消融研究二:输入视图数量适应性。分别在训练和测试时使用不同数量的视图(N=1,2,3,4),以验证模型对任意视图数量输入的适应能力。 * 消融研究三:编码位数影响。使用不同编码位数(κ=1至6)的图案训练模型,分析编码位数对重建精度的影响,探究其边际效应。 * 对比实验:将MvSLNet与两种基于传统多视图框架的解码方法进行对比:一种是图案无关的解码器ZNCC,另一种是图案指定的解码器多视图相移编码(MVPSc)。对比指标包括平均列误差(MCE)、平均深度误差(MDE)以及坏像素比例。
四、 主要研究结果
1. 畸变处理的有效性: 实验结果表明,尽管端到端训练的网络对畸变有一定的隐式补偿能力,但在特征转移过程中显式应用镜头畸变模型能显著加速网络收敛,并在所有评估指标上获得更优的性能。如图2所示,应用畸变后,特定测试场景(场景1163)的列误差分布更集中,误差更小。这证明了显式几何建模对于实现多视图特征精确对齐的重要性。
2. 对任意数量输入视图的适应性: 如图3(a)的MCE评估矩阵所示,当测试时使用的输入视图数量与训练时相同时(矩阵主对角线),MCE随着视图数量的增加而稳定下降,这证明了模型有效学习了多视图信息。更重要的是,即使测试时的视图数量与训练时不同(非对角线情况),模型仍能取得可比的结果,显示了其良好的泛化能力和灵活性。图3(b)-(d)进一步通过实例表明,模型能够通过融合多视图信息有效缓解单视图下的阴影遮挡问题。
3. 编码位数的影响与边际效应: 如图4(b)所示,增加编码位数(κ)能显著提高像素区分度,从而降低MCE。然而,这种提升存在明显的边际效应:当κ从1增加到2时,MCE从0.248像素大幅降至0.128像素;但当κ从5增加到6时,MCE仅下降0.0001像素,改善微乎其微。更有趣的是,图4©显示,在一些简单场景中(如场景1116),仅使用单个周期的正弦编码图案(κ=1),MvSLNet通过利用局部和全局线索以及多视图几何约束,也能获得与高编码位图案相近的结果。这为在实时性要求高的场景下使用更简单的编码图案提供了可能。
4. 与传统方法的性能对比: 表1的定量评估结果清晰地表明,MvSLNet在所有精度指标上均达到了最优性能,远远超过传统的MVPSc和ZNCC方法(无论是否使用中值滤波后处理)。具体而言,MvSLNet的MCE(0.128像素)和MDE(0.024毫米)远低于传统方法。在坏像素比例上,MvSLNet也表现出巨大优势。 图5的定性对比更加直观:在低反射率区域(如集成电路引脚),传统方法基于单个像素信息的解码严重失效,产生大量噪声和错误,即使经过中值滤波也难以完全纠正。而MvSLNet通过提取深度特征并结合局部与全局线索,显著提升了在低反射率区域的解码精度和鲁棒性,重建出的深度图更平滑、更接近真实值。
五、 研究结论与价值
本研究的核心结论是成功提出并验证了一个端到端、基于深度特征关联的多视图条纹投影轮廓术学习框架。该框架通过创新的特征迁移算法,将多视图信息在编码列空间进行有效融合,实现了从观测图案到深度值的直接映射。
其科学价值在于:首次将端到端深度学习范式成功应用于多视图结构光三维测量,摒弃了传统多阶段流程和手工设计解码器的依赖,为复杂光学测量问题提供了新的解决方案思路。所提出的在编码列空间进行平面扫描以及基于严格几何约束的特征迁移方法,为解决多投影仪系统下的视图关联难题提供了新颖且有效的途径。
其应用价值显著:该方法在低编码位、低反射率、存在阴影遮挡等极具挑战性的实际工业场景(如精密电子元件检测)中,表现出了远超传统方法的稳定性和精度。同时,其对任意数量输入视图和灵活编码图案的适应能力,增强了系统的实用性和部署灵活性。尽管目前模型效率仍有提升空间,但该方法为开发下一代高性能、高鲁棒性的工业三维视觉检测系统奠定了坚实的基础。
六、 研究亮点
七、 其他有价值内容
研究团队公开了部分实现细节,如网络采用级联结构进行由粗到精的优化、使用自适应加权进行多视图代价体融合、具体的训练超参数等,为其他研究者复现和改进工作提供了便利。同时,论文也坦诚指出了当前方法的不足,即模型效率以及视图间可靠性度量方面仍有较大改进空间,为未来研究指明了方向。该工作得到了中国国家重点研发计划及浙江省“领雁”研发攻关计划等项目的资助,体现了其重要的应用导向和研究价值。