分享自:

基于深度学习的条纹图案分析

期刊:Advanced PhotonicsDOI:10.1117/1.ap.1.2.025001

基于深度学习的条纹图分析:实现高精度单帧相位解调

作者、机构与发表信息 本研究由南京理工大学电子工程与光电技术学院的史杰峰(Shijie Feng)、钱陈(Qian Chen, 通讯作者)、顾国华(Guohua Gu)、陶天洋(Tianyang Tao)、张亮(Liang Zhang)、胡彦(Yan Hu)、尹威(Wei Yin)和左超(Chao Zuo, 通讯作者)共同完成。研究团队也隶属于江苏省光谱成像与智能感知重点实验室以及南京理工大学智能计算成像实验室(SCILab)。该研究成果以题为“Fringe pattern analysis using deep learning”的学术论文形式,于2019年2月28日在线发表于光学领域期刊《Advanced Photonics》2019年3/4月第1卷第2期。

学术背景与研究目的 本研究属于光学计量与计算成像交叉领域,具体聚焦于条纹图分析(Fringe Pattern Analysis)这一核心课题。在许多光学测量技术中,如全息干涉测量、电子散斑干涉测量和条纹投影轮廓术(Fringe Projection Profilometry),被测物体的物理信息(如位移、应变、表面形貌)被编码在条纹图像的相位分布中。因此,从记录的条纹图中高精度地解调出相位信息,是决定这些测量技术精度的关键。

传统的相位解调方法主要分为两类:相移法(Phase-Shifting, PS)和空间相位解调法。相移法需要采集多幅(通常三幅或以上)具有固定相位差的条纹图,通过像素级运算可以获得高精度、高分辨率的相位,但其多帧采集的特性使其难以应用于动态测量,且易受环境扰动影响。空间相位解调法,如傅里叶变换轮廓术(Fourier Transform Profilometry, FTP)、加窗傅里叶变换轮廓术(Windowed Fourier Transform Profilometry, WFTP)和小波变换法,理论上可以从单幅条纹图中提取相位,这使其对动态测量更具吸引力。然而,这些方法通常存在一个根本矛盾:为了抑制噪声,算法需要利用像素的邻域信息,但这会导致在相位突变(如物体边缘、不连续区域)处的性能下降,即边缘保持能力差。因此,如何从最少数量(尤其是单帧) 的条纹图中,以最高精度提取相位,同时有效保持边缘细节,一直是该领域极具挑战性的开放性问题。

近年来,深度学习技术在计算机视觉等领域取得了巨大成功,展现了其从海量数据中学习复杂映射关系的强大能力。受此启发,本研究团队提出了一个核心科学问题:能否利用深度学习技术来革新传统的条纹图分析方法?本研究旨在首次实验验证深度学习神经网络可以经过训练后执行条纹分析任务,并显著提升从单幅条纹图中解调相位的精度。其最终目标是开发一种基于深度学习的单帧相位解调框架,在保持高精度的同时,克服传统空间方法在边缘和不连续区域性能不佳的缺点。

详细研究流程与方法 本研究的工作流程严谨且具有创新性,主要可分为以下几个关键步骤:

1. 网络架构设计与原理 研究团队没有采用简单的端到端网络(直接从输入条纹图预测输出相位图),因为他们发现直接预测包含2π跳变的包裹相位图非常困难,网络难以精确学习这种周期性不连续性。因此,他们设计了一个受传统相位解调过程启发的、由两个级联的卷积神经网络(CNN)组成的创新架构。

首先,一个典型的条纹图可以表示为:I(x,y) = A(x,y) + B(x,y) cos[φ(x,y)],其中I是强度,A是背景光强,B是条纹调制度,φ是待求的相位。大多数相位解调算法的核心是计算一个反正切函数:φ(x,y) = arctan[M(x,y) / D(x,y)],其中分子M正比于B sin φ,分母D正比于B cos φ

基于此,研究团队构建了两个CNN: * CNN1:以原始单幅条纹图I(x,y)为输入,输出估计的背景光强图像A_est(x,y)。其目标是去除条纹图中的背景干扰项。 * CNN2:以原始条纹图I(x,y)和CNN1预测的背景图A_est(x,y)作为双通道输入,输出估计的分子项M_est(x,y)和分母项D_est(x,y)。 最后,将CNN2输出的M_estD_est代入反正切函数,即可计算出最终的包裹相位图φ(x,y)。这种将复杂问题分解为学习中间物理量(背景、正弦和余弦分量)的策略,是该方法成功的关键。

2. 训练数据与“真值”生成 为了训练这两个网络,需要大量的带有“真值”(Ground Truth)标签的训练数据。本研究在条纹投影轮廓术的场景下进行验证。训练数据通过以下方式获取: * 数据采集:使用数字光处理(DLP)投影仪向80个不同的场景(包含不同材质、颜色和反射率的物体)投射12步相移(12-step PS)的条纹图案。同时,用一台高速CMOS相机同步采集这些条纹图像。每个场景产生12幅相移条纹图,共获得960幅训练用条纹图。 * “真值”计算:对于每一组(12幅)相移图,使用成熟的12步相移算法计算出高精度的背景光强A_true、分子M_true和分母D_true。这些计算结果将作为监督学习中的标签。具体而言,A_true由12幅图的平均值得到;M_trueD_true则由最小二乘法的相位计算公式中的分子和分母项得到。通过这种方式,深度学习网络学习的目标是从单幅图中预测出原本需要多幅图才能精确计算出的物理量。

3. 网络具体结构与训练细节 * CNN1结构:相对简单,包含一个卷积层、一组包含4个残差块(Residual Blocks)的模块,以及两个卷积层。输入为W×H像素的条纹图,输出为相同尺寸的背景图。 * CNN2结构:更为复杂。输入为两通道(条纹图和预测背景图)。网络包含两条不同尺度的数据流路径:一条保持原始分辨率,另一条先进行下采样以获得高层感知,再进行上采样以匹配原始尺寸。最后通过一个拼接(Concatenation)块和线性激活的卷积层,同时输出M_estD_est。这种双路径设计使网络能够感知更多表面细节。 * 训练过程:由于CNN2的输入依赖于CNN1的输出,因此采用分阶段训练策略。先独立训练CNN1,然后用训练好的CNN1处理训练集条纹图得到预测背景,再将这些预测背景与原始条纹图配对,用于训练CNN2。训练使用TensorFlow框架,在NVIDIA GTX Titan显卡上进行。此外,还创建了包含12个新场景(144幅图)的验证集来监控网络的泛化能力。

4. 实验验证与对比分析流程 训练完成后,研究团队设计了一系列实验来验证所提方法的性能,并与两种代表性的单帧方法——傅里叶变换轮廓术(FTP)和加窗傅里叶变换轮廓术(WFTP)进行对比。 * 测试对象:使用一个未在训练集中出现过的复杂场景,包含两个孤立的石膏模型(一个具有卷曲头发和高鼻梁的复杂面部模型,另一个相对简单)。 * 处理流程:将单幅测试条纹图输入训练好的网络。CNN1输出预测的背景图;CNN2接收条纹图和预测背景图,输出预测的分子和分母图;最后通过反正切运算得到包裹相位图。 * 相位展开与误差评估:为了直观评估相位质量,使用多频时序相位展开法将包裹相位展开为绝对相位。为了定量评估精度,计算了与参考相位(由12步相移法得到并展开)之间的绝对相位误差图及平均绝对误差(MAE)。 * 三维重建:将解调出的绝对相位通过立体三角测量原理转换为三维点云,进行三维形貌重建,直观比较不同方法的重建效果。 * 鲁棒性测试:进一步测试了在较低载频条纹下方法的性能,并与FTP和WFTP进行对比。 * 绝对精度定量验证:对一个已知尺寸的标准陶瓷球对进行测量,将重建的三维点云拟合为球体模型,计算得到的半径和球心距,并与坐标测量机校准的真值进行比较,以验证方法的绝对测量精度。

主要研究结果 1. 中间结果可视化:对于测试的复杂石膏模型场景,CNN1成功地从单幅条纹图中估计出了几乎完全去除条纹的背景图像。CNN2则输出了高质量的分子项M_est和分母项D_est图像,这些图像平滑且保留了边缘信息。 2. 相位误差定量对比:定量误差分析显示,传统FTP方法的平均绝对误差(MAE)为0.20弧度,WFTP为0.19弧度。而基于深度学习的方法将MAE显著降低至0.087弧度,误差减少了一半以上。更重要的是,从误差分布图可以看出,FTP和WFTP的误差主要集中在物体的边界、头发等相位突变和复杂区域。相比之下,深度学习方法的误差在这些区域显著减小,证明了其优异的边缘保持能力。 3. 三维重建质量对比:三维可视化结果清晰表明:FTP重建的表面存在明显的颗粒状失真;WFTP重建的表面更光滑,但丢失了大量细节(如左模型的眼睛、右模型裙子的褶皱);而基于深度学习的方法重建的三维形貌细节丰富、表面光滑,在视觉上几乎再现了使用12步相移法得到的“真值”结果。 4. 低载频下的鲁棒性:当条纹载频从160降低到60时,FTP和WFTP的重建质量严重下降(MAE分别升至0.28和0.26弧度),而深度学习方法的性能保持稳定,MAE仅为0.10弧度,显示了其对载频变化更强的鲁棒性。 5. 绝对测量精度验证:对标准陶瓷球对的测量结果表明,深度学习方法从单幅条纹图重建出的球体半径误差分别为+15微米和+17微米,球心距误差为-21微米。这些微米级的误差验证了该方法不仅能够高精度地恢复相位,还能实现高精度的单次拍摄三维形貌测量

研究结论与价值 本研究成功证明并实现了一种基于深度学习的条纹图分析新范式。主要结论是:通过设计合理的网络架构(学习背景、正弦和余弦分量而非直接学习相位),并利用多步相移数据生成训练标签,深度学习模型能够从单幅条纹图中高精度、高保真地解调出相位信息。 该方法在精度上显著优于传统的FTP和WFTP等单帧方法,尤其在处理物体边缘、不连续面和复杂纹理区域时表现出卓越的性能。

其科学价值在于:首次将深度学习引入条纹相位分析领域,为解决“单帧、高精度、边缘保持”这一长期难题提供了一个全新的、数据驱动的解决方案。它打破了传统空间相位解调方法的理论局限,展示了深度学习在解决复杂逆问题方面的强大潜力。

其应用价值巨大:该方法只需单次曝光即可实现高精度三维测量,非常适合于动态、高速或易受振动干扰的测量场景,如生物医学检测、工业在线检测、振动分析等。一旦模型训练完成,相位解调过程完全自动化,无需像传统方法那样手动调整参数(如滤波窗口大小、载频估计等),提高了实用性和效率。

研究亮点与创新性 1. 开创性思路:首次将深度学习应用于条纹图相位解调,开辟了光学计量与人工智能交叉的新研究方向。 2. 巧妙的网络设计:没有采用简单的端到端相位回归,而是模仿物理过程,让网络学习背景、分子和分母等中间物理量,有效规避了直接学习包裹相位的困难,大大提高了学习的可行性和精度。 3. 优异的性能:实验证明,该方法在单帧相位解调精度上实现了对传统经典方法的显著超越,同时具备了卓越的边缘保持能力和对载频的鲁棒性。 4. 完整的验证体系:研究不仅提供了相位误差的定量对比,还通过三维形貌重建和标准件测量,从视觉和绝对精度两个层面全面验证了方法的有效性和实用性。 5. 强大的泛化潜力:作者指出,经过针对不同类型数据(如指数相位条纹、闭合条纹)的训练,所提出的网络框架或其变体有望应用于全息干涉、散斑干涉等其他相位测量技术,展现出广阔的应用前景。

其他有价值的内容 论文中提到的“消融分析”(Ablation Analysis)也很有价值。他们在补充材料中比较了三种变体方案:直接预测相位、不预测背景直接预测分子分母、同时预测背景、分子和分母。实验结果证实了他们所采用的“先预测背景,再结合背景预测分子分母”的两阶段级联网络结构是最优的,这进一步支撑了其网络设计思想的合理性。此外,论文对训练数据的选择(物体多样性、避免过暗或过亮表面)、网络训练细节(损失函数、优化器)以及载频选择等实际应用问题也进行了讨论,为后续研究者复现和改进工作提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com