一种用于纠正水对空图像的新型框架

分享自：
一种用于纠正水对空图像的新型框架

物理学
生物医学工程
期刊:Optics & Laser TechnologyDOI:10.1016/j.optlastec.2025.112433
【点击此处】阅读全文、收藏及针对性提问
本文档是一篇发表于国际期刊 optics & laser technology 卷186（2025年）页112433的原创性研究论文，题为《一种校正水对空图像的新颖框架》。第一作者为Yiqian Cao，通讯作者为Chengtao Cai（哈尔滨工程大学）和Chunsheng Yang（广州大学）。合作作者包括Haiyang Meng（上海航天控制技术研究所）。本研究由国家自然科学基金资助（项目号52171332）。
研究的学术背景属于光学交叉介质成像领域，具体聚焦于水对空成像中的图像失真校正问题。当水下设备通过波动的水面观测空中目标时，光线在水-气界面发生折射，导致图像产生复杂的几何畸变和运动模糊，严重降低了目标的可视性。这一问题在军事和海洋环境监测中具有重要应用价值。现有的校正方法主要分为基于物理模型和基于模板（如图像序列）两类。基于模型的方法依赖于难以实时精确获取的水面形态数据，实用性受限；而基于模板的传统方法（如使用平均图像或幸运图像块）则存在计算复杂度高、对模板质量依赖性强、校正后图像仍存在整体位置偏移或残留模糊等问题。特别是，现有方法难以在算法效率和校正质量之间取得良好平衡。因此，本研究旨在提出一种新颖的框架，以较低的计算复杂度实现对高度失真水对空图像序列的高质量校正。
本研究提出并详细阐述了一个包含两个核心部分的整体方法框架：用于快速校正的快速流方法和用于高质量校正的约束像素分布框架。整个研究流程以一系列失真图像序列作为输入，通过不同的算法路径进行处理，最终输出校正后的清晰图像。
详细工作流程如下：
1. 快速流方法：此方法的核心目标是降低算法复杂度，实现快速处理。它引入了一个多流融合块来替代传统耗时的图像配准算法。MBF的工作原理是：首先，选择一个序列帧作为基准帧A，计算从基准帧A到整个序列平均图像的偏移图（光流场），并通过正向映射将A映射到一个中间图像I3；同时，计算从平均图像到另一个目标帧B的偏移图，并通过负向映射将B映射到另一个中间图像I4。类似地，从帧B到平均图像再到帧A的流程可生成图像I1和I2。这四幅图像（I1, I2, I3, I4）包含了从不同数据流路径获得的互补信息。随后，研究采用三级双正交小波变换对这四幅图像进行分解，并设计了一种新颖的融合策略对其进行逐层融合，最后通过小波重构得到一幅融合图像。这个过程构成了一个基本的融合单元。为了增强数据整合能力，研究进一步提出了链式流块，它本质上是多个MFB的级联。在LFB中，前一个MFB的输出被用作下一个MFB的“平均图像”输入，从而在多个图像之间形成链式滚动交互，更有效地融合多幅图像的纹理和轮廓信息。RF方法旨在为低失真或对图像质量要求不高的场景提供一种轻量级的解决方案。
2. 约束像素分布框架：这是本研究的核心创新，旨在不依赖标准模板的情况下，实现对高度失真序列的高质量校正。CPD框架包含四个关键组件：三尺度半步求解器、链式流块、对齐方法和纹理预测模型。其工作流程是一个多阶段的迭代优化过程。
三尺度半步求解器：这是CPD的核心组件，旨在通过约束像素簇的分布来减少对初始模板和大数据量的依赖。它分三个尺度（1/4尺度、1/2尺度和原始尺度）迭代运行。在每个尺度下，其核心操作是：从图像序列中选定一帧作为参考帧，计算该参考帧到序列中其他所有帧（如60帧）的像素偏移图。对于参考帧中的每一个像素点，它在所有其他帧中的对应位置（由于失真）会形成一个空间分布。Semi-step求解器的关键创新在于，它并不将这些偏移后的像素直接对齐到目标位置，而是计算半步坐标，即仅使用偏移向量的一半来计算新的位置。然后，计算所有这些“半步位置”的平均坐标，作为该像素簇的估计中心点。最后，将这个平均中心点映射回参考帧的坐标空间，生成一幅新的、失真度降低的图像。这个过程相当于将散乱分布的像素向其“真实”位置收敛了一半。通过1/4和1/2低尺度求解器的初步处理，可以在数据量较小的情况下有效捕捉图像轮廓，降低后续步骤对数据量的需求。原始尺度求解器则进行最终的精细校正。
对齐方法：由于低尺度（如1/4尺度）求解器输出的图像尺寸小且缺乏细节，需要将其对齐回原始尺度。本研究设计了一种单向映射对齐方法。该方法计算从原始序列帧到低尺度图像的偏移图，以及从低尺度图像回到原始帧的偏移图（双向光流），将两个偏移图取平均后作为最终的调整因子，再通过单次映射将低尺度图像放大并与原始尺度对齐，从而获得具有原始分辨率但质量更高的处理序列。
链式流块：此处的LFB作用与RF方法中类似，但被整合到CPD流程中，用于对经过半步求解器初步校正后的图像序列进行进一步的纹理融合与增强。研究还专门为LFB设计了一种基于特征值分解的自适应融合系数调整方案，以优化融合效果。
纹理预测模型：经过以上步骤处理的图像序列，其平均图像往往仍会丢失高频细节（如清晰纹理）。为此，本研究设计了一个基于深度学习的纹理预测模型。该模型采用多输入块，输入包包括一个序列的平均图像和从序列中分区域采样的四个失真图像，使网络能同时学习清晰纹理与失真模式的关系。模型核心是预测记忆块，它包含一个预测通道和一个记忆通道，能够跨层整合时序和空间特征，预测并重建模糊的纹理细节。此外，还引入了可变形链式区域，以增强网络对空间变化特征的适应和融合能力。模型使用均方误差损失函数进行训练，数据集包含3300组自定义的失真图像序列、其平均图像及对应的清晰图像。
实验设计与主要结果如下：
研究在多个公共数据集（如“大字体”、“中字体”、“棋盘格”、“砖墙”等）上进行了充分的实验验证，并将所提方法与多种现有先进方法进行了对比。
半步求解器的有效性：实验结果表明，随着三尺度半步求解器的迭代（从1/4尺度到原始尺度），输出序列的平均图像逐渐变得清晰。例如，“大字体”数据集中的字符轮廓从模糊变得可辨识，“砖墙”的线条纹理从断裂变得完整。这证明了半步求解器能有效约束像素分布，逐步将像素簇收敛到更接近真实位置，从而减少图像失真。
纹理预测模型的分析：通过消融实验验证了TPM中各模块的重要性。对比仅使用平均图像的结果，TPM显著恢复了高频细节。在去除可变形链式区域、预测记忆块或多输入策略的对比实验中，输出图像质量均出现明显下降，表现为纹理模糊、形态不完整或存在重影。这证明了TPM完整的结构对于纹理预测和细节重建至关重要。使用图像质量评估指标SMD2进行量化，完整TPM结构输出的数值最高，证实了其强大的数据整合与预测能力。
CPD框架内部结构分析：通过逐一移除CPD中不同尺度的求解器进行实验，证明了每个尺度求解器都不可或缺。移除1/4尺度求解器会导致校正性能下降，轮廓严重失真；移除1/2尺度求解器会使某些区域变得模糊；而移除原始尺度求解器则导致输出结果粗糙，校正不充分。这说明了多尺度策略的有效性：低尺度求解器负责初始化数据和降低依赖，高尺度求解器负责精细优化。
LFB与MFB的迭代效果对比：实验显示，与MFB相比，LFB在迭代过程中能更好地处理字符等细节纹理，消除拖影，使校正后的图像形态更稳定，颜色更保真。这表明LFB通过链式滚动融合，能够整合更多形态学数据。
整体性能对比：在最具挑战性的“大字体”数据集上，现有方法（如Jian等人）的结果仍存在字符倾斜和涂抹。而本研究提出的CPD方法，即使仅使用15或30帧图像，其校正效果在视觉清晰度、形态完整性和色彩对比度上均超越了现有方法使用61帧得到的结果。在“棋盘格”和“砖墙”数据集上，CPD方法能有效校正曲线畸变，恢复出笔直的线条和规则的网格，而传统方法的结果则存在明显的弯曲。快速流方法在“中字体”等低失真数据集上也能达到可接受的性能，验证了其轻量级应用的潜力。论文还使用了UIQM和SMD2两种图像质量指标进行量化评估。数据表明，CPD方法在多数数据集上的得分优于对比方法。一个有趣的发现是，CPD方法使用15帧、30帧和61帧输入时，部分质量指标并非单调递增，作者分析认为这可能是由于无效像素簇的干扰以及图像视觉质量与量化参数的不完全对应所致，但总体上视觉质量是逐步提升的。
结论： 本研究针对水对空失真图像校正的难题，提出了一个创新的算法框架。其主要贡献在于：1）提出了快速流方法，通过多流融合模块替代传统配准，降低了算法复杂度，为实时或轻量级应用提供了可能；2）提出了约束像素分布框架，其核心是三尺度半步求解器，能够在无需标准校正模板的情况下，有效处理高度失真的图像序列，并通过约束像素分布逐步收敛至真实位置，显著降低了对模板质量和数据量的依赖；3）设计了纹理预测模型，通过深度学习技术有效预测并重建了因平均操作而丢失的图像高频细节。实验证明，该框架在多个公共数据集上性能优异，能以更少的输入帧数（15或30帧）取得优于现有方法使用更多帧数（61帧）的校正效果，在形态完整性、清晰度和计算效率之间取得了良好平衡。
研究的亮点在于： 1） 方法论的创新：提出的“半步求解”思想是核心创新，它通过分步、约束式的像素位置估计，巧妙地绕开了对清晰模板的依赖，为无模板校正提供了新思路。2） 框架设计的系统性：将快速处理路径与高质量校正路径结合，并融合了传统图像处理（多尺度、光流、小波融合）与深度学习（纹理预测网络）技术，构成了一个完整且层次分明的处理流程。3） 显著的性能提升：在极具挑战性的公开数据集上取得了视觉和定量指标上的显著提升，证明了其有效性和优越性。4） 对实际应用的考虑：明确区分了快速轻量版和高精度版算法，考虑到了不同场景下的资源约束和性能需求。
其他有价值的内容：论文还对水对空成像的基本原理（斯涅尔窗口、像素偏移理论）进行了清晰阐述，为理解失真成因提供了理论基础。同时，研究也坦诚指出了当前图像质量评估指标（如UIQM, SMD2）可能与视觉感知不完全一致的问题，这对后续研究具有启发意义。未来工作将探索动静态目标的时空关系，并将算法应用于更复杂的运动目标场景中。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问