一种用于校正水对空畸变图像的新型分段框架

分享自：
一种用于校正水对空畸变图像的新型分段框架

期刊:Optics CommunicationsDOI:10.1016/j.optcom.2024.131149
本文旨在介绍一项关于水对空扭曲图像校正技术的前沿研究，题为 “a novelty segmented framework for correcting water-to-air distorted images”。本研究由来自哈尔滨工程大学、黑龙江省级环境智能感知重点实验室、教育部海洋装备智能技术及应用重点实验室（哈尔滨工程大学）、国家电子政务模拟仿真工程实验室以及上海航天控制技术研究所的研究团队共同完成。论文发表于 Optics Communications 期刊，于2024年9月24日在线发表，收录于第574卷，文章编号131149。
一、 学术背景
本研究隶属于计算机视觉、光学图像处理和交叉介质成像领域，具体聚焦于解决水下摄像机透过波动水面观测空中目标时产生的图像严重失真问题。该问题的核心挑战在于水-气界面的随机波动，使得光线产生复杂折射，导致到达水下摄像机的光线发生严重的像素位移和模糊效应。这种失真使得目标识别、观测和分析变得异常困难。
目前，尽管已有多种基于模型或基于模板的图像校正算法被提出，但其校正效果仍不尽如人意。作者指出，现有方法的局限性主要源于两个方面：一是使用了低质量的参考图像（模板），例如直接采用图像序列的均值图像作为模板会引入不可逆的非线性稀疏噪声和运动鬼影；二是采用了低效的迭代校正框架，例如广泛使用的B样条参数化配准算法，其拟合过程的随机性可能导致捕获的特征点无效，且计算复杂度高。
基于此，本研究旨在弥补这些不足，目标是开发一种新颖、高效且能够显著提升校正质量的技术框架。核心研究目标是通过分离模板优化与图像校正两个阶段，并引入创新性算法模块，以较小的数据输入量（例如仅30帧图像）获得优于现有方法使用更多数据（例如61帧）的校正效果，最终实现对水对空扭曲图像的高精度、高清晰度重建。
二、 研究流程详述
本研究提出了一种分段的创新框架，该框架明确地将整个处理流程划分为两个独立阶段：模板优化阶段和图像校正阶段。这种方法的核心思想是避免使用空间结构受损的图像序列直接进行校正，而是首先构建一个高质量的、低失真的参考模板。
第一阶段：模板优化
模板优化阶段是整个框架的基础，旨在从一个初始的、可能高度失真的图像序列中，生成一个高质量的参考图像。该阶段整合了四个关键模块，每个模块都针对特定问题设计。
阶梯结构图像预测 (Ladder-structured Image Forecasting, L-IF)： 这是模板优化的核心模块，主要解决数据量不足和初始图像质量差的问题。该模块基于“比例光流映射”(Proportional Optical Flow Mapping) 算法。该算法的核心思想是：给定一个参考图像R和一个目标图像T，通过调整一个比例系数k（0 ≤ k ≤ 1），可以生成一个介于R和T之间“中间状态”的预测图像。公式表示为：预测图像 = (k × flow(R→T) + (1 - k) × flow(T→R)) / 2，其中flow表示光流计算过程。通过系统性地改变k值（实验确定最优值为0.5），该模块能够利用有限的输入序列（如30帧），高效地生成大量高质量的“过程图像”。这些过程图像捕捉了不同时刻特征点的中间位置，从而极大地扩充了可用于构建高质量模板的数据集，降低了对原始输入数据量的依赖。实验证明，通过L-IF生成的序列所获得的模板，其质量与使用更多原始帧（61帧）通过传统方法获得的模板质量相当，甚至更优。
梯度配准 (Gradient Registration)： 为了进一步提升模板中轮廓和边缘结构的质量，本研究提出了梯度配准方法。传统光流计算针对整个图像，可能受到颜色衰减、光照变化等无关像素的干扰。梯度配准专注于图像的梯度变化（轮廓信息），仅追踪和重建轮廓的位移。具体而言，首先计算图像的x和y方向梯度（公式：Gi = Gx(i) + Gy(i)），然后在梯度域上进行配准操作。这种方法能有效抑制由水对空折射引起的像素衰减所导致的色彩差异，保证图像颜色变化和光照因素的一致性，对于光流算法的稳定性和准确性至关重要。
反比例距离加权 (Inverse Proportional Distance Weighting, IPDW)： 该模块旨在解决直接使用均值图像作为模板导致的模糊问题。其核心思想是将像素的空间位置与像素值进行分离。算法首先在序列中同一坐标位置提取一系列像素点（记为点集P），并计算它们的均值点C。虽然均值点C的位置包含了轮廓信息，但其像素值是模糊的。IPDW假设真实的、未失真的像素点T与C具有相同的空间坐标，但其像素值需要通过点集P的像素值加权映射得到。加权规则基于“距离越近，影响力越大”的原则，采用街区距离（City-block distance）计算每个像素点Pi到均值点C的距离d[i]，然后根据距离的反比例计算权重r[i]。对于与C重叠的像素点，引入调节因子t=10来降低其过大的权重影响。最后，利用权重r[i]对点集P的像素值进行加权求和，得到目标点T的清晰像素值。这种方法能有效抑制运动模糊和像素位移导致的拖影效应，重建出清晰的纹理和轮廓。
块融合 (Patch Fusion)： 为解决图像块在拼接时产生的纹理错位和接缝问题，本研究设计了一种新的块选择与融合算法。首先，将图像序列中的每一帧分解为大小为原图1/8的图像块。为了确保相邻块在边界处的平滑过渡，相邻块之间设计了50%的重叠区域，内部区域则有25%的重叠。对于每个空间位置上的图像块集合，算法通过计算每个候选块与均值块的结构相似性指数（SSIM）作为基础评分。同时，为了衡量块内像素的一致性，算法引入像素距离约束：对于块内每个像素位置，计算该位置上所有像素点之间的累积差异di，选择差异最小的像素来源作为该位置的优选索引。通过对整个块统计所有位置的优选索引，计算各候选块被选中的概率。最后，将SSIM值与概率值相加，作为每个候选块的复合参数，选择参数最高的图像块作为该位置的最佳块。最终，将所有位置的最佳块按照重叠规则进行融合，生成一个纹理对齐、结构一致的高质量参考模板。
第二阶段：图像校正
在获得高质量的参考模板后，进入图像校正阶段。此阶段的主要任务是将输入序列中的每一幅失真图像与优化后的模板进行对齐和校正。本研究采用了之前提到的比例光流映射作为核心的配准技术，以取代计算复杂度高且拟合效果不稳定的B样条参数化配准算法。该阶段利用第一阶段构建的清晰模板作为稳定的目标，通过计算失真图像到模板的光流映射关系，逆向补偿像素的位移，从而恢复出未失真的图像。由于模板本身质量高，轮廓清晰，大大降低了配准过程的难度和不确定性，使得最终的校正结果在细节保持和整体结构上都有显著提升。
三、 主要结果分析
研究的实验结果通过在多个公共数据集（大字体、中字体、小字体、棋盘格、砖墙图案）上与现有先进方法（如 Tian, Oreifej, Zhang, Sun, Jian 等人的方法）进行对比，充分验证了所提框架的有效性和优越性。
模板优化模块的效能验证： 实验表明，直接对原始序列取均值得到的图像模糊不清且带有运动鬼影。而经过L-IF模块扩充数据后，即使仅用30帧数据，得到的预测序列的均值图像也已显示出相对正常的形状，尤其是对于中、小字体，传统均值图像几乎无法辨认，但L-IF结果中的伪影显著减少。这证明了L-IF能够以较少数据量获得高质量模板。IPDW模块的结果显示，在处理大、中、小字体数据时，IPDW方法在轮廓重塑和细节重建方面表现卓越，字符清晰且无混沌伪影，显著优于传统的均值方法。
整体框架性能的验证： 通过在五个不同难度和特征的公共数据集上进行测试，本文方法展现出了全面且优异的校正性能。例如，在处理最具挑战性的“大字体”数据时，现有方法均无法有效处理其复杂变形和动态字符流。而本文方法使用30帧输入得到的结果已呈现出清晰的形态，字符变形更少；使用61帧输入得到的结果则线条饱满、排列整齐。在“中字体”数据上，本文方法在清晰度和排列规整度上都超越了其他方法，例如在单词“reconstruction”中的“str”字符部分，只有本文方法的结果是对齐均匀的。对于“小字体”数据，本文方法的细节相对清晰，最后一行的“ponds 0.6%”等字符易于阅读。对于“棋盘格”和“砖墙”图案，本文方法在视觉效果和客观数据（SSIM、MSE）上均表现最佳，线条笔直，方格或砖块大小均匀，纹理一致。
条件性实验分析： 为阐明各子模块的功能，研究进行了消融实验。当移除整个模板优化阶段时，校正结果字符分散、重叠且扭曲。仅移除L-IF模块会导致结果扭曲和混乱。若将梯度配准替换为比例光流映射，并用均值算法代替IPDW，同时移除块融合，则所得图像部分区域失真，轮廓呈现粘连特性。这些实验结果表明，模板优化阶段在整个框架中至关重要，其中L-IF是核心，而梯度配准、IPDW和块融合模块对结果轮廓和细节具有深刻影响。
定量分析： 根据论文提供的表格数据，在SSIM（结构相似性指数）和MSE（均方误差）两个关键质量指标上，本文方法（无论是使用30帧还是61帧输入）在“小字体”、“中字体”和“砖墙”数据集上均优于所有对比方法。特别是使用61帧时，取得了最高的SSIM值和最低的MSE值，证明了其卓越的校正精度。
四、 研究结论
本研究成功整合了多种创新方法，开发了一种新颖且高效的水下（水对空）图像校正框架。该框架通过分离模板优化与图像校正两个阶段，从根本上解决了因使用低质量模板而导致的校正失真问题。所提出的阶梯结构图像预测模块有效扩展了数据，降低了方法对数据量的依赖；梯度配准方法解决了光照等因素导致的纹理配准错误；反比例距离加权方法显著提升了轮廓和细节的重建质量；而块融合策略则有效避免了图像块拼接时的纹理错位。实验结果表明，无论是在视觉感知还是客观定量指标上，本框架的校正效果均显著优于当前最先进的算法。尤为突出的是，本方法仅需30帧图像即可达到甚至超越其他方法使用61帧图像的效果，在效率和性能上实现了双重突破。
五、 研究亮点
本研究的亮点主要体现在以下几个方面： 1. 创新的分段框架设计： 明确将模板生成与图像校正解耦，避免了低质量序列对校正过程的直接影响，这是方法论上的重要创新。 2. 高质量模板生成技术： 集成了L-IF数据扩充、IPDW清晰化、梯度配准轮廓增强和块融合纹理对齐等一系列创新模块，系统性解决了高质量参考模板的构建难题。 3. 高效的数据利用能力： 提出的L-IF模块能够从少量数据中生成大量高质量的中间过程图像，极大降低了对大规模训练或输入数据的需求，提高了方法的实用性和适用性。 4. 卓越的校正性能： 在多个标准数据集上的实验证明，该方法在处理严重变形、线条结构和小像素块等不同类型的失真时，均能取得目前最佳的校正效果，尤其是在数据量减半的情况下性能仍具优势。 5. 算法组件的通用性潜力： 如梯度配准、IPDW和块融合等方法，不仅适用于本特定问题，也可能为其他图像恢复、超分辨率和图像融合领域提供新的思路。
六、 其他有价值的内容
文章在引言部分详细回顾了该领域的相关研究，包括基于模型的校正方法、基于模板的方法（如使用均值图像、低失真图像选择、分块组合等），并指出了各类方法的局限性（如引入非线性噪声、存在校正死区、块纹理错位、计算效率低等），从而清晰定位了本研究的出发点和贡献点。此外，文章从斯涅尔折射定律出发，建立了图像失真的物理模型，为算法设计提供了理论依据。最后，作者展望了未来工作方向，即优化运行速度以实现实时应用场景，指明了技术的下一步发展路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问