这篇文档发表于学术期刊《Measurement》253卷(2025年),题为“基于URGAN的高可读性水下设备水-空文本图像恢复”。该研究由吉林大学仪器科学与电气工程学院、中国地球物理探测仪器重点实验室等机构的研究者(Ranhao Zhang, Fudong Zhang, Haoran Meng, Chuandong Jiang, Liang Wang)完成。
本报告旨在向学术界同仁详细介绍这项针对水下拍摄的水-空文本图像进行恢复的原创性研究。
一、 作者与发表信息 本研究的主要作者包括:吉林大学仪器科学与电气工程学院、深地探测与成像国家研究实验室的张冉浩、张付栋、姜传东;中国科学院长春光学精密机械与物理研究所应用光学国家重点实验室的孟浩然;吉林大学机械与航空航天工程学院的王亮(通讯作者)。论文于2025年发表在爱思唯尔(Elsevier)旗下的期刊《Measurement》(第253卷)。
二、 学术背景与研究目的 本研究属于计算机视觉和图像处理领域,具体聚焦于水下图像恢复的子方向。随着海-空侦察技术的进步和水下设备的发展,从水下对空中目标进行成像并识别其携带的文本信息(例如水面舰艇的编号、警告标语等)对于水下设备的“水上态势感知”至关重要。然而,由于水面波动引起的折射以及水体的散射效应,水下拍摄的图像(尤其是文本图像)会严重扭曲、模糊,导致可读性极差。传统的恢复方法(如基于“幸运块”(”Lucky-Patch”)的方法、基于图像配准的方法或水面波形估计方法)通常需要输入图像序列,计算量大、实时性差,且难以实现单帧图像的准确恢复。近年来,基于深度学习的方法,特别是生成对抗网络(Generative Adversarial Network, GAN)在图像恢复任务中显示出巨大潜力,但现有研究多集中于水下图像的颜色校正和对比度增强,专门针对水下扭曲文本图像恢复的研究非常有限。
因此,本研究旨在解决一个关键难题:如何从单幅水下拍摄的扭曲、模糊的文本图像中恢复出高清晰度、高可读性的文本内容。具体目标包括:1)构建一个专门用于训练和测试的水下扭曲文本图像数据集;2)设计并实现首个基于GAN的、专门用于水下文本图像恢复的深度学习模型URGAN;3)验证该模型在仿真数据和真实数据上的有效性,证明其在提升水下设备图像处理能力方面的应用潜力。
三、 详细研究流程与方法 本研究流程主要包括三个核心环节:数据集构建、URGAN网络模型设计与训练、以及综合性能评估。
1. 数据集构建 由于现有公开数据集不适用于水下扭曲文本恢复任务,本研究自行构建了一个大规模数据集。其构建过程分为两步。首先,数据源采用了ICDAR2019-LSVT大规模场景文本数据集中的约3万张原始清晰文本图像。其次,研究者利用一种基于光学模型的水下图像失真模拟算法,对每一张原始文本图像进行处理,模拟从水下拍摄时因水面波动(折射)和水体散射造成的动态扭曲效果。在模拟中,成像平面与水面的距离被设置为0到1米之间。对于每一张原始图像,该算法生成100帧扭曲图像,然后从中随机选取10帧,最终形成一个包含约30万张配对图像(清晰文本-扭曲文本)的大规模数据集。研究团队从该数据集中随机选取了2000张图像作为测试集,其余用于模型训练。
2. URGAN网络模型设计 本研究提出了一个名为“水下文本图像恢复生成对抗网络”(Underwater-Text-Image Restoration Generative Adversarial Network, URGAN)的新型深度学习模型。该模型由一个生成器和一个判别器组成,通过对抗训练协同工作。 * 生成器(Generator):负责将输入的扭曲图像恢复为清晰的文本图像。其架构灵感来源于用于图像超分辨率的SRGAN,但针对文本恢复任务进行了关键改进。生成器采用深度卷积神经网络,核心是由多个“残差块”组成的深度结构。与SRGAN相比,URGAN的生成器有两个主要创新:第一,堆叠了更多数量的残差块(本研究最终采用了64个),这使网络能够学习更深的特征表示,更好地重建高频细节和纹理。第二,使用了更大的卷积核。由于扭曲文本恢复任务需要比超分辨率任务更大的感受野来捕获更广泛的全局信息,URGAN将残差块内部和外部的卷积核尺寸分别调整为5x5和9x9,以更充分地捕获图像特征。 * 判别器(Discriminator):是一个深度卷积神经网络,用于对输入图像进行二分类,判断其是真实的清晰图像还是生成器生成的恢复图像。在训练过程中,判别器的反馈用于优化生成器的参数。 * 训练与损失函数:URGAN的训练引入了感知损失函数来提升生成图像的质量。感知损失由两部分组成:内容损失和对抗损失。内容损失使用预训练的VGG19网络提取生成图像和真实图像在特征空间的差异,引导生成器学习真实图像的结构和内容。对抗损失则旨在通过判别器的对抗训练,促使生成器产生更逼真的图像。总损失是两者加权和,通过最小化该损失,URGAN能够学习并重建图像的高频细节和结构。
3. 实验与评估流程 研究进行了详尽的实验来评估URGAN的性能,包括: * 网络输出结果可视化:将URGAN与基础模型SRGAN的恢复结果进行对比,并展示了结构相似性指数(SSIM)的像素级热图,直观显示恢复质量。 * 消融研究:为了验证URGAN中各个模块(如残差块数量、卷积核大小)的有效性,研究设计了消融实验。从简单的无残差块的基线GAN开始,逐步增加残差块数量并调整卷积核大小,对比各变体模型的峰值信噪比和结构相似性。 * 算法横向对比:将URGAN与多种其他图像恢复算法进行比较,包括传统的“幸运块”方法以及两种基于深度学习的算法TurbNet和PUGAN。比较在仿真数据集上进行,使用峰值信噪比和结构相似性作为定量指标。 * 真实数据实验:搭建了一个模拟实验系统。将显示文本的屏幕置于水槽底部,在水面制造波动,从水上拍摄扭曲的文本图像(光路可逆,等同于水下对空中成像)。用URGAN及其他对比方法处理这些真实扭曲图像,并进行主观视觉比较和客观定量评估。客观评估除了峰值信噪比和结构相似性,还引入了文本识别准确率作为关键指标。该指标通过有道智云平台的通用OCR服务计算,以原始清晰图像中被正确识别的文本为基准,统计恢复后图像中正确识别的文本比例。
四、 主要研究结果 1. 模型性能结果:在仿真数据测试中,URGAN取得了峰值信噪比为18.68 dB、结构相似性为0.57的成绩。在真实数据测试中,URGAN取得了峰值信噪比18.30 dB、结构相似性0.56、以及79.16%的文本恢复准确率。视觉结果清晰表明,URGAN生成的恢复图像在文本边缘和细节的清晰度上显著优于其他所有对比方法。
2. 消融研究结果:消融实验证实了URGAN架构改进的有效性。基线GAN(无残差块,3x3卷积核)的峰值信噪比仅为12.08 dB,结构相似性为0.19。当引入8个残差块时,峰值信噪比提升至15.62 dB,结构相似性提升至0.37。当堆叠至64个残差块时,峰值信噪比进一步提升至16.93 dB,结构相似性为0.42。最后,在64个残差块的基础上调整卷积核大小,得到了最终的URGAN模型,其峰值信噪比达到18.62 dB,结构相似性达到0.58,相比基线模型分别提升了6.54 dB和0.39。这一系列数据有力地证明了增加网络深度和扩大感受野对于水下扭曲文本恢复任务的重要性。
3. 算法对比结果:与其它方法相比,URGAN在峰值信噪比和结构相似性上均取得最佳值。传统“幸运块”方法虽然峰值信噪比尚可,但需要图像序列输入且易产生运动伪影,难以实时处理单帧图像。TurbNet和PUGAN等方法在视觉美学和场景适应性上可能有效,但在专门恢复扭曲文本的任务上表现不佳,其文本识别准确率远低于URGAN(分别为61.99%和52.88%,而URGAN为79.16%)。这直接证明了URGAN针对文本恢复任务设计的针对性架构的优势。
4. 真实图像恢复结果:在真实拍摄的扭曲文本图像上,URGAN表现出了强大的鲁棒性。即使在扭曲严重的区域,URGAN也能有效地恢复出文本的细节和边缘,形成高度可识别的文本图像。相比之下,SRGAN的恢复结果整体较弱,细节模糊;TurbNet和PUGAN在严重扭曲区域的恢复效果不明显;“幸运块”方法则因叠加多帧图像而引入了明显的运动伪影。这些结果验证了URGAN在真实复杂场景下的实用价值。
五、 结论与价值 本研究得出结论:首先,成功构建了一个大规模、高质量的水下扭曲文本图像数据集,为相关领域研究提供了宝贵资源。其次,提出并实现了首个专门用于水下扭曲文本图像恢复的GAN模型——URGAN。该模型通过创新的生成器设计(深度残差结构和大卷积核),在保留文本精细细节方面表现出色。最后,大量实验证明,URGAN在仿真和真实场景下均能有效恢复扭曲文本,显著提升图像可读性和OCR识别准确率。 该研究的科学价值在于开创性地将深度学习,特别是GAN,应用于水下扭曲文本图像恢复这一细分领域,并提出了一种新颖且高效的网络架构。其应用价值在于,该方法基于单帧图像进行恢复,具有良好的实时处理潜力,可直接应用于水下潜航器、探测器等设备的图像处理模块,提升其对水面目标文本信息的感知和识别能力,从而增强水下设备的自主性和态势感知水平。
六、 研究亮点 1. 首创性:这是首个专门针对水下拍摄的扭曲文本图像恢复问题而设计的基于GAN的深度学习模型,填补了该细分领域的研究空白。 2. 针对性网络设计:生成器创新性地结合了更深的残差块和更大的卷积核,旨在解决文本恢复任务中对细节和全局结构信息同时需求高的挑战。 3. 综合评估指标:除了常用的峰值信噪比和结构相似性,研究特别引入了文本识别准确率作为核心评估指标,直接衡量了恢复结果在后续应用(OCR)中的有效性,使评估更具实用导向。 4. 数据集贡献:构建并开源了一个大规模、专门化的水下扭曲文本图像数据集,将促进该领域后续研究的发展。
七、 其他内容与展望 论文在讨论部分也指出了URGAN当前的一些局限性。首先,目前训练数据主要基于模拟生成,且文本内容以中文为主,在处理真实世界更复杂的非标准扭曲图像以及其他语言文本时,性能可能会下降。其次,模型的泛化能力有待在更广泛的数据集上验证。针对这些不足,作者展望未来的工作可以集中在:扩展模型以支持多语言文本恢复;增加使用真实世界数据进行训练以提升模型鲁棒性;以及改进算法以处理更复杂的、非线性的图像失真模式。这些改进将进一步提升URGAN的性能及其在实际应用中的普适性。