论文题目: Underwater Image Enhancement via Medium Transmission-Guided Multi-Color Space Embedding (通过介质透射图引导的多色彩空间嵌入实现水下图像增强)
作者与机构: 本研究的通讯作者为 Junhui Hou (侯军辉),隶属于香港城市大学计算机科学系。主要作者包括:Chongyi Li (李重仪,香港城市大学/南洋理工大学)、Saeed Anwar (澳大利亚联邦科学与工业研究组织数据61研究所/澳大利亚国立大学)、Runmin Cong (丛润民,北京交通大学)、Chunle Guo (郭春乐,南开大学) 以及 Wenqi Ren (任文琦,中国科学院信息工程研究所)。
发表信息: 本研究以学术论文形式发表于 IEEE Transactions on Image Processing 期刊,第30卷,2021年。论文在线发表日期为2021年5月7日。
研究领域与背景: 本研究属于计算机视觉和图像处理领域,具体聚焦于水下图像增强。由于光在水下传播时存在波长和距离依赖的衰减与散射,导致捕获的水下图像普遍存在颜色偏差(如蓝绿色偏)和低对比度问题,严重影响了视觉质量和后续的自动化分析。传统的增强方法主要分为两类:一是基于物理模型的方法,通过估计介质透射图、背景光等参数来反向求解清晰图像,但参数估计本身是病态问题,且模型假设在实际复杂水下场景中并不总是成立,导致结果不稳定。二是基于深度学习的方法,其性能严重依赖于网络架构的设计和数据驱动能力。然而,先前的大多数深度学习方法并未充分考虑水下成像的领域知识(例如不同色彩空间的特性、介质透射图指示退化区域的物理意义),通常直接套用为其他视觉任务设计的网络架构,限制了其性能上限和泛化能力。因此,本研究旨在提出一个新颖的深度学习网络架构,名为 Ucolor,其核心目标是通过有机融合多色彩空间特征表示与水下成像物理模型的先验知识,有效解决颜色偏差和低对比度两大退化问题,实现对各类水下场景鲁棒且高质量的图像增强。
研究思路与详细工作流程: Ucolor网络的核心创新在于其精心设计的两大部分:多色彩空间编码器网络 和 介质透射图引导的解码器网络。整体架构采用编码器-解码器形式,并融入了注意力机制。整个研究流程涉及模型设计、数据准备、训练和全面的实验评估。
首先,是多色彩空间编码器网络的设计与实现。 该部分旨在克服单一RGB色彩空间特征表示的局限性。具体工作流程如下:1) 色彩空间转换:输入一张水下图像,同时将其转换到HSV和Lab色彩空间。这样,对于同一张图像,形成了三种不同的视觉表示。RGB空间易于存储和显示,但各通道高度相关;HSV空间能直观反映色调、饱和度与亮度;Lab空间则能更均匀地表达人眼可感知的颜色,对颜色偏差测量更有利。2) 并行特征提取路径:网络建立了三个并行的编码路径,分别处理RGB、HSV和Lab图像。每条路径都包含三个串联的“残差增强模块”,每个模块后通过最大池化进行2倍下采样,从而提取三个不同层次(低、中、高语义层次)的特征图。3) 特征融合与增强:为了促进不同色彩空间特征的交互,研究采用了密集连接策略,将HSV路径和Lab路径中与RGB路径对应层次的特征图,在通道维度上与RGB路径的特征图进行拼接,从而增强了RGB路径的特征表达。4) 自适应特征选择:接下来,将三个并行路径在同一层次提取出的特征图进行拼接,形成三组富含多色彩空间信息的特征集合。为了自适应地突出其中最具判别性的特征,研究为每一组特征引入了一个通道注意力模块。该模块首先对输入特征进行全局平均池化,获得通道描述符;然后通过一个带有瓶颈结构(包含两个全连接层,使用ReLU和Sigmoid激活函数)的自门控机制,学习出一组通道权重;最后将这些权重与原始特征相乘,并与原始特征相加(恒等连接),实现对重要特征的强调和对无用特征的抑制。
其次,是介质透射图引导的解码器网络的设计与实现。 该部分旨在将水下成像的物理先验知识嵌入到深度学习框架中。关键组件是介质透射图引导模块。工作流程如下:1) 介质透射图获取:根据水下成像物理模型,图像退化程度可由介质透射图来反映(透射率低的区域退化严重)。由于真实数据的透射图真值难以获取,本研究采用了一种基于先验的估计算法(文中采用的是广义暗通道先验GDCP算法)来从输入图像估算出介质透射图t。然后,将其值归一化到[0,1]区间,并计算其反向图RMT(RMT = 1 - t)。RMT图中,值越大的像素点代表其质量退化越严重,在网络中应获得更多关注。2) 引导机制:在解码器端,对于从编码器传来的、经过通道注意力模块筛选后的每一层次特征图,研究者将对应尺度的RMT图(通过最大池化下采样得到)作为一个空间注意力掩码。该引导模块的操作非常简单而有效:将输入特征图与RMT图进行逐元素相乘,然后将结果与输入特征图相加(同样是恒等连接)。这使得网络能够根据物理先验,自适应地对退化严重区域的视觉特征进行“加权”强调,从而引导解码过程更关注于修复这些困难区域。
第三,是网络训练与实验设置。 1) 损失函数:为了在图像内容保真度和视觉感知质量之间取得平衡,本研究采用组合损失函数,包括用于衡量像素级差异的L2损失,以及用于衡量高级特征相似性的感知损失(基于预训练的VGG-19网络的特定层特征计算)。最终损失为两者的加权和。2) 数据集:为了训练Ucolor,研究者结合使用了真实数据和合成数据。从UIEB数据集中随机选取了800对真实水下图像及其参考图像。同时,从一个包含10种不同水质类型的水下合成图像数据集中选取了1250张图像。通过随机裁剪128x128的图像块进行数据增强。3) 训练细节:网络使用Adam优化器,学习率固定为1e-4,批大小为16。所有卷积核大小为3x3,步长为1。
第四,是全面的实验评估流程。 研究者在多个公开基准数据集上进行了广泛测试,包括:包含90对真实图像的Test-R90、包含1000张合成图像的Test-S1000、更具挑战性的60张无参考真实图像Test-C60、水下立体图像数据集SQuID中的16张代表性图像,以及用于评估颜色校正精度的Color-Check7数据集。对比方法涵盖了传统方法(如融合方法Ancuti et al.)、基于物理模型的方法(如GDCP、Li et al.)、以及深度学习方法(如Water-Net、UcycleGAN、UWCNN)。此外,还设置了两个基线模型(Unet-U和Unet-RMT)以凸显Ucolor架构本身的优势。评估指标包括全参考指标(PSNR, MSE)、无参考指标(UIQM, UCIQE, NIQE)、颜色差异指标(CIEDE2000)以及通过20名受试者进行的主观感知评分。
主要结果: 实验结果表明,Ucolor方法在绝大多数情况下均优于现有的先进方法。 1. 在Test-R90和Test-S1000上:Ucolor在PSNR和MSE指标上均取得了最佳成绩,显著优于第二名。这表明其增强结果在像素级别上最接近参考图像。 2. 在Test-C60和SQuID上:主观感知评分显示,Ucolor在Test-C60上获得了最高分,在SQuID上仅次于传统融合方法排名第二,但显著优于其他深度学习方法。无参考指标的结果存在波动(例如传统方法在某些指标上领先),但研究者指出这些指标有时无法准确反映视觉感知质量。视觉对比图清晰显示,Ucolor能有效消除色偏、提升对比度,且不会引入明显的过度增强或伪色,结果看起来更自然。 3. 在Color-Check7上:对于不同相机拍摄的色卡图像,Ucolor在多数相机上取得了最低的CIEDE2000颜色差异值,并且平均得分最佳,证明了其在水下颜色校正方面的出色鲁棒性和准确性。 4. 消融研究结果:该部分有力地验证了Ucolor各核心组件的有效性。 * 多色彩空间编码器:移除HSV或Lab路径,或将所有路径输入都换成RGB图像(w/ 3-rgb),性能均会下降。这表明精心设计的多色彩空间嵌入确实带来了更强大的特征表示能力,而非简单地增加参数。 * 介质透射图引导:移除MTGM模块,或使用其他先验(如UDCP, DCP)估算的透射图,性能均不如使用GDCP估算的RMT图。这证实了准确的物理先验引导能有效提升网络性能,且Ucolor对透射图估计误差有一定的容忍度(归功于数据驱动和恒等连接)。 * 通道注意力模块:移除CAM会导致结果饱和度不足,说明该模块对融合和突出多色彩空间关键特征至关重要。 * 损失函数:同时使用L2损失和感知损失,虽然在部分定量指标上略逊于仅用L2损失,但能显著改善视觉感知质量,产生更自然、细节更丰富的图像。
结论与价值: 本研究成功提出并验证了Ucolor这一新颖的水下图像增强网络。其核心贡献在于:第一,创造性地设计了多色彩空间编码器网络,通过并行路径提取RGB、HSV、Lab空间的特征,并结合通道注意力机制自适应地融合与强化最具判别力的信息,丰富了特征多样性。第二,创新性地提出了介质透射图引导的解码器网络,巧妙地将水下成像物理模型中的介质透射图作为空间注意力权重的来源,引导网络聚焦于质量退化严重的区域,实现了领域知识与数据驱动学习的优势互补。第三,通过端到端的监督训练,Ucolor能够在一个统一的框架中处理多种水下场景,无需复杂的预处理步骤,且结果稳定。广泛的实验证明,Ucolor在视觉质量和多种定量指标上均达到了最先进的性能。本研究的科学价值在于为水下图像增强提供了一种新的研究范式,即如何将物理模型的先验知识与深度学习的表示学习能力进行深度融合。其应用价值在于能够显著提升水下机器人、海洋探测、水下考古等领域所获取图像的视觉质量,为后续的观察、分析和理解提供更可靠的基础。
研究亮点: 本研究的亮点突出体现在以下几个方面:方法创新性:提出了“多色彩空间嵌入”和“物理先验引导的注意力机制”两大核心创新点,并非简单套用现有网络。跨领域知识融合:成功地将图像处理中不同色彩空间的特性和水下光学成像的物理模型知识,系统地整合到一个深度学习架构中,思路清晰且有效。全面且严谨的验证:不仅在多个不同类型的数据集(真实、合成、色卡、挑战性场景)上进行了全面测试,还设置了详尽的消融实验,清晰地剖析了每个组件的贡献,增强了结论的可信度。实用性与泛化性:模型采用端到端训练,处理流程简洁,且在多样化的水下场景中表现出良好的泛化能力,具有实际应用潜力。