本研究是一项关于低光照图像增强的原创性研究工作,相关论文《CTNet: Color Transformation Network for Low-Light Image Enhancement》发表于 Pattern Recognition 期刊2026年第172卷。论文的主要作者包括来自北京航空航天大学的谢李栋(第一作者)、潘俊俊,山东大学的丛润民,鹏城实验室的戴菊、杨文涵,以及北京师范大学的吴昊(通讯作者)。论文于2025年8月29日在线上发布。
学术背景 该研究属于计算机视觉和图像处理领域,具体聚焦于低光照图像增强(Low-Light Image Enhancement, LLIE)任务。低光照环境下捕获的图像普遍存在可见度低、对比度差、噪声水平高等问题,严重影响了主观视觉体验以及后续计算机视觉任务(如目标检测、语义分割)的性能。尽管已有众多传统方法和基于深度学习的方法被提出以解决LLIE问题,但如何有效处理色彩相关的退化现象(如颜色偏移、伪影、失真)仍然是一个重大挑战。现有方法在处理极端暗光或光照不均场景时,往往在色彩保真度方面表现不佳,容易出现色晕、色差等问题。基于此,本研究团队旨在设计一个专门针对色彩恢复的增强网络,以产生视觉上更自然的增强结果。他们的核心动机源于对HSV和RGB颜色空间互补优势的洞察:HSV空间能够自然地解耦亮度与色度信息,有利于独立增强亮度而不改变原始色彩;而RGB空间则保留了丰富的原始图像信息。通过将两者在特征层面进行有效结合与交互,有望获得更全面、鲁棒的色彩恢复能力。
详细研究流程 本研究提出了一种端到端的色彩转换网络(Color Transformation Network, CTNet)。整个研究流程可以概括为网络设计、实现、实验验证与消融分析四个主要环节。
首先,在网络架构设计环节,研究者构建了CTNet的核心框架。如图4所示,网络包含两个增强分支和两个关键功能块: 1. HSV增强分支:输入低光照图像的HSV分量。其中,亮度(V)分量被输入到一个类似U-Net的三层深度网络中进行增强,得到不同解码器层级的增强特征 {f^d_V1, f^d_V2, f^d_V3}。尽管色调(H)和饱和度(S)分量在增强前后基本保持不变,但为了在特征域中获得更充分的色彩转换信息,研究者将它们分别输入由多个3×3卷积层组成的特征提取单元,得到编码特征 {f^e_H1, f^e_H2, f^e_H3} 和 {f^e_S1, f^e_S2, f^e_S3}。 2. RGB增强分支:作为整个网络的主干,输入原始的低光照RGB图像。该分支通过另一个类似U-Net的主干网络提取编码器-解码器特征,得到编码特征 {f^e_RGB1, f^e_RGB2, f^e_RGB3} 和解码特征 {f^d_RGB1, f^d_RGB2, f^d_RGB3}。 3. 色彩转换块(Color Transformation Block, CTB):这是本研究提出的一个创新模块,旨在模拟HSV到RGB颜色空间的转换过程,将HSV特征域的信息以可解释的方式转换到RGB特征域。其设计灵感来源于经典的HSV到RGB数学转换公式。如图6所示,CTB接收来自HSV分支的H、S编码特征和V解码特征作为输入。它通过一系列模拟原始公式中计算步骤的操作(如元素乘、减,以及引入通道混洗和自适应权重学习来模拟H分量对颜色组合的决定性作用),最终输出转换后的RGB特征 f^Tr_k。该模块避免了简单直接的特征前馈拼接,而是通过学习的方式实现颜色空间的映射,从而更有效地利用HSV空间中的色彩和光照信息。 4. 交叉集成块(Cross Integration Block, CIB):这是另一个创新模块,负责将RGB分支的编码特征与CTB转换而来的RGB特征进行有效融合。如图8所示,CIB首先计算两种特征的残差 f^res_k,该残差包含了二者之间的差异信息。随后,利用基于通道注意力和空间注意力的机制,从残差中提取引导信息,分别对两种特征进行优化和更新。最后,将优化后的特征进行融合,生成集成特征 f^CIB_k,传递给RGB分支的解码器。这种基于残差注意力的双向引导机制,使得模型能够结合RGB特征的细节信息和转换特征的区域级色彩信息,实现平衡的色彩增强。
在实现与训练环节,研究者使用PyTorch框架实现了CTNet。训练数据采用了随机裁剪(至224×224像素)、翻转和旋转等增强策略。网络使用Adam优化器进行训练,共25万次迭代,初始学习率为2×10^-4,并采用余弦退火调度进行衰减。损失函数由两部分组成:针对RGB输出分支的结构相似性指数(SSIM)损失 L_rgb,以及针对HSV分支V分量增强结果的均方误差(MSE)损失 L_v。总重建损失为两者的加权和,权重 λ_rgb 和 λ_v 在实验中均设为1。
在实验验证环节,研究者在八个主流低光照图像增强数据集上进行了广泛的评估,包括LOL、LOL-v2、SDSD(室内/室外)、SID、DICM、LIME和VV。评估指标涵盖了峰值信噪比(PSNR)、结构相似性(SSIM)、参考亮度顺序误差(LOE)和学习感知图像块相似度(LPIPS)。研究将CTNet与十四种先进方法进行了定性和定量比较,包括GCP、LLFlow、SNR、LLFormer、Retinexformer、MRQ、CIDNet等。为了公平比较,所有未提供预训练模型的方法均使用作者推荐的默认参数重新训练。
在消融分析环节,研究者进行了一系列实验以验证CTNet各个组件的有效性。这包括: 1. 框架设计研究:对比了不同设计选择,例如去除V解码器、将RGB分支拆分为三个子分支、仅使用RGB分支、结合RGB与其他颜色空间(YUV、Lab)、在图像域或特征域进行简单融合、以及分别移除CTB或CIB模块等。结果表明,完整的CTNet设计在所有指标上均取得最佳性能。 2. CTB模块研究:测试了CTB内部设计的有效性,例如用随机噪声替代H分量、移除色调通道混洗操作、以及在最终组合阶段使用元素加法而非通道拼接。结果表明,论文提出的完整CTB设计(包含色调处理和通道拼接)效果最好。 3. CIB模块研究:比较了不使用残差注意力、使用固定注意力以及使用完整动态残差注意力机制的效果,验证了所提注意力机制的重要性。 4. 损失函数研究:探索了损失权重 λ_rgb 和 λ_v 不同取值(如0.5, 1.0, 2.0)的影响,结果表明当两者均为1时获得最优且鲁棒的性能。
主要结果 研究结果从定量和定性两方面充分证明了CTNet的优越性。
定量结果显示,在LOL-v2-syn、SDSD-indoor、SDSD-outdoor和SID四个数据集上,CTNet在PSNR、SSIM、LOE、LPIPS所有评估指标上均取得了最佳性能,展现了其在合成和真实低光条件下强大的泛化能力。在标准的LOL数据集上,CTNet获得了最高的PSNR和最低的LPIPS,其SSIM值略低于CIDNet但仍极具竞争力。在更具挑战性的LOL-v2-real数据集上,CTNet的各项指标也优于或接近表现最好的方法。特别是在真实捕获的数据集上,CTNet的性能提升更为显著,这归功于其有效处理多种复杂色彩退化的能力。在未配对数据集(DICM、LIME、VV)上,CTNet在LIME和VV数据集上取得了最低的自然图像质量评估器(NIQE)分数,表明其增强结果具有更好的感知质量。此外,CTNet在模型效率方面取得了良好的平衡,参数量为5.62M,计算量为62.14G FLOPs,推理时间为0.036秒,优于大多数基于Transformer或流模型的方法。
定性结果通过大量可视化对比得以呈现(如图9-11)。与现有方法相比,CTNet展现出三大关键优势: 1. 均衡的色彩增强:对于光照不均的输入图像,CTNet能有效缓解因局部曝光差异导致的伪影和光晕问题,实现更自然、空间一致的增强。这得益于HSV空间中H和S通道的稳定性以及CTB提供的自适应色彩感知融合。 2. 出色的色彩一致性保持:CTNet能够在同一物体的不同区域保持色彩的一致性,避免出现颜色突变或失真。这归功于CIB模块通过自适应对齐RGB和HSV特征,实现了连贯的特征集成。 3. 对挑战性场景的良好处理:在面对物体反射、干扰或极低光照等复杂场景时,CTNet通过其双空间建模和特征交互,能够捕获更可靠的先验和上下文依赖,从而实现更鲁棒、无伪影的恢复效果。
消融分析的结果为上述结论提供了有力支持。表格4-7的数据清晰表明,完整CTNet框架的每个组件(HSV分支、CTB、CIB)以及平衡的损失函数设计,对于最终性能的提升都是不可或缺的。任何关键部分的缺失或修改都会导致性能的显著下降,从而验证了整体设计的合理性和有效性。
结论与价值 本研究得出结论:通过深入探究HSV和RGB颜色空间在色彩表示方面的互补优势,并设计有效的特征域交互机制,可以显著提升低光照图像增强中的色彩恢复质量。所提出的CTNet通过色彩转换块(CTB)实现了跨颜色空间的可解释信息转换,并通过交叉集成块(CIB)实现了双空间特征的相互引导与深度融合。大量实验证明,该方法在处理多样化的色彩退化场景方面具有卓越性能。
该研究的科学价值在于,它为解决低光照图像增强中的色彩失真这一长期挑战提供了一个新颖且有效的框架。它超越了简单使用多颜色空间的思路,创新性地在特征域模拟颜色空间转换并设计注意力引导的融合机制,为相关研究提供了新的思路和方法论参考。其应用价值则体现在,高质量的图像增强结果可以直接惠及智能监控、自动驾驶、医疗成像等众多对图像质量要求严苛的领域,提升下游视觉任务的性能与可靠性。
研究亮点 本研究的亮点主要体现在以下几个方面: 1. 创新的网络架构:提出了一种端到端的双分支色彩转换网络(CTNet),首次在特征域系统性地整合了HSV和RGB颜色空间,并设计了专门的交互模块。 2. 可解释的色彩转换模块(CTB):该模块的设计灵感源于颜色空间转换的经典数学原理,通过深度学习组件进行模拟,使跨空间信息传递过程更具可解释性,而非黑箱操作。 3. 高效的跨空间融合机制(CIB):引入基于残差和注意力的双向引导机制,能够自适应地权衡RGB特征的细节与HSV转换特征的色彩/区域信息,实现平衡且精准的色彩增强。 4. 卓越的综合性能:在多个公开数据集上的全面实验表明,CTNet在客观指标和主观视觉质量上均超越了现有先进方法,尤其在处理真实场景的复杂色彩退化方面优势明显。 5. 充分的验证与消融分析:研究通过详尽的消融实验,逐一验证了网络各个组成部分的必要性和有效性,增强了结论的说服力。
其他有价值内容 论文还提供了项目的开源代码链接(https://github.com/1013990424/ctnet),促进了研究的可复现性和后续发展。同时,作者也坦诚指出了CTNet的局限性,例如未显式处理噪声或运动模糊,以及双分支设计带来的计算开销,为未来的改进方向(如噪声抑制、模型简化)提供了指引。此外,论文中对其他颜色空间(如YUV、Lab、XYZ)在LLIE任务中局限性的分析,也具有一定的参考价值。