学术研究报告:利用极性记忆网络探索全局相关性进行多光谱去马赛克
本研究由Mengzu Liu、Junwei Xu、Tao Huang、Fangfang Wu、Le Dong、Xin Li以及通讯作者Weisheng Dong共同完成,其中前六位作者来自中国西安电子科技大学,Xin Li来自美国纽约州立大学奥尔巴尼分校。该项研究以论文《Exploring Global Correlations via Polarity Memory for Multispectral Demosaicing》的形式,于2025年10月27日至31日在爱尔兰都柏林举行的第33届ACM国际多媒体会议(ACM MM ‘25)上发表,并被收录于该会议的论文集。
一、 研究背景与目标
本研究属于计算机视觉与计算成像交叉领域,具体聚焦于多光谱图像(Multispectral Images, MSIs)去马赛克(Demosaicing) 这一核心任务。与常见的RGB三通道图像不同,多光谱图像包含数十甚至上百个连续的光谱波段,能捕捉更丰富的物质成分信息,因此在遥感、医疗成像、目标检测等领域具有广泛应用前景。
为了高效捕获多光谱图像,研究者常采用基于多光谱滤波器阵列(Multi-Spectral Filter Array, MSFA) 的成像系统。这种系统类似于传统彩色相机的拜耳阵列(Bayer CFA),通过在传感器前放置一个周期性排列的滤光片阵列,使得传感器每个像素点仅能接收特定波段的光信号,从而在一次快照中获得一个压缩的、空间上严重欠采样的光谱马赛克图像(Spectral Mosaic Image)。多光谱去马赛克技术的目标,正是从这个压缩的马赛克图像中,重建出完整的、高质量的多光谱图像。这是一个典型的“病态”逆问题,因为每个空间位置的大部分波段信息都已丢失。
传统的去马赛克方法主要分为基于插值的方法和基于模型优化的方法。近年来,基于深度学习的方法,尤其是卷积神经网络(CNN)和Transformer模型,凭借其强大的表征学习能力,在该任务上取得了当前最优(State-of-the-Art, SOTA)的性能。然而,现有方法仍面临两大核心挑战:首先,由于马赛克图像信息损失严重,从退化输入中提取的特征往往包含有限的、与高质量多光谱图像相关的信息,导致重建结果易产生伪影并缺失纹理细节;其次,现有方法多依赖于局部卷积或窗口化的自注意力机制,其有限的感受野(Receptive Field) 难以建模图像内部长距离的依赖关系,而这对于精确重建至关重要。
为解决上述瓶颈,本研究旨在提出一个新颖的深度学习框架。其核心目标是:1)通过学习一个通用的、面向重建的光谱表示(Spectral Representation),来补充马赛克图像中丢失的丰富光谱先验信息;2)设计一种能够高效建模全局、长距离相关性的机制。为此,研究团队提出了两大创新模块:极性记忆网络(Polarity Memory Network) 和量化注意力机制(Quant Attention),并构建了名为Polarity Memory Network with Quant Attention(PMQNet)的模型。
二、 研究方法与流程详解
PMQNet模型的工作流程可概括为:输入一个多光谱马赛克图像,经过初始的双线性插值和浅层特征提取后,依次通过多个量化注意力Transformer模块(Quant Attention Transformer Block, QATB) 进行特征增强。在每个QATB之后,利用极性记忆网络(PM) 对特征进行基于记忆的检索与增强。最后,经过一个卷积层并与初始插值结果相加,输出最终重建的多光谱图像。具体流程和核心创新模块如下:
1. 模型整体架构(Workflow) 首先,对输入的马赛克图像y进行双线性插值,获得一个初步的重建估计。接着,使用一个3x3卷积层提取浅层特征F0。该浅层特征F0被送入由L个(论文中未明确L的具体数值,根据架构图推测为多个串联的)QATB构成的深度网络中进行处理。每个QATB的输出特征会经历两个关键步骤:首先,被送入极性记忆(PM)模块,该模块利用一个在线更新的“记忆库”来检索并增强与输入特征最相关的通用光谱表示,产生增强后的特征F_m。其次,原始输入特征与增强特征F_m通过一个融合模块(文中未详述其具体结构,但从图中看可能涉及拼接和卷积操作)进行融合,得到融合特征F_e,该特征将作为下一个QATB的输入。经过所有QATB处理后,最终的特征经过一个3x3卷积层,并与最初的双线性插值结果进行残差连接,生成最终的高质量多光谱重建图像X_hat。
2. 核心创新模块一:极性记忆网络(Polarity Memory) 该模块旨在解决光谱信息严重丢失的问题。其核心思想是维护一个可在线更新的“记忆库”M,其中存储了从训练数据中学到的K个典型的光谱特征表示(称为“记忆槽”,Memory Slots)。 * 记忆检索与增强: 给定输入特征F,传统记忆网络通过计算F与M的相似度矩阵(通常使用Softmax归一化)来检索和加权组合记忆槽。然而,作者指出当记忆槽数量较大时,Softmax操作会导致权重分布趋于平均,不利于突出真正相关的特征。为此,他们提出了极性感知的相似度计算。具体而言,他们将输入特征F和记忆槽M分别分解为正极性部分(F+, M+)和负极性部分(F-, M-),即F+ = max(F,0), F- = max(-F,0), 对M同理。然后,他们摒弃了Softmax,转而使用一个能放大同极性分量贡献、抑制异极性分量影响的相似度计算公式。通过将记忆槽M在通道维度上拆分为两个部分[M_s, M_o],并巧妙安排计算顺序,最终得到的增强特征O的计算公式确保了线性复杂度O((N+K)C^2),显著提升了效率。 * 在线更新机制: 为了使记忆库M能够学习到数据集的通用光谱表示,研究采用了自监督的方式进行在线更新。对于输入特征F中的每个特征向量f_n,计算其与记忆库中所有记忆槽的余弦相似度。找出与每个f_n最相似的记忆槽索引,然后使用指数移动平均(EMA)方式,用这些特征向量去更新对应的记忆槽。这使得记忆库能够动态地适应训练数据分布。 * 效果验证: 论文通过可视化特征图(Figure 7)表明,经过极性记忆增强后,特征图的细节和纹理(尤其是边缘信息)得到了显著的提炼和增强。
3. 核心创新模块二:量化注意力机制(Quant Attention) 该模块旨在突破局部窗口的限制,以高效的方式建模全局、长距离的依赖关系,并集成在QATB中。 * 量化编码模块(Quant Encoding Module, QEM): 首先,通过一个编码器将输入特征F_q投影到d维。然后,对这个d维特征向量的每个元素进行量化(Quantization)。具体来说,将连续的浮点数值映射到L个离散的整数值上。这样,一个d维向量就有L^d种可能的量化后值。经过量化后,原本在连续空间中可能不同、但语义或空间上相关的特征向量,可能被量化到相同的离散值上,从而被归为同一类(Category)。 * 类内注意力模块(Intra-Category Attention Module, ICA): 量化后,拥有相同量化值的所有特征向量(或“令牌”,Tokens)被归入同一个类别集合g_i。为了进行高效的并行计算,作者将原始类别g_i中数量不均的令牌重新分组,形成多个具有相同令牌数量n_s的子类别g_j。然后,在每个子类别内部独立地执行标准的自注意力(Self-Attention)计算。计算完成后,再将特征映射回原始的空间位置。这个过程使得注意力计算不再受限于固定的空间窗口,而是能够在语义或特征相似的、可能在图像中相距甚远的像素之间建立联系。 * 效果验证: 论文展示了在L=6的量化设置下,多光谱图像中具有相似光谱特性的像素被成功分类到同一类别中(Figure 8),验证了该机制能够有效地基于光谱特征对像素进行分组。
三、 主要实验结果与分析
研究团队在模拟数据集和真实数据集上进行了全面的实验验证,并与多种传统方法和深度学习方法进行了比较。
1. 实验设置 * 数据集: 训练使用NTIRE 2022数据集(包含950幅16波段的高光谱图像,其中900幅用于训练)。测试在两个模拟数据集上进行:NTIRE测试集(50幅)和KAIST数据集(10幅)。此外,还在MCAN方法提供的真实世界多光谱马赛克图像上进行了测试。 * 对比方法: 包括三种传统方法:加权双线性插值(WB)、基于伪全色图的插值(PPID)、图与秩正则化矩阵恢复(GRMR);以及四种深度学习方法:MCAN、SSARN、PDDNet和FT-SFNet。所有方法均在统一的4x4马赛克图案下进行评估。 * 评估指标: 采用峰值信噪比(PSNR)、结构相似性指数(SSIM)、光谱角制图(SAM)和相对全局误差(ERGAS)作为定量指标。
2. 实验结果 * 模拟数据集结果: 在NTIRE测试集上,PMQNet取得了所有方法中最优的性能,PSNR达到49.86 dB,比第二名SSARN(47.52 dB)高出2.34 dB,其他指标(SSIM, SAM, ERGAS)也全面领先。在KAIST数据集上(该数据集光谱分布与训练集不同,用于测试泛化能力),PMQNet同样表现最佳(PSNR 42.26 dB),而其他深度学习方法性能均有显著下降。这表明PMQNet得益于极性记忆网络提供的稳定特征增强和量化注意力对长距离依赖关系的建模能力,具有更强的泛化性能。 * 视觉对比结果: 论文提供了NTIRE和KAIST数据集的伪彩色图像对比(Figure 9 & 10)。结果显示,传统方法结果模糊且有彩色伪影;其他深度学习方法在恢复叶片纹理、机器人胸部细节等方面存在不足,或出现颜色偏差和马赛克伪影。相比之下,PMQNet重建的图像在细节纹理和颜色保真度上更接近真实情况。 * 真实数据结果: 在MCAN提供的真实马赛克图像上(Figure 11),PMQNet在恢复测试卡线条纹理方面表现最优,线条清晰且无颜色伪影,显著优于其他方法,证明了其在实际应用中的可靠性。
3. 消融实验与分析 * 组件消融: 在基线模型(仅包含QATB中的空间注意力变换器)上,分别添加极性记忆(PM)模块和量化编码模块(QEM)。实验表明,单独使用PM提升PSNR 1.49 dB,单独使用QEM提升3.24 dB,两者联合使用提升达到3.83 dB,证明了两个模块的有效性和互补性。 * 注意力机制对比: 移除PM模块,将QEM与传统的窗口多头自注意力(MSA)进行公平对比。结果表明,在计算量(GFLOPs)相近甚至更低的情况下,QEM的性能(PSNR 49.27 dB)显著优于不同窗口大小(64, 144, 256)的MSA(分别为47.66, 47.78, 47.99 dB),验证了量化注意力在捕获长距离依赖方面的优势。 * 记忆机制对比: 将提出的极性记忆与现有的Softmax记忆机制进行对比。极性记忆在取得更高PSNR(47.52 vs 47.15 dB)的同时,计算复杂度更低(40.09 vs 47.71 GFLOPs),体现了其设计在准确特征检索和计算效率方面的优越性。 * 计算复杂度分析: PMQNet在取得最佳性能的同时,参数量仅为0.76M,计算量为53 GFLOPs(在256x256图像上),在性能和效率之间取得了良好的平衡(Figure 1)。
四、 研究结论与价值
本研究提出并验证了PMQNet模型,这是一个用于多光谱图像去马赛克的新型深度学习框架。其核心贡献在于同时解决了该领域长期存在的两个关键问题:缺乏有效的先验信息来补偿严重的光谱信息损失,以及难以建模长距离的空间-光谱依赖关系。
科学价值与应用价值: 1. 方法学创新: 提出的极性记忆网络为利用外部数据先验增强退化特征提供了新思路。其极性感知设计和线性复杂度优化,为记忆网络在密集预测任务中的应用提供了高效且有效的范例。 2. 长距离建模新范式: 提出的量化注意力机制为突破Transformer的窗口限制、实现高效的全局上下文建模提供了一种新颖且有效的方法。通过量化操作将语义/特征相似的令牌归类,实现了跨图像区域的超长距离交互。 3. 性能提升: 在多个标准数据集和真实数据上的实验证明,PMQNet在重建质量(定量指标和视觉质量)和模型效率(参数量和计算量)方面均达到了当前最优水平,推动了多光谱去马赛克技术的发展。 4. 应用前景: 高质量的多光谱重建对于遥感分析、精准农业、医疗诊断、工业检测等领域至关重要。PMQNet的优异性能使其有潜力被集成到基于MSFA的快照式多光谱相机系统中,提升其实用性和成像质量。
五、 研究亮点