分享自:

CGA:用于遥感图像超分辨率的曲率引导注意力

期刊:ieee transactions on geoscience and remote sensingDOI:10.1109/tgrs.2026.3661098

本文为您介绍一篇题为“CGA: Curvature-Guided Attention for Remote Sensing Image Super-Resolution”的原创性研究论文。该研究由Muhammad Waleed Aslam、Sami Ul Rehman、Abu Muaz Muhammad Tayyab、Muhammad Hamza、Xinwei Li以及Yao Li等作者合作完成。其中,Muhammad Waleed Aslam、Abu Muaz Muhammad Tayyab、Xinwei Li和Yao Li隶属于东南大学计算机科学与工程学院,而Sami Ul Rehman和Muhammad Hamza则来自中国科学技术大学计算机科学与技术学院。这项研究成果发表在*IEEE Transactions on Geoscience and Remote Sensing*期刊的2026年第64卷。

这项研究隶属于计算机视觉与遥感(Remote Sensing, RS)的交叉领域,具体聚焦于单幅图像超分辨率(Single Image Super-Resolution, SR)任务。其研究背景源于遥感图像超分辨率对于下游地理信息系统(GIS)任务(如测绘、监测、识别)的关键支撑作用。然而,遥感图像中富含表征场景拓扑结构的曲线结构(如道路中心线、河流、海岸线、屋顶边缘等),这些结构在图像下采样过程中容易出现锯齿状伪影和细节模糊。现有的基于卷积神经网络(CNN)或通用注意力机制的模型,由于缺乏几何先验知识,往往难以有效恢复这些曲线结构的连续性和规则纹理。因此,该研究的核心目标是解决这一方法学上的缺口,即设计一个既能保持高效计算,又能显式地增强曲线结构重建保真度的超分辨率模型。研究的最终目标是提升遥感图像超分辨率的几何结构准确度,从而更好地服务于实际应用。

本研究详细的工作流程可以概括为以下几个主要步骤:整体模型架构设计、局部曲率引导注意力机制(Local Curvature-Guided Attention, LCGA)、曲率引导令牌注意力机制(Curvature-Guided Token Attention, CGTA)、模型的训练与优化、以及后续的系统性实验验证。研究涉及的对象包括公开的遥感图像数据集(AID, UC Merced, WHU-RS19),并在实验中使用了模拟降级(双三次下采样)和真实世界降级的图像进行评估。具体工作流程如下:

首先,研究者提出了名为CGA(曲率引导注意力)的整体架构。该架构基于标准Transformer框架进行改造,旨在将曲率信息注入到注意力机制中。模型输入为低分辨率(LR)图像,首先通过一个3×3卷积层提取浅层特征。然后,这些特征被送入由N个曲率引导注意力块(CGAB)堆叠而成的主干网络。每个CGAB交替包含LCGA子层和CGTA子层,采用预归一化(prenorm)设计和多层感知机(MLP)头,并引入一个轻量级的可学习适配器γ来稳定跨块的残差混合。最后,浅层特征与经过处理的深层特征融合,通过一个轻量级的重建头(包含子像素上采样层)重建出高分辨率(SR)图像。整个模型使用L1损失函数进行端到端训练。

其次,研究引入了两个核心创新模块。LCGA模块旨在增强窗口(Window)内的局部曲线结构连续性。其运作流程是:对于窗口内的输入特征,首先通过一个深度可分离的3×3卷积,接着进行跨通道平均和层归一化(LayerNorm),生成一个归一化的“曲率代理”(curvature proxy)映射图。这个代理图可以理解为一种学习到的、能指示边缘和曲线区域的信号。然后,LCGA将标准的窗口自注意力(self-attention)与经过曲率代理调制的注意力进行混合。具体地,它将曲率代理图与标准注意力对数(logits)进行元素级相乘,从而增强曲线区域的注意力权重。最终,通过一个可学习的门控参数β,将标准注意力权重与曲率调制后的注意力权重进行混合,得到一个融合的注意力图,用于聚合特征值。这一设计使得模型能够在曲线区域聚焦注意力,同时在平坦区域保持标准注意力的稳定性。CGTA模块则旨在实现高效的、曲线结构感知的全局交互。它采用两阶段路由设计来避免全图密集注意力带来的高昂计算成本(O(N²))。第一阶段,曲率感知令牌选择:模型为整个特征图计算曲率代理图和一个“保留门”(retention gate)可靠性图,两者结合形成一个选择分数。接着,根据输入图像尺寸,通过一个称为“k_tokens”的策略自适应地确定要选取的令牌数量k(与图像尺寸呈次线性关系),并基于选择分数选取得分最高的前k个位置的特征令牌。第二阶段,基于选取令牌的混合交叉注意力:模型为所有N个位置的特征生成查询向量(Query),但仅对选取出的k个令牌计算键(Key)和值(Value)。注意力计算同样采用了与LCGA类似的混合机制,即结合标准交叉注意力和由选取令牌对应的曲率代理调制的交叉注意力,并且用选择置信度对值向量进行门控。这种设计将全局注意力的主导计算成本从O(N²)降低到了O(Nk),实现了近线性的复杂度。

第三,在模型训练完成后,研究团队进行了一系列严谨的实验来验证其有效性。实验设置包括:1)在两个上采样因子(×2, ×4)下,在三个公开遥感数据集(AID, UC Merced, WHU-RS19)上与多个先进的超分辨率模型(如HSNet, TransENet, HAU-Net, TTST, ACT-SR, HMoE)进行定量和定性比较,评估指标涵盖像素级(PSNR, SSIM)、结构级(VIF, SCC)、光谱级(SAM)和感知级(FID)。2)进行消融研究(ablation study),以验证各个组件(LCGA, CGTA, 混合机制)的作用、分析窗口形状和路由密度的影响,并使用文中定义的“山脊带注意力诊断法”(ridge-band attention diagnostics)可视化并量化注意力在山脊(曲线)区域的变化。3)进行下游任务评估:将不同模型生成的超分辨率图像输入一个预训练的、面向小目标的旋转框检测器(YOLOv11n-OBB),在DOTA-v1数据集上评估平均精度(mAP),以验证超分辨率质量对下游识别任务的实际增益。4)进行真实世界图像实验:在NWPU-RESISC45数据集上,不施加模拟降级,直接评估模型的恢复效果,使用无参考图像质量评估指标(如NIQE, CLIP-IQA, MUSIQ, MANIQA)来衡量感知质量。

研究的主要结果如下: 在定量评估方面,CGA及其大容量变体CGA-L在三个数据集和两个上采样因子下的六项评估指标中,均取得了最优或接近最优的综合性能。例如,在UC Merced数据集上的×4超分辨率任务中,CGA以10.47M参数和48.15G FLOPs的代价,取得了29.77 dB的PSNR,超过了参数量或计算量更大的对比模型(如TTST的29.69 dB和HMoE的29.71 dB)。这不仅证明了CGA方法的有效性,也表明了其具有良好的计算效率。消融实验的结果为模型设计提供了有力支撑:移除LCGA导致PSNR下降0.215 dB,移除CGTA导致下降0.024 dB,而禁用混合机制则导致下降0.030 dB,这证明了LCGA和CGTA的互补作用以及混合机制的必要性。窗口形状和路由密度的实验表明,默认的8×32窗口和自适应k_tokens策略在准确率和效率之间取得了良好平衡,进一步增加窗口尺寸或路由密度带来的收益边际递减。

在定性评估方面,视觉对比显示,CGA和CGA-L重建的图像在曲线结构(如操场分界线、屋顶边缘、停车场轮廓)上具有更清晰的几何形状、更连续的线条和更少的伪影,纹理也更规则自然。这些视觉优势与模型的设计目标——通过曲率引导增强曲线结构保真度——完全吻合。特别值得注意的是,文中山脊带注意力诊断的结果显示,曲率调制后的注意力(curv)在山脊区域(如道路交叉口、屋顶拐角)的注意力权重显著高于标准注意力(std),而混合注意力(blend)则继承了这种聚焦特性,同时保持了非山脊区域的稳定性,这从机制层面解释了模型性能提升的原因。

在下游任务评估中,使用CGA超分辨率结果作为输入的小目标检测任务取得了最高的mAP(50.6%),优于其他超分辨率模型。这表明CGA所恢复的结构细节确实有助于提升目标检测器的性能,验证了其应用价值。在真实世界图像上的实验进一步表明,CGA在无参考感知质量指标(如NIQE, MUSIQ, MANIQA)上表现优异,生成的图像线条更连续、噪声更少,证明了模型对非模拟降级的泛化能力。

本研究的结论是:提出了一种新颖的曲率引导注意力(CGA)框架,用于解决遥感图像超分辨率中曲线结构容易失真和模糊的问题。该方法通过在标准Transformer架构中引入局部曲率引导注意力(LCGA)和曲率引导令牌注意力(CGTA),将曲率信息作为一种有效的归纳偏置(inductive bias),从而在局部和全局层面协同增强对曲线结构的重建能力。实验证明,CGA在多个数据集和评估指标上达到了先进的性能,能有效恢复清晰的几何结构和规则纹理,同时保持可接受的计算复杂度。这项工作不仅提升了遥感图像超分辨率的保真度,也为如何将几何先验知识高效地集成到深度学习模型中提供了新的思路。

本研究的亮点在于:首先,研究问题具有明确的针对性和重要的应用价值,精准地指向了遥感图像分析中对曲线结构保真度的迫切需求。其次,方法设计新颖且巧妙,创造性地提出了“曲率代理”这一可学习的几何表征,并将其无缝融入局部窗口注意力和全局令牌选择机制中,实现了几何引导与数据驱动的有效结合。第三,实验验证全面而深入,不仅涵盖了标准的定量与定性对比,还包括了细致的消融分析、注意力机制可视化、下游任务迁移以及真实场景测试,构成了完整的证据链,充分支撑了研究结论。最后,模型在追求高性能的同时也兼顾了效率,通过窗口化和令牌选择策略实现了近线性的计算复杂度,增强了其实用性。总体而言,这项研究为遥感图像超分辨率领域贡献了一个高效、有效且可解释性强的解决方案。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com