基于深度残差双重注意力网络的遥感图像超分辨率重建

分享自：
基于深度残差双重注意力网络的遥感图像超分辨率重建

航空航天工程
人工智能
期刊:Remote SensingDOI:10.3390/rs13142784
【点击此处】阅读全文、收藏及针对性提问
对遥感图像进行超分辨率重建的深度残差双注意力网络介绍
一、 作者、机构与发表信息
本研究的主要作者为Bo Huang, Boyong He, Liaoni Wu* 和 Zhiming Guo，研究机构为中国厦门大学航空航天学院。该研究以论文形式发表在期刊 Remote Sensing 上，于2021年6月27日收到，2021年7月14日接受，并于2021年7月15日正式发表，文章标题为“Deep Residual Dual-Attention Network for Super-Resolution Reconstruction of Remote Sensing Images”。
二、 学术背景与研究动机
本研究属于计算机视觉与遥感图像处理交叉领域，具体聚焦于单图像超分辨率（Single-Image Super-Resolution， SISR）技术。随着现代航空航天技术的飞速发展，遥感图像在农林监测、军事侦察、城市规划等军民领域得到广泛应用。然而，受硬件限制和探测距离远等因素影响，遥感图像的分辨率和清晰度仍有待提升。鉴于通过物理方式改进成像传感器研发周期长、成本高，通过算法提升图像质量的SISR技术变得至关重要。该技术的目标是从单一的低分辨率（Low-Resolution, LR）图像中重建出对应的高分辨率（High-Resolution, HR）图像，从而为遥感应用提供更丰富的空间细节。
传统的SISR方法，如基于邻域嵌入、稀疏表示和局部线性回归的算法，主要利用图像的低层特征，其表示能力有限，限制了重建效果的提升。随着大数据和GPU计算能力的进步，基于深度卷积神经网络（Deep Convolutional Neural Networks， DCNNs）的方法已成为图像处理的主流，并在自动提取图像高层特征方面展现出强大能力。然而，当前大多数基于DCNN的遥感图像超分辨率方法仍面临几个关键挑战：首先，随着网络深度增加，不同卷积层获取的特征具有层次性和不同感受野，但多数方法仅利用最后一层的特征进行映射，忽略了层次特征，造成信息浪费。其次，现有方法通常平等处理图像的所有空间区域，导致包含低频信息（平滑区域）的部分易于重建，而包含高频细节（边缘、轮廓）的区域难以恢复，且计算资源被大量消耗在不重要的特征上。最后，遥感图像内容复杂、细节丰富，需要在模型设计中同时考虑局部和全局特征信息。
针对上述问题，本研究旨在提出一种新型的深度卷积神经网络架构，以提升遥感图像超分辨率重建的性能，实现更高效的特征利用和更精准的重建效果。
三、 详细研究方法与流程
本研究提出了一种名为深度残差双注意力网络（Deep Residual Dual-Attention Network， DRDAN）的端到端训练模型。整个研究流程包括网络架构设计、核心模块构建、损失函数定义、数据集准备与实验设置、以及最终的性能评估与对比分析。
1. 网络整体架构设计： DRDAN包含两个分支：全局残差学习（Global Residual Learning, GRL）分支和主残差网络（Main Residual Network, MRN）分支。 * GRL分支：对输入的LR图像直接采用双三次插值（Bicubic Interpolation）进行上采样，得到一个粗略的HR图像 Ibicubic。该分支的目的是让网络无需学习从完整LR图像到完整HR图像的复杂映射，而只需学习两者之间的残差（即高频细节信息），从而有效降低模型训练难度。 * MRN分支：这是网络的核心，负责学习并重建GRL分支未能捕获的细节信息。它由四个主要部分组成： * 浅层特征提取：使用一个3x3卷积层直接从LR输入图像 ILR 中提取浅层特征 F0。 * 深层特征提取：将 F0 输入一系列堆叠的残差双注意力块（Residual Dual-Attention Block， RDAB）中。这是网络进行深度特征学习和提炼的关键部分。设有N个RDAB，每个RDAB的输入是前一个RDAB的输出。 * 上采样：从最后一个RDAB输出的深度特征 Fb,N 经过一个卷积层后，采用高效的亚像素卷积（Pixel Shuffle）操作进行上采样，得到放大的特征图 Fup。相较于双三次插值，此方法计算复杂度更低，重建性能更好。 * 重建：使用一个3x3卷积层将上采样后的特征 Fup 重建为与GRL分支输出 Ibicubic 通道数一致的残差图像 Ires。 * 最终输出：将MRN分支输出的残差图像 Ires 与GRL分支得到的插值图像 Ibicubic 进行逐元素相加，得到最终的超分辨率重建图像 ISR。
2. 核心模块：残差双注意力块（RDAB） RDAB是DRDAN的基本构建单元，其创新性在于集成了局部多级融合（Local Multi-Level Fusion， LMLF）模块和双注意力机制（Dual-Attention Mechanism， DAM）模块，并采用了局部残差学习（Local Residual Learning， LRL）策略。 * 局部多级融合（LMLF）模块：为了解决仅使用最后一层特征导致信息浪费的问题，LMLF模块旨在充分提取和深度融合同一RDAB内不同卷积层的特征。具体流程为：RDAB的输入 Fb,n-1 首先经过第一个3x3卷积层得到特征 F1，F1 经过ReLU激活函数后，再通过第二个3x3卷积层得到特征 F2。然后，将原始输入 Fb,n-1、F1 和 F2 这三层不同层次的特征在通道维度上进行拼接（Concatenation）。最后，通过一个1x1卷积层对拼接后的特征进行融合和通道数调整，输出融合后的特征 Flmlf。该模块促进了网络内部信息的流动，增强了特征利用率。 * 双注意力机制（DAM）模块：DAM由通道注意力机制（Channel Attention Mechanism， CAM）和空间注意力机制（Spatial Attention Mechanism， SAM）两部分串联构成，旨在让网络自适应地关注重要特征。 * 通道注意力机制（CAM）：不同卷积通道提取的特征对重建高频细节的能力不同。CAM通过显式建模特征通道间的相互依赖关系，自适应地校准各通道的特征响应。具体地，对LMLF模块的输出 Flmlf 沿空间维度进行全局平均池化（Global Average Pooling），得到每个通道的全局描述符。然后通过一个包含两个全连接层（文中通过1x1卷积实现）的“瓶颈”结构（bottleneck structure）生成各通道的权重向量 Achannel。最后，将该权重向量与原始特征 Flmlf 逐通道相乘，得到通道加权的特征 Fca。 * 空间注意力机制（SAM）：图像中不同空间区域的信息重要性不同，高频细节区域（如边缘）更难恢复但更重要。SAM旨在让网络关注这些承载高频信息的空间区域。具体地，对CAM输出的特征 Fca，沿着通道维度分别进行平均池化和最大池化，得到两个空间特征描述图。将这两个描述图拼接后，通过一个卷积层生成空间注意力图 Aspatial，该图上的每个值代表了对应空间位置的重要性权重。最后，将 Aspatial 与特征 Fca 逐位置相乘，得到空间加权的特征 Fsa。 * 局部残差学习（LRL）：在每个RDAB内部，将模块的输入 Fb,n-1 与DAM模块的输出 Fattention（在实现上是 Fca 与 Fsa 的和）相加，作为该RDAB的最终输出 Fb,n。这种短跳跃连接（short-skip connection）可以缓解深度网络的模型退化问题，促进梯度流动，并使网络更专注于学习高频残差信息。
3. 损失函数与训练细节： 研究采用L1损失函数来优化网络参数，因其在防止图像失真和获得更高测试指标方面表现较好。损失函数定义为网络输出 ISR 与真实HR图像 IHR 之间的平均绝对误差。训练时使用Adam优化器，初始学习率为10^-4，每500个周期衰减10倍，共训练1500个周期。批量大小为16。
4. 数据集与实验设置： * 训练集：使用AID（Aerial Image Dataset）数据集中的10,000张图像，并通过水平翻转、垂直翻转和90度旋转进行数据增强。 * 测试集：使用NWPU VHR-10数据集（650张图像）和Cars Overhead with Context（COWC）数据集（3000张图像）来评估模型性能。 * 评价指标：采用峰值信噪比（Peak Signal-to-Noise Ratio， PSNR）和结构相似性指数（Structural Similarity Index， SSIM）作为客观评价指标。PSNR值越高、SSIM值越接近1，表示重建图像质量越好。 * 对比方法：与多种先进方法进行比较，包括双三次插值、SRCNN、VDSR、LGCNet、LapSRN、EDSR和WDSR。为确保公平对比，所有对比方法及DRDAN的卷积滤波器数均设为64，残差块（或类似结构）数量均设为20。
四、 主要研究结果与分析
研究通过详尽的消融实验、参数敏感性分析和对比实验，全面验证了DRDAN的有效性。
1. RDAB模块有效性验证（消融实验）： 在NWPU VHR-10和COWC数据集上，针对RDAB内部的LMLF、CAM和SAM模块进行了消融实验。以基础的残差块（类似EDSR中的块）作为基线（Baseline），实验结果表明： * 单独添加LMLF模块，在两个数据集上分别带来了0.126 dB和0.238 dB的PSNR提升，证明了融合多层次特征的有效性。 * 单独添加CAM模块，带来了约0.071 dB和0.178 dB的PSNR提升，说明通道注意力能有效区分通道重要性。 * 单独添加SAM模块，带来了约0.078 dB和0.160 dB的PSNR提升，表明空间注意力能引导网络聚焦于难恢复的高频区域。 * 当LMLF、CAM和SAM三者结合构成完整的RDAB时，取得了最佳性能，PSNR提升最为显著（例如在NWPU VHR-10上达到34.698 dB）。这充分证明了RDAB设计的合理性与高效性。
2. RDAB数量对性能的影响： 研究测试了DRDAN中RDAB数量从5个增加到25个时的性能变化。在两个测试集上，对于×2、×3、×4三种放大因子，PSNR和SSIM指标均随着RDAB数量的增加而持续提升，表明RDAB可以作为构建深度超分辨率网络的有效基础模块，且网络性能随深度增加而增强，未出现明显的性能饱和或退化。
3. 全局残差学习（GRL）分支的作用： 通过在一个小型测试集（FastTest10）上对比带有GRL分支和不带GRL分支的DRDAN训练曲线发现，带有GRL分支的网络收敛速度更快，且在相同训练周期内能达到更高的PSNR水平。这证实了GRL分支通过让网络学习残差而非完整图像映射，有效降低了训练难度，加速了收敛。
4. 与先进方法的对比实验： 在两个测试集和三种放大因子下，DRDAN在PSNR和SSIM指标上均 consistently 超越了所有对比方法。 * 在NWPU VHR-10数据集上，相比当时表现次优的WDSR模型，DRDAN在×2、×3、×4尺度下的PSNR分别高出0.128 dB、0.100 dB和0.078 dB，SSIM也相应更高。 * 在COWC数据集上，DRDAN相比WDSR的PSNR优势更为明显，分别达到0.223 dB、0.237 dB和0.147 dB，SSIM优势也达到0.0018至0.0038。 * 视觉效果对比：定性分析显示，对于包含线条、纹理、车辆等细节的遥感图像块，DRDAN重建出的边缘更清晰，纹理细节更丰富，视觉效果更接近原始HR图像，主观质量最佳。
5. 模型复杂度分析： 研究对比了不同网络结构的参数量与性能（PSNR）的关系。结果显示，DRDAN的模型参数量不到EDSR的一半，但其PSNR性能却显著优于EDSR及其他对比模型。这表明DRDAN通过引入高效的注意力机制和特征融合模块，以更少的参数实现了更优的性能，在模型效率与性能之间取得了更好的平衡。
五、 研究结论与价值
本研究成功提出了一种用于遥感图像超分辨率重建的深度残差双注意力网络（DRDAN）。其核心贡献在于设计了一种新颖的残差双注意力块（RDAB），该块通过局部多级融合模块实现了不同层次特征的充分利用，并通过结合通道与空间注意力的双注意力机制，使网络能够自适应地将更多计算资源分配给包含重要高频信息的通道和空间区域。
研究得出结论： 1. RDAB设计合理高效，可作为构建深度超分辨率重建网络的基础模块。 2. GRL分支有效降低了模型训练难度，并加快了网络收敛速度。 3. 综合实验表明，DRDAN在客观评价指标（PSNR， SSIM）和主观视觉质量上均优于其他先进的基于DCNN的超分辨率方法，且能以更少的模型参数达到更优的性能。
六、 研究亮点
创新性的网络架构：首次在遥感图像超分辨率任务中同时引入了局部多级特征融合和通道-空间双注意力机制，并将其整合到一个统一的残差学习框架中。
高效的注意力设计：DAM模块同时从通道和空间两个维度动态调整特征重要性，更符合遥感图像中信息分布不均匀的特性，显著提升了高频细节的重建能力。
显著的性能优势：在多个公开遥感数据集上，DRDAN在定性和定量评价上均达到了当时最先进的水平。
良好的模型效率：在取得优异性能的同时，保持了相对较低的模型参数量，显示出较高的实用价值，尤其适用于计算资源受限的场景。
七、 其他有价值的内容
本研究还提供了详尽的实验设置和参数细节（如表1的RDAB参数设置、表2的训练参数），确保了实验的可复现性。此外，文章对相关领域的前沿工作（如RCAN、EDSR等）进行了回顾和比较，清晰地定位了本研究的贡献。对GRL作用的单独验证也加强了对网络设计思想的阐释。整体而言，该研究是一项设计严谨、实验充分、贡献明确的优秀工作，为遥感图像超分辨率领域提供了新的思路和有效的解决方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问