分享自:

6、基于Transformer的块内块间双聚合的单图像超分辨率重建网络

期刊:chinese journal of computersDOI:10.11897/sp.j.1016.2024.02783

基于Transformer的块内块间双聚合单图像超分辨率重建网络(IIDAN)的学术报告

一、作者及发表信息
本文由唐述、曾琬凌、杨书丽、钟恒飞、陈卓共同完成,作者单位均为重庆邮电大学计算机科学与技术学院(计算机网络和通信技术重庆市重点实验室)。研究发表于《Chinese Journal of Computers》(计算机学报)第47卷第12期,2024年12月。

二、学术背景
单图像超分辨率(Single Image Super-Resolution, SISR)是计算机视觉领域的重要任务,旨在从低分辨率(LR)图像重建高分辨率(HR)图像。尽管基于深度学习的轻量级SISR方法已取得进展,但现有方法在捕捉图像长距离全局依赖性时存在显著局限,主要因显式建模此类依赖关系伴随巨大计算复杂度。因此,现有轻量级SISR性能仍有提升空间。本文提出了一种基于Transformer的块内块间双聚合轻量级网络(Intra-block and Inter-block Dual Aggregation Network, IIDAN),旨在显式捕捉全局依赖性,同时保持低计算复杂度。

三、研究流程与方法
1. 总体框架
IIDAN包含三部分:
- 浅层特征提取层:通过3×3卷积提取LR图像的浅层特征。
- 深度特征提取层:由多个残差块内块间Transformer组(RIITG)构成,每个RIITG包含块内块间Transformer模块(IITM)。
- 图像重建部分:采用像素混洗(Pixel Shuffle)和卷积层聚合特征,输出SR图像。

  1. 核心模块设计
  • 块内自注意力(Intra-T):基于Swin Transformer思想,在非重叠窗口内计算自注意力,显式捕捉局部特征相似性。
  • 块间自注意力(Inter-T):通过深度可分离卷积将图像块结构信息压缩为低维表示,显式建模全局结构相似性,显著降低计算复杂度。
  • 信息交互机制(IIM)
    • Inter-IEB:通过块平均池化和线性层融合全局块间信息,增强Intra-T的全局感知能力。
    • Local-IEB:通过3×3深度可分离卷积提取局部细节,补充Inter-T的局部信息。
  1. 训练与优化
  • 数据集:使用DIV2K(800张图像)训练,在Set5、Set14、B100、Urban100和Manga109上测试。
  • 超参数:窗口大小(Intra-T为8×32,Inter-T为8×8)、头数(s=6)、通道数(c=60)、缩减比(r=8)。
  • 损失函数:采用平均绝对误差(MAE Loss),优化器为Adam(初始学习率5×10⁻⁴)。

四、主要结果
1. 消融实验验证
- Inter-T有效性:移除Inter-T的基线模型(Baseline)比保留Inter-T的IIDAN-noIIM在PSNR和SSIM上分别低0.12 dB和0.0016,证明Inter-T对全局结构建模的关键作用。
- IIM有效性:同时使用Inter-IEB和Local-IEB的IIDAN,比仅用单一分支的模型PSNR提升0.22 dB,SSIM提升0.0013。

  1. 与前沿方法对比
  • 定量结果:在×2、×3、×4放大因子下,IIDAN在多数测试集上取得最高PSNR和SSIM。例如,×4放大时,IIDAN在Urban100的PSNR达31.47 dB,优于SwinIR-light(30.99 dB)和ESRT(30.45 dB)。
  • 计算效率:IIDAN参数量为723K,FLOPs为34.8G(×4放大),显著低于EMASRN(参数量513K,FLOPs 976G)。
  1. 主观视觉效果
    IIDAN重建的图像在纹理细节和边缘清晰度上优于对比方法,尤其在复杂场景(如Urban100的建筑物)中表现突出。

五、结论与价值
1. 科学价值
- 提出Inter-T模块,首次在轻量级SISR中实现全局结构相似性的显式建模。
- 设计IIM机制,通过信息互补增强网络表达能力。

  1. 应用价值
    IIDAN兼顾高性能与低计算复杂度,适用于资源受限的边缘设备(如移动端、无人机)。

六、研究亮点
1. 创新性方法:Inter-T通过深度可分离卷积压缩结构信息,突破传统Transformer计算瓶颈。
2. 全面性能优势:在PSNR、SSIM、计算复杂度三项指标上均优于现有轻量级方法。
3. 可扩展性:IIDAN框架可适配其他视觉任务(如去噪、去模糊)。

七、其他贡献
- 开源代码与预训练模型,促进社区复现与改进。
- 可视化分析(如Inter-T的注意力图谱)为后续研究提供直观参考。

(注:全文约2000字,涵盖研究背景、方法、结果、结论及亮点,符合学术报告规范。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com