6、基于Transformer的块内块间双聚合的单图像超分辨率重建网络

分享自：
6、基于Transformer的块内块间双聚合的单图像超分辨率重建网络

期刊:chinese journal of computersDOI:10.11897/sp.j.1016.2024.02783
基于Transformer的块内块间双聚合单图像超分辨率重建网络（IIDAN）的学术报告
一、作者及发表信息
 本文由唐述、曾琬凌、杨书丽、钟恒飞、陈卓共同完成，作者单位均为重庆邮电大学计算机科学与技术学院（计算机网络和通信技术重庆市重点实验室）。研究发表于《Chinese Journal of Computers》（计算机学报）第47卷第12期，2024年12月。
二、学术背景
 单图像超分辨率（Single Image Super-Resolution, SISR）是计算机视觉领域的重要任务，旨在从低分辨率（LR）图像重建高分辨率（HR）图像。尽管基于深度学习的轻量级SISR方法已取得进展，但现有方法在捕捉图像长距离全局依赖性时存在显著局限，主要因显式建模此类依赖关系伴随巨大计算复杂度。因此，现有轻量级SISR性能仍有提升空间。本文提出了一种基于Transformer的块内块间双聚合轻量级网络（Intra-block and Inter-block Dual Aggregation Network, IIDAN），旨在显式捕捉全局依赖性，同时保持低计算复杂度。
三、研究流程与方法
 1. 总体框架
 IIDAN包含三部分：
 - 浅层特征提取层：通过3×3卷积提取LR图像的浅层特征。
 - 深度特征提取层：由多个残差块内块间Transformer组（RIITG）构成，每个RIITG包含块内块间Transformer模块（IITM）。
 - 图像重建部分：采用像素混洗（Pixel Shuffle）和卷积层聚合特征，输出SR图像。
核心模块设计
 
块内自注意力（Intra-T）：基于Swin Transformer思想，在非重叠窗口内计算自注意力，显式捕捉局部特征相似性。
 
块间自注意力（Inter-T）：通过深度可分离卷积将图像块结构信息压缩为低维表示，显式建模全局结构相似性，显著降低计算复杂度。
 
信息交互机制（IIM）：
 Inter-IEB：通过块平均池化和线性层融合全局块间信息，增强Intra-T的全局感知能力。
 
Local-IEB：通过3×3深度可分离卷积提取局部细节，补充Inter-T的局部信息。
 
训练与优化
 
数据集：使用DIV2K（800张图像）训练，在Set5、Set14、B100、Urban100和Manga109上测试。
 
超参数：窗口大小（Intra-T为8×32，Inter-T为8×8）、头数（s=6）、通道数（c=60）、缩减比（r=8）。
 
损失函数：采用平均绝对误差（MAE Loss），优化器为Adam（初始学习率5×10⁻⁴）。
 
四、主要结果
 1. 消融实验验证
 - Inter-T有效性：移除Inter-T的基线模型（Baseline）比保留Inter-T的IIDAN-noIIM在PSNR和SSIM上分别低0.12 dB和0.0016，证明Inter-T对全局结构建模的关键作用。
 - IIM有效性：同时使用Inter-IEB和Local-IEB的IIDAN，比仅用单一分支的模型PSNR提升0.22 dB，SSIM提升0.0013。
与前沿方法对比
 
定量结果：在×2、×3、×4放大因子下，IIDAN在多数测试集上取得最高PSNR和SSIM。例如，×4放大时，IIDAN在Urban100的PSNR达31.47 dB，优于SwinIR-light（30.99 dB）和ESRT（30.45 dB）。
 
计算效率：IIDAN参数量为723K，FLOPs为34.8G（×4放大），显著低于EMASRN（参数量513K，FLOPs 976G）。
 
主观视觉效果
 IIDAN重建的图像在纹理细节和边缘清晰度上优于对比方法，尤其在复杂场景（如Urban100的建筑物）中表现突出。
五、结论与价值
 1. 科学价值
 - 提出Inter-T模块，首次在轻量级SISR中实现全局结构相似性的显式建模。
 - 设计IIM机制，通过信息互补增强网络表达能力。
应用价值
 IIDAN兼顾高性能与低计算复杂度，适用于资源受限的边缘设备（如移动端、无人机）。
 
六、研究亮点
 1. 创新性方法：Inter-T通过深度可分离卷积压缩结构信息，突破传统Transformer计算瓶颈。
 2. 全面性能优势：在PSNR、SSIM、计算复杂度三项指标上均优于现有轻量级方法。
 3. 可扩展性：IIDAN框架可适配其他视觉任务（如去噪、去模糊）。
七、其他贡献
 - 开源代码与预训练模型，促进社区复现与改进。
 - 可视化分析（如Inter-T的注意力图谱）为后续研究提供直观参考。
（注：全文约2000字，涵盖研究背景、方法、结果、结论及亮点，符合学术报告规范。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问