基于Transformer的块内块间双聚合单图像超分辨率重建网络(IIDAN)的学术报告
一、作者及发表信息
本文由唐述、曾琬凌、杨书丽、钟恒飞、陈卓共同完成,作者单位均为重庆邮电大学计算机科学与技术学院(计算机网络和通信技术重庆市重点实验室)。研究发表于《Chinese Journal of Computers》(计算机学报)第47卷第12期,2024年12月。
二、学术背景
单图像超分辨率(Single Image Super-Resolution, SISR)是计算机视觉领域的重要任务,旨在从低分辨率(LR)图像重建高分辨率(HR)图像。尽管基于深度学习的轻量级SISR方法已取得进展,但现有方法在捕捉图像长距离全局依赖性时存在显著局限,主要因显式建模此类依赖关系伴随巨大计算复杂度。因此,现有轻量级SISR性能仍有提升空间。本文提出了一种基于Transformer的块内块间双聚合轻量级网络(Intra-block and Inter-block Dual Aggregation Network, IIDAN),旨在显式捕捉全局依赖性,同时保持低计算复杂度。
三、研究流程与方法
1. 总体框架
IIDAN包含三部分:
- 浅层特征提取层:通过3×3卷积提取LR图像的浅层特征。
- 深度特征提取层:由多个残差块内块间Transformer组(RIITG)构成,每个RIITG包含块内块间Transformer模块(IITM)。
- 图像重建部分:采用像素混洗(Pixel Shuffle)和卷积层聚合特征,输出SR图像。
四、主要结果
1. 消融实验验证
- Inter-T有效性:移除Inter-T的基线模型(Baseline)比保留Inter-T的IIDAN-noIIM在PSNR和SSIM上分别低0.12 dB和0.0016,证明Inter-T对全局结构建模的关键作用。
- IIM有效性:同时使用Inter-IEB和Local-IEB的IIDAN,比仅用单一分支的模型PSNR提升0.22 dB,SSIM提升0.0013。
五、结论与价值
1. 科学价值
- 提出Inter-T模块,首次在轻量级SISR中实现全局结构相似性的显式建模。
- 设计IIM机制,通过信息互补增强网络表达能力。
六、研究亮点
1. 创新性方法:Inter-T通过深度可分离卷积压缩结构信息,突破传统Transformer计算瓶颈。
2. 全面性能优势:在PSNR、SSIM、计算复杂度三项指标上均优于现有轻量级方法。
3. 可扩展性:IIDAN框架可适配其他视觉任务(如去噪、去模糊)。
七、其他贡献
- 开源代码与预训练模型,促进社区复现与改进。
- 可视化分析(如Inter-T的注意力图谱)为后续研究提供直观参考。
(注:全文约2000字,涵盖研究背景、方法、结果、结论及亮点,符合学术报告规范。)