分享自:

基于注意力机制的宽波段小目标实时去模糊

期刊:光学 精密工程DOI:10.37188/ope.20243223.3479

朱德燕、敖咏琪、徐家一、李承城、张钰凡等研究者(来自南京航空航天大学航天学院及空间光电探测与感知工信部重点实验室)于2024年12月在《Optics and Precision Engineering》(光学 精密工程)第32卷第23期发表了一项关于宽波段小目标实时去模糊的原创研究。该研究针对天基平台远距离运动目标探测中的图像模糊问题,提出了一种结合注意力机制的多尺度多阶段卷积神经网络方法(MSSANet),在红外与可见光波段均实现了优于现有算法的实时去模糊效果。以下是研究的详细内容:


一、学术背景

天基平台在远距离运动目标探测中面临核心挑战:目标尺寸小(像素占比不足0.1)、波段跨度大(红外与可见光)、图像因运动模糊和衍射模糊严重退化。传统方法(如非盲去模糊和盲去模糊)依赖模糊核估计,计算效率低且易产生振铃效应;而现有深度学习方法(如GAN、RNN、Transformer)在实时性、波段泛化性或小目标轮廓恢复能力上存在局限。研究团队提出通过轻量化网络架构与注意力机制结合,实现34帧/秒以上的实时去模糊,并提升跨波段的适应性。


二、研究方法与流程

1. 网络架构设计(MSSANet)

研究提出多尺度多阶段网络(Multi-Scale Multi-Stage Network, MSSN)作为基础框架,包含从粗到细的3个尺度(S1、S2、S3),分别对应1、2、3个阶段。每个阶段由编码器-解码器模块(Encoder-Decoder, E-D)构成,通过残差块(Residual Block)减轻梯度消失问题。网络输入单幅模糊图像后,通过pixel-unshuffle操作逐级下采样提取多尺度特征,最终输出复原图像。关键创新包括:
- 轻量化模块优化:实验表明,当注意力模块数量为4、残差块数量为2时,PSNR与运行时间达到最优平衡(耗时仅典型算法的1/3,0.029秒/帧)。
- 跨波段通道设计:输入输出通道数固定为3,兼容单通道红外和三通道可见光图像,避免色彩信息丢失。

2. 注意力机制融合

  • F-D模块:基于频域的自注意力机制(Frequency domain based Self-Attention Solver)通过哈达玛积替代矩阵乘法,将计算复杂度从O(n³)降至O(n²)。模块包含:
    • F模块:在频域计算特征相关性,利用傅里叶变换捕捉长距离依赖。
    • D模块:通过可学习参数判别高频与低频关键信息,增强轮廓恢复能力。
  • CBAM模块(Convolutional Block Attention Module):串联通道注意力与空间注意力,通过最大/平均池化与7×7深度卷积优化特征权重分配。

3. 损失函数与训练策略

损失函数结合内容损失(L1损失)与频率重构损失(频域L1差异),权重系数λ=0.1。训练使用Adam优化器(初始学习率1×10⁻⁴,β1=0.9,β2=0.999),在GoPro数据集预训练后,于自建红外(180幅)和可见光(1,130幅)小目标数据集微调,模糊核覆盖运动模糊、衍射模糊及混合类型(图5)。


三、主要结果

1. 性能指标对比

  • 红外数据集:MSSANet的PSNR达32.083 dB(优于对比算法Restormer的31.770 dB)、SSIM 0.878,耗时0.029秒(仅为MRDNet的1/2)。
  • 可见光数据集:PSNR 17.118 dB(SWinFormer为16.983 dB),SSIM 0.930,实时性保持34帧/秒以上(表3、4)。

2. 去模糊效果可视化分析

  • 红外图像:序列1、2中模糊的飞机尾焰与机身轮廓显著恢复;序列3的重影被消除(图6)。
  • 可见光图像:机翼边缘和机身形状在高噪声背景下清晰重建(图7)。

3. 消融实验验证

单独添加CBAM或F-D模块可提升PSNR约0.1 dB,联合使用后红外PSNR提高至32.083 dB(表5),证实注意力机制在多尺度特征融合中的协同作用。


四、结论与价值

  1. 科学价值
    • 提出频域自注意力与空间-通道注意力联合优化框架,为解决小目标特征提取困难提供了新思路。
    • 首次在去模糊任务中实现跨波段(红外/可见光)泛化,模型参数仅需调整输入通道数。
  2. 应用价值
    • 为天基平台的实时目标检测系统提供技术支撑,如卫星对高速运动飞行器的识别。
    • 算法轻量化设计适合边缘设备部署,可扩展至无人机、车载摄像头等领域。

五、研究亮点

  1. 方法创新性
    • 融合频域哈达玛积与空域注意力,兼顾计算效率与特征判别能力。
    • 多尺度阶段式架构通过跳跃连接保留梯度流,避免深层网络退化。
  2. 工程实用性
    • 首次公开适用于宽波段小目标的混合模糊核数据集(含多样化的运动与衍射模糊)。
    • 代码开源与模块化设计便于后续研究复现与改进。

该研究的局限性在于未考虑极端低光照条件下的去模糊需求,未来可结合噪声建模进一步优化。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com