分享自:

一种基于混合Transformer和CNN的多尺度交互融合网络用于烟雾图像分割

期刊:Pattern RecognitionDOI:10.1016/j.patcog.2024.111177

这篇文档属于类型a,是一篇关于烟雾图像分割的原创性研究论文。以下是针对该研究的学术报告:


作者及机构
本研究的通讯作者为Feiniu Yuan(上海师范大学信息与机电工程学院),第一作者为Kang Li(上海师范大学数学与科学学院),合作者包括Chunmei Wang(上海师范大学信息与机电工程学院)。论文发表于期刊《Pattern Recognition》2025年第159卷,标题为《An effective multi-scale interactive fusion network with hybrid transformer and CNN for smoke image segmentation》。


学术背景

研究领域与动机
烟雾分割是计算机视觉和图像处理的重要研究方向,在火灾预警、工业监控等领域具有关键应用价值。传统烟雾检测依赖物理传感器(如光电传感器),但其无法提供烟雾分布的细节信息。基于颜色空间(如HSV)或手工设计特征的方法受限于烟雾外观的多变性(如半透明性、形状不规则性),难以应对复杂场景。近年来,深度学习(如CNN和Transformer)在语义分割中表现优异,但现有方法仍存在以下问题:
1. 局部与全局特征的融合不足:CNN擅长提取局部纹理,但忽略长程依赖;Transformer能建模全局上下文,但对局部细节捕捉较弱。
2. 计算复杂度高:传统Transformer的多头自注意力(Multi-Head Self-Attention, MSA)涉及二次矩阵运算,难以部署。
3. 多尺度适应性差:烟雾的模糊边界和尺寸变化要求模型具备多尺度特征整合能力。

研究目标
提出一种新型混合网络MIFNet(Multi-scale Interactive Fusion Network),通过结合Transformer与CNN的优势,实现高精度、低复杂度的烟雾图像分割。核心创新包括:
- 设计局部特征增强传播模块(LFEP)替代MSA,降低计算成本。
- 开发多级注意力耦合模块(MACM),深度融合双编码器特征。
- 构建先验引导多尺度融合解码器(PMFD),优化多尺度特征整合。


研究流程与方法

1. 双路径编码器设计

LFE-Former编码器
- 输入处理:将图像调整为多尺度特征(1/2, 14, 18, 1/16原始尺寸)。
- LFEP模块
- 用混合池化策略(最大池化MP与平均池化AP)替代MSA,通过加减操作增强特征:
$$ \text{LFEP}_o = {x_i - \text{AP}(x_i)} + \text{MP}(x_i) $$
- 优势:减少参数(降低4M)和计算量(减少2.45G FLOPs),同时保留高频细节。
- 输出:生成4个尺度特征(F4~F1)。

CNN编码器
- 采用轻量级ResNet18作为局部特征提取器,避免复杂全局建模,加速收敛。

2. 多级注意力耦合模块(MACM)

  • 交互机制
    1. 以LFE-Former特征为查询(Query),CNN特征为键(Key),通过注意力机制动态融合:
      $$ \text{Att}i = \text{Conv}{3×3}(\text{EC}_i × \text{Softmax}(\text{ET}_i) + \text{EC}_i) $$
    2. 引入纹理系数(Sigmoid激活)增强局部细节:
      $$ \text{Att}’i = \text{Sigmoid}(\text{Conv}{1×1}(\text{MP}(\text{EC}_i))) × \text{Att}_i $$
    3. 最终融合特征:
      $$ Fi = \text{Conv}{3×3}(\text{Att}‘_i + \text{ET}_i) $$
  • 效果:可视化热图显示MACM能清晰区分烟雾与背景(图8)。

3. 先验引导多尺度融合解码器(PMFD)

  • 流程
    1. 自底向上逐级融合MACM输出的多尺度特征(F4~F1),通过上采样和逐元素相加:
      $$ F’_{i-1} = \text{Up}(Fi) ⊕ F{i-1} $$
    2. 采用共享权重的3×3卷积减少混叠效应,保留空间细节。
  • 差异:相比传统FPN,PMFD直接利用MACM输出,避免额外卷积调整通道维度。

4. 损失函数

结合加权交叉熵($\ell\omega^{\text{BCE}}$)与交并比损失($\ell\omega^{\text{IoU}}$):
$$ \mathcal{L}(p,g) = \ell\omega^{\text{BCE}}(p,g) + \ell\omega^{\text{IoU}}(p,g) $$
通过像素级权重分配,提升难样本(如薄烟雾)的分割精度。


主要结果

  1. LFEP模块性能(表1)

    • 在合成烟雾数据集(Syn70K)上,LFEP的mIoU达81.81%,优于MSA(80.68%)和EAA(81.08%)。
    • 计算量降低至16.42G FLOPs(MSA为18.87G)。
  2. MACM模块验证(表2)

    • 使用4个MACM时,mIoU提升至81.85%(DS03子集),较无MACM提升2.71%。
    • 可视化显示MACM能精确分割烟雾边缘(图7)。
  3. PMFD对比实验(表3)

    • PMFD的mIoU为81.81%,优于FPN(80.62%)和MLA(80.82%)。
  4. 跨数据集测试

    • Syn70K:mIoU达81.6%,超越SOTA方法(如SmokeSeger的75.3%)。
    • 森林烟雾数据集(FSD):准确率98.3%,灵敏度68.91%(表7)。

结论与价值

科学价值
1. 方法论创新:LFEP通过线性池化操作替代MSA,为Transformer的轻量化设计提供新思路。
2. 跨域特征融合:MACM首次实现Transformer与CNN的多层次深度交互,提升模型对烟雾复杂外观的建模能力。

应用价值
- 可部署于城市监控和森林防火系统,实现早期火灾预警。
- 模型参数量仅24.6M(如SagINN为101.1M),适合资源受限场景。


研究亮点

  1. 高效LFEP模块:首次将加减运算引入Transformer,显著降低计算复杂度。
  2. 多尺度交互策略:MACM与PMFD协同优化,在Syn70K和FSD上均达到SOTA性能。
  3. 鲁棒性验证:在火焰干扰场景中仍能准确分割烟雾(图12)。

其他贡献
- 公开合成烟雾数据集Syn70K,填补真实数据标注困难的缺口。
- 代码与模型将开源,推动相关研究发展。


(报告总字数:约1500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com