这篇文档属于类型a,是一篇关于烟雾图像分割的原创性研究论文。以下是针对该研究的学术报告:
作者及机构
本研究的通讯作者为Feiniu Yuan(上海师范大学信息与机电工程学院),第一作者为Kang Li(上海师范大学数学与科学学院),合作者包括Chunmei Wang(上海师范大学信息与机电工程学院)。论文发表于期刊《Pattern Recognition》2025年第159卷,标题为《An effective multi-scale interactive fusion network with hybrid transformer and CNN for smoke image segmentation》。
研究领域与动机
烟雾分割是计算机视觉和图像处理的重要研究方向,在火灾预警、工业监控等领域具有关键应用价值。传统烟雾检测依赖物理传感器(如光电传感器),但其无法提供烟雾分布的细节信息。基于颜色空间(如HSV)或手工设计特征的方法受限于烟雾外观的多变性(如半透明性、形状不规则性),难以应对复杂场景。近年来,深度学习(如CNN和Transformer)在语义分割中表现优异,但现有方法仍存在以下问题:
1. 局部与全局特征的融合不足:CNN擅长提取局部纹理,但忽略长程依赖;Transformer能建模全局上下文,但对局部细节捕捉较弱。
2. 计算复杂度高:传统Transformer的多头自注意力(Multi-Head Self-Attention, MSA)涉及二次矩阵运算,难以部署。
3. 多尺度适应性差:烟雾的模糊边界和尺寸变化要求模型具备多尺度特征整合能力。
研究目标
提出一种新型混合网络MIFNet(Multi-scale Interactive Fusion Network),通过结合Transformer与CNN的优势,实现高精度、低复杂度的烟雾图像分割。核心创新包括:
- 设计局部特征增强传播模块(LFEP)替代MSA,降低计算成本。
- 开发多级注意力耦合模块(MACM),深度融合双编码器特征。
- 构建先验引导多尺度融合解码器(PMFD),优化多尺度特征整合。
LFE-Former编码器
- 输入处理:将图像调整为多尺度特征(1/2, 1⁄4, 1⁄8, 1/16原始尺寸)。
- LFEP模块:
- 用混合池化策略(最大池化MP与平均池化AP)替代MSA,通过加减操作增强特征:
$$ \text{LFEP}_o = {x_i - \text{AP}(x_i)} + \text{MP}(x_i) $$
- 优势:减少参数(降低4M)和计算量(减少2.45G FLOPs),同时保留高频细节。
- 输出:生成4个尺度特征(F4~F1)。
CNN编码器
- 采用轻量级ResNet18作为局部特征提取器,避免复杂全局建模,加速收敛。
结合加权交叉熵($\ell\omega^{\text{BCE}}$)与交并比损失($\ell\omega^{\text{IoU}}$):
$$ \mathcal{L}(p,g) = \ell\omega^{\text{BCE}}(p,g) + \ell\omega^{\text{IoU}}(p,g) $$
通过像素级权重分配,提升难样本(如薄烟雾)的分割精度。
LFEP模块性能(表1)
MACM模块验证(表2)
PMFD对比实验(表3)
跨数据集测试
科学价值
1. 方法论创新:LFEP通过线性池化操作替代MSA,为Transformer的轻量化设计提供新思路。
2. 跨域特征融合:MACM首次实现Transformer与CNN的多层次深度交互,提升模型对烟雾复杂外观的建模能力。
应用价值
- 可部署于城市监控和森林防火系统,实现早期火灾预警。
- 模型参数量仅24.6M(如SagINN为101.1M),适合资源受限场景。
其他贡献
- 公开合成烟雾数据集Syn70K,填补真实数据标注困难的缺口。
- 代码与模型将开源,推动相关研究发展。
(报告总字数:约1500字)