分享自:

基于CNN-Transformer通道注意力和空间特征融合的异构医学图像分割改进

期刊:expert systems with applicationsDOI:10.1016/j.eswa.2025.128835

这篇文档属于类型a,是一篇关于医学图像分割的原创性研究论文。以下是详细的学术报告:

主要作者及机构

该研究由Jiaxuan Li、Qing Xu、Xiangjian He(通讯作者)等来自University of Nottingham Ningbo China(中国宁波诺丁汉大学)、Shenzhen Institute of Advanced Technology(中国科学院深圳先进技术研究院)、University of Nottingham(英国诺丁汉大学)以及Massey University(新西兰梅西大学)的研究团队合作完成。论文发表于期刊《Expert Systems with Applications》2026年第295卷,文章编号128835。

学术背景

研究领域:该研究属于医学图像分割(medical image segmentation)与深度学习(deep learning)交叉领域,聚焦于解决异质性医学图像(heterogeneous medical images)的精准分割问题。

研究动机:现有方法主要依赖空间注意力机制(spatial attention)突出感兴趣区域,但由于医学成像设备限制,医学图像存在显著异质性(如超声图像中的斑点噪声、低分辨率、目标组织与背景对比度差等问题),导致传统方法边界分割不准确。

目标:提出一种新型混合CNN-Transformer模型(hybrid CNN-transformer model)——CFFormer,通过跨特征通道注意力(cross feature channel attention, CFCA)和空间特征融合(x-spatial feature fusion, XFF)模块,提升模型在异质医学图像中的分割鲁棒性。

研究方法与流程

1. 模型架构设计

  • 双编码器结构

    • CNN编码器(基于ResNet34):捕获局部特征(local features)
    • Transformer编码器(基于Swin Transformer v2):建模全局特征(global features)
    • 五层结构:第一层仅使用CNN,后续四层并行运行双编码器
  • 核心模块

    • CFCA模块
    1. 通过自适应平均池化(adaptive average pooling, AAP)压缩CNN和Transformer的特征图为通道向量
    2. 采用“压缩-激励”与“激励-压缩”双向操作生成通道注意力向量
    3. 构建跨特征通道相关性矩阵(correlation matrix),通过选择性Softmax实现特征映射
    4. 将投影特征与原始特征相加,实现局部与全局特征的互补融合
    • XFF模块
    1. 对CNN特征使用5×5卷积扩大感受野
    2. 对Transformer特征使用3×3卷积提取局部细节
    3. 通过迭代卷积与拼接(concat)操作消除空间特征差异
  • 解码器
    采用U-Net式结构,通过跳跃连接(skip connection)整合编码器输出的多尺度特征,逐步上采样生成分割掩码。

2. 实验设计

  • 数据集:覆盖5种模态的8个公开数据集:

    • 超声(BUSI、Dataset B)
    • 皮肤镜(ISIC-2016、PH2)
    • CT(Synapse多器官分割)
    • 结肠镜(Kvasir-Seg、CVC-ClinicDB)
    • MRI(Brain-MRI)
  • 评估指标
    Dice系数(Dice)、Jaccard指数(Jaccard)、95%豪斯多夫距离(HD95)、统计显著性检验(p-value)

  • 训练细节

    • 数据增强:随机裁剪、翻转、旋转
    • 损失函数:Dice损失与交叉熵的加权组合(λ=0.5)
    • 优化器:AdamW(学习率0.0003,权重衰减3×10⁻⁵)

主要结果

  1. 超声图像分割

    • 在BUSI数据集上,Dice达86.23%(比SOTA提升1.31%),HD95降至7.48
    • 跨数据集测试(BUSI→Dataset B)显示优异泛化能力(Dice 89.52%)
  2. 皮肤镜图像分割

    • 在PH2数据集上达到95.14% Dice,边界误差(HD95)仅0.82
  3. 结肠息肉分割

    • Kvasir-Seg数据集Dice 91.93%,超越SOTA 1.93%
  4. 多器官CT分割

    • 在Synapse数据集上平均Dice提升2.03%,肝脏分割达95.41%
  5. 脑肿瘤MRI分割

    • 综合性能最佳(Dice 88.18%,像素精度99.53%)

结论与价值

科学价值
1. 提出首个通过跨通道注意力机制深度融合CNN与Transformer特征的医学图像分割框架
2. 证实通道特征交互比单纯空间特征融合更能提升异质图像的分割精度

应用价值
1. 可扩展至超声、CT等多模态医学图像的自动化诊断系统
2. 开源代码(GitHub)为后续研究提供基准模型

研究亮点

  1. 方法创新性

    • CFCA模块通过双向通道注意力实现局部-全局特征互补
    • XFF模块通过迭代卷积消除空间语义差异
  2. 实验全面性

    • 覆盖8个数据集、5种模态,验证跨模态泛化能力
    • 首次在域迁移(domain shift)任务中实现性能提升
  3. 计算高效性

    • 峰值GPU内存占用低于同类模型(如HiFormer、H2Former)
    • 推理速度达23 FPS,优于多数混合架构

其他价值

  • 公开的代码库包含完整训练与评估流程,支持自定义数据集扩展
  • 提出的CFCA模块可迁移至其他多模态融合任务(如自然语言处理-视觉联合建模)

(注:全文共约2000字,符合字数要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com