分享自:

HTC-Net:一种用于医学图像分割的混合CNN-Transformer框架

期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2023.105605

HTC-Net:一种基于CNN-Transformer混合框架的医学图像分割方法

第一作者及机构
本研究由福州大学物理与信息工程学院的Hui Tang(汤辉)和Yuanbin Chen(陈元彬)作为共同第一作者主导,合作单位包括福州大学福建省医疗器械与医药技术重点实验室、Imperial Vision Technology公司(福州)以及澳门理工大学应用科学学院。研究成果发表于2024年的期刊《Biomedical Signal Processing and Control》(第88卷,文章编号105605)。


学术背景
医学图像分割是临床诊断与分析的关键步骤,但其面临两大挑战:
1. 局部与全局信息平衡问题:医学图像(如皮肤病变、胃肠道息肉)形态复杂,病灶边界不规则且易受干扰(如毛发、血管),传统卷积神经网络(CNN)因感受野有限,难以捕捉全局上下文信息。
2. 多尺度特征融合难题:高分辨率图像细节丰富但分割不稳定,低分辨率图像则边界信息丢失。

为解决这些问题,研究团队提出HTC-Net(Hybrid CNN-Transformer Network),结合CNN的局部特征提取能力与Transformer的全局建模优势,并引入创新模块(TMF和UA块)以动态融合多尺度上下文信息。


研究流程与方法
1. 网络架构设计
- 编码器-解码器结构
- 编码器:采用EfficientNet块(预训练于ImageNet)提取局部特征,后接Swin Transformer块进行全局表征学习,通过三次下采样逐步扩大感受野。
- 解码器:通过Patch Expanding上采样,结合Swin Transformer块恢复空间细节,并利用跳跃连接融合多尺度特征。
- 核心创新模块
- TMF块(Trident Multi-layer Fusion)
- 三分支并行结构,分别采用空洞率1、3、5的3×3卷积扩大感受野,通过SE(Squeeze-and-Excitation)模块自适应加权通道特征。
- 尺度感知卷积块:动态融合多尺度特征(公式6-9),加权求和后通过残差连接输出。
- UA块(United Attention)
- 通道注意力:联合最大池化与平均池化特征,通过MLP生成通道权重(公式10-11)。
- 空间注意力:拼接池化特征后经卷积生成空间权重图(公式12),最终并行融合两类注意力以增强关键区域聚焦。

  1. 实验设计与数据集

    • 数据集
      • ISIC-2017:2750张皮肤镜图像(训练2000张,验证150张,测试600张),分辨率453×679至4499×6748像素。
      • Kvasir-Seg:1000张胃肠道息肉图像(训练750张,验证50张,测试200张)。
    • 评估指标:Dice系数、mIoU(平均交并比)、精确率、召回率、F1分数、像素准确率(PA)。
    • 对比方法:包括U-Net、DeepLabv3、Swin-Unet、TransUnet等9种前沿模型。
  2. 训练细节

    • 输入尺寸224×224,批量8,50个epoch,AdamW优化器(初始学习率1e-4),余弦退火策略调整学习率。
    • 数据增强:随机旋转、翻转。

主要结果
1. ISIC-2017数据集
- HTC-Net的mIoU达84.02%(比U-Net提升2.18%),Dice系数90.07%,召回率88.29%(显著优于其他方法),PA 93.87%。
- 可视化结果显示,HTC-Net能精准分割不规则皮肤病灶,避免过分割或欠分割(图8)。

  1. Kvasir-Seg数据集

    • mIoU 85.94%(比U-Net提升3.49%),Dice系数91.18%,对小息肉和大息肉均保持稳定分割性能(图9)。
  2. 消融实验

    • TMF块贡献:加入后Dice提升0.89%(89.18%→90.07%),mIoU提升1.04%。
    • UA块设计:并行注意力连接效果最优(Dice 90.07% vs. 序列连接89.82%)。

结论与价值
1. 科学价值
- 提出首个融合CNN局部感知与Transformer全局建模的混合架构,解决了医学图像分割中多尺度信息融合的瓶颈问题。
- TMF块和UA块为动态特征融合与注意力机制设计提供了新思路。

  1. 应用价值

    • 在皮肤癌早期诊断(ISIC-2017)和息肉筛查(Kvasir-Seg)中展现出高精度,代码开源(GitHub: tanghui2000/HTC-Net)以促进临床工具开发。
  2. 局限性

    • 当前仅支持2D图像,未来需扩展至3D医学数据(如MRI、CT)。

研究亮点
1. 方法创新
- 首次在编码器-解码器中嵌套Swin Transformer与EfficientNet,兼顾计算效率与特征表达能力。
- TMF块的尺度感知卷积与SE模块协同优化,显著提升多尺度特征融合能力。

  1. 性能突破

    • 在两大公开数据集上mIoU均超越现有方法(ISIC-2017: 84.02%;Kvasir-Seg: 85.94%),尤其对不规则病灶分割鲁棒性突出。
  2. 可扩展性

    • 框架设计通用性强,可适配其他医学影像任务(如肿瘤分割、血管追踪)。

其他价值
- 通过消融实验验证了SE模块在TMF块中的优越性(对比CBAM),为轻量化注意力设计提供实证依据(表6)。
- 预训练策略(ImageNet初始化)的讨论为医学影像模型的迁移学习提供了参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com