HTC-Net:一种基于CNN-Transformer混合框架的医学图像分割方法
第一作者及机构
本研究由福州大学物理与信息工程学院的Hui Tang(汤辉)和Yuanbin Chen(陈元彬)作为共同第一作者主导,合作单位包括福州大学福建省医疗器械与医药技术重点实验室、Imperial Vision Technology公司(福州)以及澳门理工大学应用科学学院。研究成果发表于2024年的期刊《Biomedical Signal Processing and Control》(第88卷,文章编号105605)。
学术背景
医学图像分割是临床诊断与分析的关键步骤,但其面临两大挑战:
1. 局部与全局信息平衡问题:医学图像(如皮肤病变、胃肠道息肉)形态复杂,病灶边界不规则且易受干扰(如毛发、血管),传统卷积神经网络(CNN)因感受野有限,难以捕捉全局上下文信息。
2. 多尺度特征融合难题:高分辨率图像细节丰富但分割不稳定,低分辨率图像则边界信息丢失。
为解决这些问题,研究团队提出HTC-Net(Hybrid CNN-Transformer Network),结合CNN的局部特征提取能力与Transformer的全局建模优势,并引入创新模块(TMF和UA块)以动态融合多尺度上下文信息。
研究流程与方法
1. 网络架构设计
- 编码器-解码器结构:
- 编码器:采用EfficientNet块(预训练于ImageNet)提取局部特征,后接Swin Transformer块进行全局表征学习,通过三次下采样逐步扩大感受野。
- 解码器:通过Patch Expanding上采样,结合Swin Transformer块恢复空间细节,并利用跳跃连接融合多尺度特征。
- 核心创新模块:
- TMF块(Trident Multi-layer Fusion):
- 三分支并行结构,分别采用空洞率1、3、5的3×3卷积扩大感受野,通过SE(Squeeze-and-Excitation)模块自适应加权通道特征。
- 尺度感知卷积块:动态融合多尺度特征(公式6-9),加权求和后通过残差连接输出。
- UA块(United Attention):
- 通道注意力:联合最大池化与平均池化特征,通过MLP生成通道权重(公式10-11)。
- 空间注意力:拼接池化特征后经卷积生成空间权重图(公式12),最终并行融合两类注意力以增强关键区域聚焦。
实验设计与数据集
训练细节
主要结果
1. ISIC-2017数据集:
- HTC-Net的mIoU达84.02%(比U-Net提升2.18%),Dice系数90.07%,召回率88.29%(显著优于其他方法),PA 93.87%。
- 可视化结果显示,HTC-Net能精准分割不规则皮肤病灶,避免过分割或欠分割(图8)。
Kvasir-Seg数据集:
消融实验:
结论与价值
1. 科学价值:
- 提出首个融合CNN局部感知与Transformer全局建模的混合架构,解决了医学图像分割中多尺度信息融合的瓶颈问题。
- TMF块和UA块为动态特征融合与注意力机制设计提供了新思路。
应用价值:
局限性:
研究亮点
1. 方法创新:
- 首次在编码器-解码器中嵌套Swin Transformer与EfficientNet,兼顾计算效率与特征表达能力。
- TMF块的尺度感知卷积与SE模块协同优化,显著提升多尺度特征融合能力。
性能突破:
可扩展性:
其他价值
- 通过消融实验验证了SE模块在TMF块中的优越性(对比CBAM),为轻量化注意力设计提供实证依据(表6)。
- 预训练策略(ImageNet初始化)的讨论为医学影像模型的迁移学习提供了参考。