基于CNN与Transformer互补网络的医学图像分割方法研究:CTC-Net的提出与验证
一、作者及发表信息
本研究由上海师范大学(Shanghai Normal University)信息与机电工程学院的Feiniu Yuan(袁飞牛)、Zhengxiao Zhang(张正潇)与东华大学(Donghua University)计算机科学与技术学院的Zhijun Fang(方志军)合作完成,发表于期刊《Pattern Recognition》2023年第136卷(109228页)。
二、学术背景与研究目标
科学领域:本研究属于医学图像分割领域,结合深度学习中的卷积神经网络(CNN, Convolutional Neural Network)与Transformer架构,旨在解决传统方法在长程依赖建模和局部细节捕捉上的局限性。
研究动机:
1. 医学图像分割的挑战:医学图像(如CT、MRI)中器官形态复杂,存在小目标、薄层结构(如胰腺、血管)和模糊边界,传统CNN因感受野有限难以建模全局依赖,而Transformer虽擅长长程建模但缺乏局部平移不变性。
2. 互补性需求:CNN与Transformer的特征提取方式具有天然互补性,但现有结合方法(如简单串联或单一注意力机制)未能充分融合两类特征。
研究目标:提出一种CNN与Transformer互补网络(CTC-Net, CNN and Transformer Complementary Network),通过跨域特征融合模块(FCM, Feature Complementary Module)和多尺度跳跃连接,实现局部上下文与全局依赖的协同优化。
三、研究方法与流程
1. 整体架构
CTC-Net包含四个核心组件:
- 双编码器:
- CNN编码器:基于ResNet34提取局部特征(空间细节、纹理)。
- Transformer编码器:基于Swin Transformer块捕获长程依赖,通过分层窗口自注意力(Shifted Window-based Self-Attention)降低计算复杂度。
- 特征互补模块(FCM):
- 跨域融合块(CFB):将CNN与Transformer特征通过全局平均池化(GAP)拼接,经Swin Transformer块融合。
- 相关性增强块(CEB):计算两域特征的点积相关性,突出重要区域。
- 通道注意力块(CAB):对Transformer特征施加通道注意力,形成双重注意力机制。
- Transformer解码器:通过Swin Transformer块与补丁扩展(Patch Expanding)逐步上采样,结合跳跃连接恢复细节。
2. 实验设计
- 数据集:
- Synapse多器官分割:30例CT扫描(18训练/12测试),评估8类器官(如肝脏、胰腺)。
- ACDC心脏分割:100例MRI(70训练/10验证/20测试),分割左/右心室及心肌。
- 实现细节:
- 预训练权重:Swin Transformer(ImageNet)、ResNet34(医学图像)。
- 损失函数:加权交叉熵与Dice损失(权重0.6)。
- 后处理:中值滤波平滑分割边界。
3. 创新方法
- 跨域特征融合:首次提出CFB模块,通过双向交叉拼接与Swin Transformer块实现特征域交互。
- 多尺度跳跃连接:将FCM输出的互补特征注入解码器不同层级,增强多尺度不变性。
四、主要实验结果
1. Synapse数据集
- Dice系数(DSC):CTC-Net平均DSC达78.41%,显著优于TransUNet(77.48%)和Swin-Unet(76.85%),尤其在胰腺分割(59.73%)上提升显著(传统方法约53%)。
- Hausdorff距离(HD):平均HD为22.52mm,较TransUNet(31.69mm)降低近10%,证明边界分割更精确。
2. ACDC数据集
- 平均DSC达90.77%,在右心室(RV, 90.09%)和左心室(LV, 96.72%)分割中均排名第一,心肌(Myo, 85.52%)略低于Swin-Unet(85.62%)。
3. 消融实验验证
- FCM模块必要性:移除FCM导致DSC下降1.54%(76.87%),CEB和CFB的缺失分别使性能降低3.28%和2.58%。
- 解码器设计:双解码器(CNN+Transformer)因参数冗余导致过拟合(DSC 69.68%),验证单Transformer解码器的优越性。
五、结论与价值
科学价值:
1. 方法论创新:首次将Swin Transformer与CNN以跨域融合方式结合,为医学图像分割提供新范式。
2. 理论贡献:证明局部-全局特征互补性可通过注意力机制与相关性计算显式建模。
应用价值:
- 临床辅助诊断:精准分割结果可辅助医生定位病灶(如胰腺肿瘤、心室异常)。
- 技术普适性:框架可扩展至其他模态(如超声、X光)及3D分割任务。
六、研究亮点
1. 跨域融合策略:FCM模块通过CFB、CEB、CAB三重机制实现特征深度融合,超越简单串联或注意力拼接。
2. 计算效率优化:Swin Transformer的局部窗口注意力将复杂度从二次降为线性,适合高分辨率医学图像。
3. 开源与可复现性:代码与数据公开,参数配置详实(如Transformer头数、层级深度)。
局限与展望:当前方法在4倍下采样后丢失部分细节,未来可探索无下采样架构或高分辨率Transformer改进。
七、其他价值
- 跨学科意义:为自然语言处理(NLP)与计算机视觉(CV)的架构融合提供新案例。
- 工程实践参考:提出的模块化设计(如FCM)可迁移至其他分割任务(如遥感、自动驾驶)。