分享自:

TransClaw U-Net:结合Transformer的医学图像分割网络

期刊:2022 5th International Conference on Information Communication and Signal Processing

医学图像分割新突破:TransClaw U-Net网络结构研究

作者及机构
本研究的核心团队来自华东师范大学多维信息处理上海重点实验室(Shanghai Key Laboratory of Multidimensional Information Processing, East China Normal University),主要作者包括Chang Yao、Menghan Hu、Qingli Li。合作者还包括上海交通大学图像通信与信息处理研究所的Guangtao Zhai,以及加拿大瑞尔森大学(Ryerson University)的Xiao-Ping Zhang。该研究发表于2022年第五届国际信息通信与信号处理会议(ICICSP),会议论文集由IEEE出版。

学术背景与研究动机

研究领域与背景
医学图像分割是计算机辅助诊断的核心技术之一,其目标是从CT、MRI等影像中精确分割出目标器官或病变区域。传统卷积神经网络(CNN)在局部特征提取上表现优异,但在长程空间特征(long-range spatial features)捕捉上存在局限。这一问题在复杂解剖结构(如多器官联合分割)中尤为突出,因为器官间的空间关系需要全局上下文信息支持。

现有技术瓶颈
- CNN的局限性:传统卷积核仅能捕捉局部邻域特征,难以建模远距离空间依赖关系。
- Transformer的潜力与缺陷:尽管Transformer通过自注意力机制(self-attention)能够捕捉全局特征,但纯Transformer架构在局部细节分割上弱于CNN,且存在计算资源消耗大、训练数据需求高等问题。
- U-Net改进方向:现有U-Net变体(如UNet++、Attention U-Net)通过跳跃连接(skip-connection)或多尺度特征融合提升性能,但未系统解决长程特征与局部细节的平衡问题。

研究目标
团队提出TransClaw U-Net,旨在:
1. 结合CNN与Transformer优势,通过卷积操作提取局部特征,再通过Transformer编码长程空间关系;
2. 引入底部上采样分支(bottom upsampling part)保留最深层次特征,提升边界分割精度;
3. 设计三通道全局注意力机制(three-channel global attention)融合多尺度特征,优化轮廓完整性。

研究方法与流程

1. 网络结构设计

TransClaw U-Net包含三个核心模块(见图1):

编码部分(Encoding Part)
- 卷积阶段:输入图像(224×224)经过3次卷积块(每个块包含Conv+BN+ReLU),每次卷积后通过最大池化(maxpooling)降采样,逐步提取低层次特征(如边缘、纹理)。
- Transformer阶段:将第三层卷积输出的特征图分割为不重叠的$P×P$图像块(patch),展平为序列后输入12层Transformer块。每块包含多头自注意力(MSA)和多层感知机(MLP),通过层归一化(LayerNorm)和残差连接稳定训练。最终输出恢复为$H/P×W/P$分辨率的长程特征图。

底部上采样部分(Bottom Upsampling Part)
- 通过逐层上采样(upsampling)将最深层的特征图恢复到与解码层相同的尺度,保留高语义信息。每层上采样后与对应编码层和解码层特征拼接,形成多尺度融合。

解码部分(Decoding Part)
- 采用改进的三通道全局注意力机制,动态加权融合三个来源的特征:
- 编码部分特征($x_i^l$)
- 底部上采样特征($y_i^l$)
- 解码部分特征($g_i$)
- 注意力系数$\alpha_i^l$通过1×1卷积和Sigmoid函数计算,公式见原文式(7)-(8)。

2. 实验设计

数据集与评估指标
- Synapse多器官分割数据集:包含30例腹部CT扫描(3,779张切片),训练集18例(2,212切片),测试集12例(1,567切片)。
- 评价指标:平均Dice相似系数(DSC)和豪斯多夫距离(HD),评估8个器官(主动脉、胆囊、肾脏等)的分割精度。

训练细节
- 优化器:SGD(初始学习率0.01,动量0.9,权重衰减1e-4)
- 损失函数:交叉熵+Dice系数
- 硬件:NVIDIA GeForce RTX 2080 Ti

主要结果

1. 性能对比实验

如表1所示,TransClaw U-Net在Synapse数据集上达到DSC 78.60%HD 21.74 mm,显著优于其他模型:
- 比TransUNet提升1.12%(DSC)和9.76 mm(HD);
- 在3/8器官(如左肾、肝脏、脾脏)上分割效果最佳。

可视化对比(图2):
- Attention U-Net将胰腺误判为胃部;
- 原始U-Net未能区分左右肾脏;
- TransClaw U-Net准确分割所有目标器官,边界清晰。

2. 消融实验

改进模块的有效性
- Transformer的贡献:相比纯CNN的Claw U-Net,DSC提升2.33%;
- 全局注意力的作用:DSC进一步增加0.51%,尤其提升胰腺等小器官的分割精度。

参数影响
- 输入尺寸:512×512分辨率下DSC达80.39%,但计算成本增加;
- 跳跃连接数量:减少连接数导致性能显著下降(DSC从77.93%降至71.46%),证明多尺度融合的必要性。

结论与价值

科学价值
1. 方法论创新:首次在医学图像分割中联合CNN的局部特征提取与Transformer的全局建模能力,并通过底部上采样分支保留深层语义信息。
2. 技术突破:三通道注意力机制有效解决多器官分割中的轮廓模糊问题,为复杂解剖结构的分割提供新思路。

应用前景
- 临床诊断:提升自动化分割效率,辅助医生识别微小病变;
- 算法扩展:框架可迁移至其他模态(如MRI、超声)的分割任务。

研究亮点

  1. 混合架构设计:CNN-Transformer混合编码器兼顾局部与全局特征;
  2. 细节优化:底部上采样分支与注意力机制协同提升边界分割精度;
  3. 开源贡献:代码将在论文录用后公开,推动领域复现与改进。

局限与展望
- 计算资源需求较高,未来可探索轻量化设计;
- 目前仅在腹部CT上验证,需扩展至更多病种和影像类型。

(注:全文约1500字,涵盖研究全流程,数据引用自原文表格及图示。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com