Haonan Wang1,2, Peng Cao1,2*, Jiaqi Wang1,2 与 Osmar R. Zaiane3 等研究者合作完成的论文《UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer》提出了一种针对医学图像分割任务的创新架构。该研究团队分别来自中国东北大学(Northeastern University)的计算机科学与工程系及医学图像智能计算教育部重点实验室,以及加拿大阿尔伯塔大学(University of Alberta)的AMII研究所。论文发表于2022年人工智能促进协会(AAAI)的会议论文集。
研究背景
医学图像分割是辅助疾病诊断和治疗规划的关键技术,而U-Net是当前最常用的编码器-解码器架构。然而,传统U-Net的跳跃连接(skip connection)存在两个核心问题:
1. 特征不兼容性:编码器和解码器阶段的特征可能存在语义鸿沟(semantic gap),导致部分跳跃连接反而损害分割性能;
2. 多尺度建模不足:简单的跳跃连接难以有效融合全局多尺度上下文信息,在某些数据集上甚至不如无跳跃连接的版本。
为了解决这些问题,作者提出了一种名为 UCTransNet 的新框架,通过引入 通道视角的Transformer模块(CTrans) 替代传统跳跃连接,以自适应融合多尺度通道特征并减少语义歧义。
研究方法
UCTransNet的核心创新是 CTrans模块,包含两个子模块:
1. 多尺度通道交叉融合Transformer(CCT, Channel-wise Cross Fusion Transformer)
- 特征嵌入:将编码器四个层级的特征(分辨率分别为原图的1/2、1/4、1/8、1/16)转化为相同空间区域的token序列,保留通道维度不变。
- 多头部交叉注意力:通过跨通道注意力机制(channel-axis attention)计算不同尺度特征的相关性,利用实例归一化(instance normalization)稳定梯度传播。
- 多层Transformer结构:设计4层Transformer块(每层4个头),通过MLP和残差连接优化特征融合。
2. 通道交叉注意力(CCA, Channel-wise Cross Attention)
- 空间信息压缩:使用全局平均池化(GAP)将CCT输出的多尺度特征和 decoder 特征压缩为通道描述符。
- 注意力引导融合:通过线性层和Sigmoid函数生成通道权重,动态调整特征重要性以消除语义歧义。
实验在三个公开数据集(Glas、MoNuSeg、Synapse)上验证性能,采用5折交叉验证,指标包括Dice系数和豪斯多夫距离(HD)。
主要结果
- 性能对比:
- Glas数据集:UCTransNet的Dice系数达90.18%,比U-Net提升4.73%,显著优于TransUNet(88.40%)和Swin-Unet(89.58%)。
- Synapse多器官分割:UCTransNet的Dice为78.23%,HD降至26.75,优于TransUNet(77.48%)和Attention U-Net(75.57%)。
- 跳跃连接分析:
- 实验发现,U-Net中不同层级的跳跃连接贡献差异显著(如L3层在Glas数据集上表现最佳),验证了简单复制的局限性。
- 消融实验:
- 单独使用CCT或CCA模块均能提升性能,但联合使用时效果最佳(Glas数据集Dice提升至89.84%)。
结论与意义
- 理论价值:
- 首次系统分析了U-Net跳跃连接的缺陷,提出通道视角的Transformer融合机制,为解决特征不兼容性提供了新思路。
- 应用价值:
- 在医学图像分割任务中实现更高精度,尤其适用于小目标(如细胞核)和复杂器官(如胰腺)的分割。
- 方法创新:
- CCT模块通过跨通道注意力实现多尺度特征自适应融合,避免传统Transformer的冗余计算;CCA模块通过通道注意力桥接编码器-解码器语义差异。
研究亮点
- 关键发现:部分跳跃连接会负面影响分割性能,需通过动态权重调节优化。
- 方法新颖性:首次将通道注意力与Transformer结合用于跳跃连接设计,计算效率优于空间注意力方案。
- 开源贡献:代码已公开于GitHub(https://github.com/mcgregorwwww/UCTransNet),便于领域内复现与改进。
该研究为医学图像分割领域提供了高效的架构优化范例,其通道建模思想可能启发其他密集预测任务(如目标检测)的改进。