分享自:

UCTransNet:从通道视角重新思考U-Net中的跳跃连接

期刊:the thirty-sixth aaai conference on artificial intelligence (aaai-22)

Haonan Wang1,2、Peng Cao1,2*、Jiaqi Wang1,2和Osmar R. Zaiane3共同完成的论文《UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer》发表在AAAI-22(第36届人工智能促进协会会议)上。这项研究由东北大学计算机科学与工程学院、医学影像智能计算教育部重点实验室(中国)以及阿尔伯塔大学AMII研究所(加拿大)合作完成,旨在通过改进U-Net的跳跃连接(skip connections)机制,提升医学图像分割的精度。

学术背景

医学图像分割是辅助疾病诊断和治疗规划的关键技术,而U-Net因其编码器-解码器(encoder-decoder)结构和跳跃连接设计成为主流框架。然而,传统U-Net存在两个核心问题:
1. 语义鸿沟(semantic gap):编码器与解码器阶段的多尺度特征(multi-scale features)存在语义不兼容性,部分跳跃连接甚至会降低分割性能;
2. 无效连接:在某些数据集上,无跳跃连接的U-Net反而优于原始U-Net。

基于此,作者提出UCTransNet,通过引入通道视角的注意力机制(channel-wise attention)和Transformer技术,设计新型跳跃连接模块CTrans,以解决上述问题。

研究流程与方法

1. 问题分析与发现

作者通过实验(图3)验证了传统U-Net的局限性:
- 跳跃连接的贡献不均:不同层级的跳跃连接对性能影响差异显著(如Monuseg数据集上Dice系数波动范围达9%);
- 数据集依赖性:最优连接组合因数据集而异(如Glas数据集仅需第3层连接)。

2. UCTransNet框架设计

核心创新是CTrans模块,包含两个子模块:
- CCT(Channel-wise Cross Fusion Transformer)
- 多尺度特征嵌入:将编码器四层特征($e_1$-$e_4$)转换为相同空间区域的令牌(tokens),拼接为键值对(key-value);
- 多头通道交叉注意力:通过跨通道注意力(图4)计算相似度矩阵,结合实例归一化(instance normalization)和MLP(多层感知机)融合多尺度特征;
- 层级迭代:4头注意力和4层Transformer结构(实验验证为最优配置)。
- CCA(Channel-wise Cross Attention)
- 空间压缩与激励:使用全局平均池化(GAP)生成通道注意力掩码,通过Sigmoid激活加权解码器特征,消除语义歧义。

3. 实验验证

数据集
- Glas(腺体分割,85训练/80测试图像)
- Monuseg(核分割,30训练/14测试图像)
- Synapse(多器官CT分割,18训练/12验证病例)

基线模型:包括U-Net、UNet++、TransUNet等。UCTransNet在联合训练策略下实现最优性能(表1):
- Glas:Dice系数90.18%(比U-Net提升4.73%);
- Monuseg:Dice系数79.08%(提升2.63%);
- Synapse:Dice系数78.23%,HD距离26.75(优于Swin-UNet)。

消融实验(表3):
- CCT单独使用可使Glas数据集Dice提升至89.09%;
- CCA模块进一步优化边界细节(图6-7)。

主要结果与结论

  1. 性能提升:UCTransNet在三个数据集上均显著超越现有方法,尤其在复杂结构(如腺体边缘)分割中表现突出(图6红色框区域)。
  2. 机制解释
    • CCT通过跨通道注意力捕获多尺度依赖关系(图9显示$e_2$和$e_3$层贡献最大);
    • CCA模块通过通道重校准(channel recalibration)减少解码器特征歧义。
  3. 计算效率:参数量65.6M,低于TransUNet(105M),实现性能与成本的平衡。

研究价值与亮点

  1. 科学价值
    • 首次系统分析U-Net跳跃连接的缺陷,提出通道视角的解决方案;
    • 将Transformer与U-Net结合,避免直接替换卷积的结构冗余问题。
  2. 应用价值:为医学影像分割提供高精度、低计算成本的通用框架,代码已开源。
  3. 创新点
    • CCT模块:首创多尺度通道交叉融合机制;
    • 端到端设计:联合优化卷积与注意力参数,支持预训练微调策略。

其他发现

  • 跨数据集泛化性:UCTransNet在不同模态(病理切片、CT)中均表现稳健;
  • 可解释性:注意力矩阵可视化(图9)揭示了不同层级特征的贡献差异,与人工先验一致。

该研究为医学图像分割领域提供了新的方法论,其核心思想(通道注意力与特征融合)可扩展至其他视觉任务。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com