Haonan Wang1,2、Peng Cao1,2*、Jiaqi Wang1,2和Osmar R. Zaiane3共同完成的论文《UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer》发表在AAAI-22(第36届人工智能促进协会会议)上。这项研究由东北大学计算机科学与工程学院、医学影像智能计算教育部重点实验室(中国)以及阿尔伯塔大学AMII研究所(加拿大)合作完成,旨在通过改进U-Net的跳跃连接(skip connections)机制,提升医学图像分割的精度。
医学图像分割是辅助疾病诊断和治疗规划的关键技术,而U-Net因其编码器-解码器(encoder-decoder)结构和跳跃连接设计成为主流框架。然而,传统U-Net存在两个核心问题:
1. 语义鸿沟(semantic gap):编码器与解码器阶段的多尺度特征(multi-scale features)存在语义不兼容性,部分跳跃连接甚至会降低分割性能;
2. 无效连接:在某些数据集上,无跳跃连接的U-Net反而优于原始U-Net。
基于此,作者提出UCTransNet,通过引入通道视角的注意力机制(channel-wise attention)和Transformer技术,设计新型跳跃连接模块CTrans,以解决上述问题。
作者通过实验(图3)验证了传统U-Net的局限性:
- 跳跃连接的贡献不均:不同层级的跳跃连接对性能影响差异显著(如Monuseg数据集上Dice系数波动范围达9%);
- 数据集依赖性:最优连接组合因数据集而异(如Glas数据集仅需第3层连接)。
核心创新是CTrans模块,包含两个子模块:
- CCT(Channel-wise Cross Fusion Transformer):
- 多尺度特征嵌入:将编码器四层特征($e_1$-$e_4$)转换为相同空间区域的令牌(tokens),拼接为键值对(key-value);
- 多头通道交叉注意力:通过跨通道注意力(图4)计算相似度矩阵,结合实例归一化(instance normalization)和MLP(多层感知机)融合多尺度特征;
- 层级迭代:4头注意力和4层Transformer结构(实验验证为最优配置)。
- CCA(Channel-wise Cross Attention):
- 空间压缩与激励:使用全局平均池化(GAP)生成通道注意力掩码,通过Sigmoid激活加权解码器特征,消除语义歧义。
数据集:
- Glas(腺体分割,85训练/80测试图像)
- Monuseg(核分割,30训练/14测试图像)
- Synapse(多器官CT分割,18训练/12验证病例)
基线模型:包括U-Net、UNet++、TransUNet等。UCTransNet在联合训练策略下实现最优性能(表1):
- Glas:Dice系数90.18%(比U-Net提升4.73%);
- Monuseg:Dice系数79.08%(提升2.63%);
- Synapse:Dice系数78.23%,HD距离26.75(优于Swin-UNet)。
消融实验(表3):
- CCT单独使用可使Glas数据集Dice提升至89.09%;
- CCA模块进一步优化边界细节(图6-7)。
该研究为医学图像分割领域提供了新的方法论,其核心思想(通道注意力与特征融合)可扩展至其他视觉任务。