HTC-Net：一种用于医学图像分割的混合CNN-Transformer框架

分享自：

HTC-Net：一种用于医学图像分割的混合CNN-Transformer框架

医学

影像医学与核医学

期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2023.105605

【点击此处】阅读全文、收藏及针对性提问

HTC-Net：一种基于CNN-Transformer混合框架的医学图像分割方法
第一作者及机构
 本研究由福州大学物理与信息工程学院的Hui Tang（汤辉）和Yuanbin Chen（陈元彬）作为共同第一作者主导，合作单位包括福州大学福建省医疗器械与医药技术重点实验室、Imperial Vision Technology公司（福州）以及澳门理工大学应用科学学院。研究成果发表于2024年的期刊《Biomedical Signal Processing and Control》（第88卷，文章编号105605）。
学术背景
 医学图像分割是临床诊断与分析的关键步骤，但其面临两大挑战：
 1. 局部与全局信息平衡问题：医学图像（如皮肤病变、胃肠道息肉）形态复杂，病灶边界不规则且易受干扰（如毛发、血管），传统卷积神经网络（CNN）因感受野有限，难以捕捉全局上下文信息。
 2. 多尺度特征融合难题：高分辨率图像细节丰富但分割不稳定，低分辨率图像则边界信息丢失。
为解决这些问题，研究团队提出HTC-Net（Hybrid CNN-Transformer Network），结合CNN的局部特征提取能力与Transformer的全局建模优势，并引入创新模块（TMF和UA块）以动态融合多尺度上下文信息。
研究流程与方法
 1. 网络架构设计
 - 编码器-解码器结构：
 - 编码器：采用EfficientNet块（预训练于ImageNet）提取局部特征，后接Swin Transformer块进行全局表征学习，通过三次下采样逐步扩大感受野。
 - 解码器：通过Patch Expanding上采样，结合Swin Transformer块恢复空间细节，并利用跳跃连接融合多尺度特征。
 - 核心创新模块：
 - TMF块（Trident Multi-layer Fusion）：
 - 三分支并行结构，分别采用空洞率1、3、5的3×3卷积扩大感受野，通过SE（Squeeze-and-Excitation）模块自适应加权通道特征。
 - 尺度感知卷积块：动态融合多尺度特征（公式6-9），加权求和后通过残差连接输出。
 - UA块（United Attention）：
 - 通道注意力：联合最大池化与平均池化特征，通过MLP生成通道权重（公式10-11）。
 - 空间注意力：拼接池化特征后经卷积生成空间权重图（公式12），最终并行融合两类注意力以增强关键区域聚焦。
实验设计与数据集
数据集：
 ISIC-2017：2750张皮肤镜图像（训练2000张，验证150张，测试600张），分辨率453×679至4499×6748像素。
 
Kvasir-Seg：1000张胃肠道息肉图像（训练750张，验证50张，测试200张）。
 
评估指标：Dice系数、mIoU（平均交并比）、精确率、召回率、F1分数、像素准确率（PA）。
 
对比方法：包括U-Net、DeepLabv3、Swin-Unet、TransUnet等9种前沿模型。
 
训练细节
输入尺寸224×224，批量8，50个epoch，AdamW优化器（初始学习率1e-4），余弦退火策略调整学习率。
 
数据增强：随机旋转、翻转。
 
主要结果
 1. ISIC-2017数据集：
 - HTC-Net的mIoU达84.02%（比U-Net提升2.18%），Dice系数90.07%，召回率88.29%（显著优于其他方法），PA 93.87%。
 - 可视化结果显示，HTC-Net能精准分割不规则皮肤病灶，避免过分割或欠分割（图8）。
Kvasir-Seg数据集：
mIoU 85.94%（比U-Net提升3.49%），Dice系数91.18%，对小息肉和大息肉均保持稳定分割性能（图9）。
 
消融实验：
TMF块贡献：加入后Dice提升0.89%（89.18%→90.07%），mIoU提升1.04%。
 
UA块设计：并行注意力连接效果最优（Dice 90.07% vs. 序列连接89.82%）。
 
结论与价值
 1. 科学价值：
 - 提出首个融合CNN局部感知与Transformer全局建模的混合架构，解决了医学图像分割中多尺度信息融合的瓶颈问题。
 - TMF块和UA块为动态特征融合与注意力机制设计提供了新思路。
应用价值：
在皮肤癌早期诊断（ISIC-2017）和息肉筛查（Kvasir-Seg）中展现出高精度，代码开源（GitHub: tanghui2000/HTC-Net）以促进临床工具开发。
 
局限性：
当前仅支持2D图像，未来需扩展至3D医学数据（如MRI、CT）。
 
研究亮点
 1. 方法创新：
 - 首次在编码器-解码器中嵌套Swin Transformer与EfficientNet，兼顾计算效率与特征表达能力。
 - TMF块的尺度感知卷积与SE模块协同优化，显著提升多尺度特征融合能力。
性能突破：
在两大公开数据集上mIoU均超越现有方法（ISIC-2017: 84.02%；Kvasir-Seg: 85.94%），尤其对不规则病灶分割鲁棒性突出。
 
可扩展性：
框架设计通用性强，可适配其他医学影像任务（如肿瘤分割、血管追踪）。
 
其他价值
 - 通过消融实验验证了SE模块在TMF块中的优越性（对比CBAM），为轻量化注意力设计提供实证依据（表6）。
 - 预训练策略（ImageNet初始化）的讨论为医学影像模型的迁移学习提供了参考。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问