分享自:

基于混合CNN-Transformer的乳腺超声图像分割方法

期刊:biomedical signal processing and controlDOI:10.1016/j.bspc.2023.105427

本文档属于类型a(单一原创研究报告),以下是针对《biomedical signal processing and control》期刊2024年发表的论文《HAU-Net: Hybrid CNN-Transformer for Breast Ultrasound Image Segmentation》的学术报告:


作者及机构

本研究由兰州大学信息科学与工程学院(School of Information Science and Engineering, Lanzhou University)的Huaikun Zhang、Yide Ma(通讯作者)团队与兰州交通大学电子与信息工程学院(School of Electronic and Information Engineering, Lanzhou Jiaotong University)的Jing Lian合作完成,发表于Elsevier旗下期刊《biomedical signal processing and control》第87卷(2024年),在线发布于2023年9月21日。


学术背景

研究领域:医学图像分割(Medical Image Segmentation),聚焦于乳腺癌超声图像的自动化病变分割。
研究动机:乳腺癌是全球女性健康的主要威胁之一,早期诊断依赖超声成像技术。然而,超声图像存在灰度分布相似、边界模糊、肿瘤形态不规则等挑战,传统卷积神经网络(CNN, Convolutional Neural Network)因缺乏长距离依赖建模能力,分割性能受限。尽管Transformer在自然语言处理中表现出色,但其直接应用于医学图像面临计算复杂度高、局部细节丢失等问题。
研究目标:提出一种混合CNN-Transformer框架(HAU-Net),结合CNN的局部特征提取能力与Transformer的全局上下文建模优势,提升乳腺癌超声病灶分割的精度。


研究流程与方法

1. 模型架构设计

HAU-Net基于U-Net的编码器-解码器结构,创新性地引入以下模块:
- L-G Transformer块:替换传统跳跃连接(Skip Connection),包含局部多头自注意力(LMSA, Local Multi-head Self-Attention)和全局多头自注意力(GMSA, Global Multi-head Self-Attention)。
- LMSA:将特征图划分为非重叠窗口(窗口大小动态调整),在窗口内计算自注意力,降低计算复杂度。
- GMSA:通过金字塔池化(Pyramid Pooling)生成全局令牌(Global Token),跨窗口传递全局信息。
- 交叉注意力块(CAB, Cross Attention Block):在解码器中整合多尺度特征,通过全局平均池化(GAP, Global Average Pooling)压缩特征后计算跨层注意力。

2. 实验设计与数据集

  • 数据集
    • BUSI:780张超声图像(含647例异常病例)。
    • UDIAT:163张图像(53例恶性,110例良性)。
    • BLUI:232张图像(123例恶性,109例良性)。
  • 训练细节
    • 使用ResNet34预训练权重初始化编码器,Adam优化器,初始学习率0.0001,余弦退火调度。
    • 数据增强:水平/垂直翻转、镜像、转置、随机旋转。
    • 损失函数:二元交叉熵(BCE, Binary Cross-Entropy)与Dice损失的加权组合。

3. 评估指标

采用Dice系数(Dice Score)、95%豪斯多夫距离(HD95)、交并比(IoU)、准确率(Accuracy)、特异性(Specificity)和精确率(Precision)作为量化指标。


主要结果

  1. 性能对比实验

    • HAU-Net在三个数据集上均达到最优性能:
      • BUSI:Dice 83.11%(比第二名高0.65%),HD95 10.67(降低10.56%)。
      • UDIAT:Dice 88.73%(提升1.17%),HD95 3.64(降低28.2%)。
      • BLUI:Dice 89.48%(提升0.26%),HD95 5.38(降低5.78%)。
    • 统计显著性检验(p-value <0.05)证实其优势。
  2. 泛化性与鲁棒性分析

    • 合并数据集:Dice 82.85%,HD95 9.98,显著优于其他方法。
    • 按肿瘤特性分组
      • 恶性肿瘤分割Dice 77.61%,优于第二名(76.95%)。
      • 大尺寸肿瘤(>20%相对大小)分割Dice 84.90%,HD95降低13.2%。
  3. 消融实验

    • L-G Transformer块:Dice提升1.20%,HD95降低12.21%。
    • CAB模块:进一步贡献0.87% Dice提升和9.50% HD95下降。

结论与价值

科学价值
1. 提出首个在跳跃连接中嵌套L-G Transformer块的混合架构,解决了传统方法中特征提取不一致的问题。
2. 通过动态窗口大小和金字塔池化,平衡了计算效率与全局建模能力。
应用价值
- 为临床提供高精度乳腺癌超声病灶分割工具,尤其适用于不规则轮廓和模糊边界的复杂病例。
- 代码开源(需申请获取),便于后续研究复现与改进。


研究亮点

  1. 方法创新
    • L-G Transformer块首次将局部与全局注意力并行融合,减少计算复杂度(参数量76.65M,FLOPs 10.76G)。
    • CAB模块通过跨层注意力实现多尺度特征交互,提升小目标分割性能。
  2. 临床意义
    • 在恶性和大尺寸肿瘤分割中表现突出,有望辅助医生提高诊断效率。

局限性与未来方向

  1. 局限性:对小尺寸肿瘤(%相对大小)的分割性能略低于CE-Net(Dice 82.98% vs 83.26%)。
  2. 未来工作:计划引入区域注意力机制,并探索自监督学习以减少对标注数据的依赖。

(注:全文未包含的参考文献及附录细节可依据原文补充。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com