本文档属于类型a(单一原创研究报告),以下是针对《biomedical signal processing and control》期刊2024年发表的论文《HAU-Net: Hybrid CNN-Transformer for Breast Ultrasound Image Segmentation》的学术报告:
本研究由兰州大学信息科学与工程学院(School of Information Science and Engineering, Lanzhou University)的Huaikun Zhang、Yide Ma(通讯作者)团队与兰州交通大学电子与信息工程学院(School of Electronic and Information Engineering, Lanzhou Jiaotong University)的Jing Lian合作完成,发表于Elsevier旗下期刊《biomedical signal processing and control》第87卷(2024年),在线发布于2023年9月21日。
研究领域:医学图像分割(Medical Image Segmentation),聚焦于乳腺癌超声图像的自动化病变分割。
研究动机:乳腺癌是全球女性健康的主要威胁之一,早期诊断依赖超声成像技术。然而,超声图像存在灰度分布相似、边界模糊、肿瘤形态不规则等挑战,传统卷积神经网络(CNN, Convolutional Neural Network)因缺乏长距离依赖建模能力,分割性能受限。尽管Transformer在自然语言处理中表现出色,但其直接应用于医学图像面临计算复杂度高、局部细节丢失等问题。
研究目标:提出一种混合CNN-Transformer框架(HAU-Net),结合CNN的局部特征提取能力与Transformer的全局上下文建模优势,提升乳腺癌超声病灶分割的精度。
HAU-Net基于U-Net的编码器-解码器结构,创新性地引入以下模块:
- L-G Transformer块:替换传统跳跃连接(Skip Connection),包含局部多头自注意力(LMSA, Local Multi-head Self-Attention)和全局多头自注意力(GMSA, Global Multi-head Self-Attention)。
- LMSA:将特征图划分为非重叠窗口(窗口大小动态调整),在窗口内计算自注意力,降低计算复杂度。
- GMSA:通过金字塔池化(Pyramid Pooling)生成全局令牌(Global Token),跨窗口传递全局信息。
- 交叉注意力块(CAB, Cross Attention Block):在解码器中整合多尺度特征,通过全局平均池化(GAP, Global Average Pooling)压缩特征后计算跨层注意力。
采用Dice系数(Dice Score)、95%豪斯多夫距离(HD95)、交并比(IoU)、准确率(Accuracy)、特异性(Specificity)和精确率(Precision)作为量化指标。
性能对比实验:
泛化性与鲁棒性分析:
消融实验:
科学价值:
1. 提出首个在跳跃连接中嵌套L-G Transformer块的混合架构,解决了传统方法中特征提取不一致的问题。
2. 通过动态窗口大小和金字塔池化,平衡了计算效率与全局建模能力。
应用价值:
- 为临床提供高精度乳腺癌超声病灶分割工具,尤其适用于不规则轮廓和模糊边界的复杂病例。
- 代码开源(需申请获取),便于后续研究复现与改进。
(注:全文未包含的参考文献及附录细节可依据原文补充。)