分享自:

HCTNet:一种用于乳腺超声图像分割的混合CNN-Transformer网络

期刊:computers in biology and medicineDOI:10.1016/j.compbiomed.2023.106629

乳腺癌超声图像分割的混合CNN-Transformer网络HCTNet研究进展

作者及发表信息
本研究由陕西师范大学物理与信息技术学院的Qiqi He、Qiuju Yang*(通讯作者)和Minghao Xie合作完成,发表于Elsevier旗下期刊《Computers in Biology and Medicine》2023年第155卷(2023年2月9日在线发表),论文标题为《HCTNet: A Hybrid CNN-Transformer Network for Breast Ultrasound Image Segmentation》。


学术背景与目标
乳腺癌是全球女性发病率最高的恶性肿瘤,超声成像因其安全性和低成本成为重要诊断工具。然而,超声图像固有的斑点噪声(speckle noise)、阴影伪影以及病灶形态的高度异质性,导致传统卷积神经网络(CNN)在分割任务中存在局限性:CNN难以建模长程依赖关系(long-range dependencies),易误判与病灶外观相似的非病变区域。Transformer虽能捕捉全局上下文,但对局部细节的提取能力较弱,且需依赖大规模预训练数据。
本研究提出HCTNet,通过融合CNN的局部特征提取能力与Transformer的全局建模优势,解决乳腺癌超声图像分割中的两大核心问题:(1)长程依赖建模不足;(2)编码器-解码器间的语义差异(semantic discrepancy)。研究目标包括开发轻量化混合架构、优化分割精度,并在三个公开数据集上验证其鲁棒性。


研究方法与流程
1. 数据集与预处理
研究采用三个公开数据集:
- BUSI(780张图像,剔除正常样本后保留647例)
- BUS(163张图像)
- Dataset B(320张图像)
所有数据通过五折交叉验证评估,图像分辨率保留原始尺寸(如BUSI为500×500像素),未采用后处理(如CRF)。

2. 网络架构设计
HCTNet为编码器-解码器结构,核心创新点如下:
- 编码器
- 混合主干(Hybrid Stem):交替使用CNN(ResNet18初始化)与Transformer编码块(TEBlock)。
- TEBlock:通过多头自注意力(MHSA)建模长程依赖,引入2D相对位置编码(relative position encoding)解决空间位置信息丢失问题。具体流程:
1. 1×1卷积压缩通道数,降低计算复杂度;
2. MHSA计算像素间相似性矩阵(公式3),融合相对高度/宽度嵌入(公式4-5);
3. 残差连接加速优化(公式1)。
- 解码器
- 空间交叉注意力模块(SCA):通过Sigmoid生成编码器/解码器特征图的注意力权重图(公式6),加权融合后缓解语义差异。
- 残差连接(RC-Decoder):聚合多尺度特征,增强病灶位置信息(公式7-8)。

3. 训练与评估
- 超参数:Adam优化器(初始学习率0.0001)、Dice损失函数、批量大小4、80个epoch。
- 硬件:NVIDIA GTX 1060(6GB显存)。
- 评估指标:Dice系数、Jaccard指数、召回率、精确率、准确率、Hausdorff距离(HD)。


主要结果
1. 消融实验(BUSI数据集)
- TEBlock使Dice提升1.66%(79.24%→80.90%),证明全局建模的有效性。
- SCA模块单独使用可提高召回率8.78%(71.84%→80.62%),表明其能显著减少语义差异。
- 完整HCTNet(TEBlock+SCA+RC-Decoder)达到最优综合性能(Dice 82.00%,HD 34.55)。

2. 跨数据集对比
- BUSI:HCTNet超越TransUNet(Dice +0.82%)、TFNet(Dice +4.7%),参数量仅22.2M,轻量化优势明显。
- BUS:在病灶边界清晰但大小差异大的样本中,HCTNet的Dice达84.13%,误判率最低(图6v-vi)。
- Dataset B:对高对比度病灶,所有方法表现良好,但HCTNet仍领先(Dice 97.23%)。

3. 可视化分析
图5显示,TEBlock能有效抑制阴影区域的误分割(红色框),而SCA模块改善了病灶边缘的连续性(绿色框)。图7指出局限性:当图像中阴影过多或边界模糊时,分割精度下降。


结论与价值
科学价值
1. 方法论创新:首次在超声图像分割中实现CNN与Transformer的深层耦合,TEBlock和SCA模块为后续研究提供新思路。
2. 理论贡献:验证了相对位置编码在医学图像Transformer中的必要性,解决了传统自注意力对空间信息不敏感的问题。

应用价值
1. 临床辅助诊断:HCTNet的分割结果可帮助放射科医生快速定位病灶,减少漏诊(如BUSI数据集的召回率提升至82.14%)。
2. 工程实践:模型轻量化(参数量仅为TransUNet的50.5%)适合部署在资源受限的设备中。


研究亮点
1. 混合架构设计:通过TEBlock和SCA模块的协同作用,兼顾全局上下文与局部细节,Dice系数较纯CNN方法提升8.42%(BUSI数据集)。
2. 跨数据集鲁棒性:在设备来源不同的数据集(如Siemens ACUSON vs. Philips HDI 5000)中均表现稳定。
3. 开源贡献:代码未公开,但实验细节完整复现,包括超参数和训练流程。

局限性与展望
1. 未引入CRF等后处理优化边界细节;
2. 未来可扩展至良恶性分类等多任务学习。

本研究为乳腺癌超声图像分析提供了高效工具,其混合架构思路亦可迁移至其他医学影像分割任务。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com