基于局部-全局特征交互与多肿瘤区域引导的多任务Transformer在乳腺癌超声诊断中的应用研究
一、研究团队与发表信息
本研究由上海交通大学机械工程学院生物医学制造与生命质量工程研究所的Yi Zhang、Bolun Zeng,上海交通大学医学院附属第六人民医院超声医学科的Jia Li、Yuanyi Zheng(通讯作者),以及上海交通大学机械工程学院/医疗机器人研究所的Xiaojun Chen(通讯作者)共同完成。论文发表于IEEE Journal of Biomedical and Health Informatics 2024年11月刊(Vol. 28, No. 11),DOI编号10.1109/JBHI.2024.3454000。
二、学术背景与研究目标
乳腺癌作为女性最常见的恶性肿瘤,早期诊断对降低死亡率至关重要。超声成像(Ultrasonography)因其无创、低成本和非电离辐射特性成为主要筛查手段。然而,超声图像的解读高度依赖医师经验,存在主观差异。尽管深度学习在乳腺肿瘤分割(Segmentation)和分类(Classification)中取得进展,但现有方法存在两大局限:
1. 单任务局限性:多数模型仅针对分割或分类单一任务设计,忽视了二者在临床诊断中的关联性(如分割结果可为分类提供形态学依据);
2. 区域特征利用不足:传统方法仅关注瘤内(Intra-tumoral)区域,而忽略了瘤周(Peri-tumoral)区域的诊断价值(如瘤周组织的回声特征可反映肿瘤侵袭性)。
为此,本研究提出一种多任务学习框架,联合优化分割与分类任务,并创新性地通过多肿瘤区域引导模块(Multi-Tumoral Region Guidance Module)捕捉瘤内与瘤周区域的全局上下文信息,以提升诊断准确性和可解释性。
三、研究方法与流程
1. 双流编码器设计(Dual-Stream Shared Encoder)
- CNN流:采用ResNet风格的残差块(Res Block)提取局部特征(如纹理、边缘),保留空间细节。
- Transformer流:基于ViT(Vision Transformer)架构,通过多头自注意力(Multi-Head Self-Attention, MHSA)建模全局依赖关系(如肿瘤整体形状与周围组织关联)。
- 局部-全局特征交互块(LGFI Block):在每层编码中引入特征融合模块,通过1×1卷积和上/下采样对齐CNN与Transformer的特征维度,利用逐元素相加实现交互。例如,浅层融合保留局部细节,深层融合增强语义理解。
2. 多肿瘤区域引导模块
- 瘤周区域生成:通过形态学膨胀(Dilation)与腐蚀(Erosion)操作从分割掩模中提取瘤周区域,定义为:
( M_p = G^{n1}(M_i) - F^{n2}(M_i) )
其中( G )和( F )分别表示膨胀与腐蚀函数,( n1=25 )、(n2=15)为迭代次数。
- 区域权重增强:将瘤内(( M_i ))和瘤周(( M_p ))掩模扁平化后计算注意力权重矩阵(( \text{att}_p = M_p \otimes M_p^T )),通过Hadamard乘积调制自注意力机制,使模型聚焦于肿瘤相关区域的特征交互(公式4)。
3. 损失函数与训练策略
- 多任务损失:分割任务采用Dice损失(Dice Loss)和交叉熵损失(Binary Cross-Entropy, BCE),分类任务使用Focal Loss解决类别不平衡。总损失为:
( L{mt} = L{seg}(m, \hat{m}) + \lambda \cdot L_{cls}(y, \hat{p}) ) (( \lambda=0.66 ))。
- 渐进式训练:首轮使用真实分割掩模初始化多肿瘤区域引导模块,后续轮次切换为预测掩模以提升稳定性。
4. 实验数据集与评估指标
- 数据集:
- BUSI-SPH:合并公开数据集BUSI(647张图像)和私有数据集SPH(1312张图像),共1959张超声图像,按6:1:3划分训练/验证/测试集。
- 外部验证集GDPh&SYSUCC:2405张图像,用于测试模型泛化性。
- 评估指标:
- 分割任务:DSC(Dice Similarity Coefficient)、HD(Hausdorff Distance)等7项指标;
- 分类任务:准确率(Accuracy)、AUC(Area Under ROC Curve)等6项指标。
四、主要研究结果
1. 分割性能对比
在BUSI-SPH数据集上,本模型的DSC达85.00%,HD为15.63,显著优于U-Net(DSC 81.23%)、TransUNet(DSC 83.51%)等基准方法(表I)。定性分析(图5)显示,对于边界模糊或瘤周组织相似的病例,本模型能减少假阳性/假阴性,得益于双流编码器的局部-全局特征互补。
2. 分类性能提升
- 内部验证:准确率90.10%,F1-score 92.33%,较DenseNet-169提升3.58%(表II)。Grad-CAM热图(图6)表明模型能同时关注瘤内异质性和瘤周微环境,与医师诊断逻辑一致。
- 外部验证:在GDPh&SYSUCC数据集上准确率80.21%,AUC 87.02%,超越单任务模型(如ResNet-50准确率69.44%),证明其强泛化能力(表VII)。
3. 消融实验验证
- 多任务必要性:仅使用分类任务(ST-Cls)的准确率比多任务框架(MTL)低9%,证实分割任务提供的区域先验信息可提升分类性能(表V)。
- 瘤周区域贡献:仅使用瘤周引导(MTL+Peri)的分类准确率比仅瘤内(MTL+Intra)高2.1%,表明瘤周特征的诊断价值(表VI)。
五、研究结论与价值
1. 科学价值:提出首个融合CNN-Transformer双流编码器与多肿瘤区域引导的多任务框架,为医学图像分析中局部-全局特征协同建模提供了新范式。
2. 临床价值:开发了基于3D Slicer平台的扩展模块(图9),可实现全自动分割与诊断,平均推理时间1-2秒,已开源供临床试用。
3. 可解释性:通过瘤内/瘤周注意力可视化,为医师提供决策依据,减少“黑箱”疑虑。
六、研究亮点
1. 方法创新:首次在乳腺癌超声诊断中实现瘤内与瘤周区域的非局部(Non-Local)依赖建模,通过空间注意力权重增强可解释性。
2. 技术整合:软参数共享(Soft Parameter Sharing)策略平衡任务共性与特异性,避免硬共享(Hard Sharing)导致的特征退化。
3. 临床落地:模型在外部数据集上表现优异,且已集成至开源医疗平台,推动AI辅助诊断的实际应用。
七、局限性与展望
1. 瘤周区域定义:当前采用固定尺寸的形态学操作,未来可探索基于肿瘤大小的自适应调整。
2. 多任务权重:需研究自动化调整λ的方法(如多目标优化)。
3. 扩展应用:计划将框架迁移至甲状腺、肝脏等器官的肿瘤诊断中。