分享自:

混合CNN-Transformer网络在挑战性肌肉骨骼图像交互式学习中的应用

期刊:computer methods and programs in biomedicineDOI:10.1016/j.cmpb.2023.107875

这篇文档属于类型a,是一篇关于混合CNN-Transformer网络用于肌肉骨骼图像交互式分割的原创研究论文。以下为详细学术报告:


作者及发表信息

本研究由Lei Bi(上海交通大学转化医学研究院/悉尼大学计算机学院)、Ulrich Buehner(Stryker公司)、Xiaohang Fu(悉尼大学)、Tom Williamson(Stryker公司/RMIT大学)、Peter Choong(墨尔本大学外科系)和Jinman Kim(悉尼大学,通讯作者)合作完成,发表于期刊Computer Methods and Programs in Biomedicine第243卷(2024年),在线发布于2023年10月19日。


学术背景

研究领域:医学图像分割,聚焦肌肉骨骼(Musculoskeletal, MSK)影像(如MRI、CT)的交互式分割。
研究动机
1. 临床需求:MSK图像中肿瘤、骨骼等感兴趣区域(Regions of Interest, ROIs)的分割对手术规划、疗效评估至关重要,但传统手动分割耗时且存在观察者间差异。
2. 技术瓶颈:现有基于全卷积网络(Fully Convolutional Networks, FCNs)的自动分割方法在训练数据不足时,难以处理具有低对比度、纹理不均、模糊边界的挑战性ROIs。
研究目标:提出一种混合CNN-Transformer网络(Hybrid CNN-Transformer Network, HCTN),通过结合用户交互输入(如鼠标点击)与深度学习特征,提升复杂MSK图像的分割鲁棒性。


研究流程与方法

1. 数据准备

研究使用三个数据集:
- STS数据集(公共软组织肉瘤MRI数据):51例患者,包含T1和T2加权扫描,肿瘤轮廓由放射科专家标注,采用10折交叉验证。
- SCR数据集(公共胸部X光锁骨分割数据):247张X光片,由两名专家标注,采用2折交叉验证。
- SVPH数据集(私有骨肉瘤MRI数据):19例患者,包含T1、FS和STIR序列,由外科医生标注,10折交叉验证。

2. 网络架构设计

HCTN核心组件
- 编码器:4个CNN-Transformer模块,每模块包含:
- CNN路径:采用逆残差块(Inverted Residual Block)提取局部特征。
- Transformer路径:将图像分块为序列,通过多头自注意力(Multi-head Self-Attention, MSA)捕捉全局上下文。
- 用户交互输入:通过前景/背景提示图(Hint Maps)编码用户点击的像素位置,模拟交互式训练。
- 解码器:线性解码模块(Linear Decoder Module, LDM)融合多尺度特征,输出分割结果。

3. 实验设计

  • 对比方法:包括自动分割(如UNet、ResNet、MSAM)和半自动分割方法(如P-Net、Semi-PVT)。
  • 评估指标:Dice系数(DSC)、Jaccard指数(Jac.)、灵敏度(Sen.)等。
  • 消融实验:验证CNN-Transformer解码器(CTND)的作用。

4. 数据增强与训练

采用随机裁剪、翻转等在线增强技术,使用PyTorch框架,在NVIDIA 3090 GPU上训练90个epoch,初始学习率0.005。


主要结果

  1. STS数据集:HCTN的DSC达88.46±9.41,优于最佳自动方法MSAM(80.33)和半自动方法Semi-PVT(87.63)。
  2. SVPH数据集:HCTN的DSC为73.32±11.97,显著高于ResNet(54.21)。
  3. SCR数据集:HCTN的DSC为93.93±1.84,接近第二名人类观察者(差值仅0.99%)。
  4. 挑战性病例分析:在低对比度、模糊边界的病例中,HCTN比ResNet平均提升24.95%的DSC,证明其鲁棒性。

结果逻辑链
- 用户交互输入弥补了训练数据不足的缺陷,尤其在罕见图像特征(如不均匀纹理)中表现突出。
- Transformer的全局注意力机制解决了FCN仅关注局部模式的局限性。
- 多尺度特征融合进一步提升了边界分割精度。


结论与价值

科学价值
1. 方法创新:首次将CNN与Transformer结合用于MSK图像交互式分割,提出融合用户输入的端到端训练框架。
2. 技术突破:通过多尺度CNN-Transformer模块,平衡局部特征解析与全局上下文建模。
应用价值
- 为临床提供高效工具,减少手动标注时间,尤其适用于复杂病例(如软组织肉瘤)。
- 分割结果可辅助肿瘤量化、手术规划等下游任务。


研究亮点

  1. 跨模态通用性:在MRI、X光等多种影像模态中验证有效性。
  2. 交互式学习:用户点击作为先验知识,显著提升模型对罕见特征的适应性。
  3. 开源贡献:代码基于PyTorch实现,促进社区后续研究。

其他有价值内容

  • 消融实验:证实CTND模块对多尺度特征融合的关键作用(DSC提升0.73%~4.21%)。
  • 局限性:未探索其他交互形式(如涂鸦输入),未来可扩展至3D分割任务。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com