分享自:

基于视觉变换器的乳腺超声图像分类研究

期刊:2022 44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC)

基于Vision Transformer的乳腺超声图像分类研究学术报告

作者与发表信息

本研究由加拿大Concordia大学电气与计算机工程系的Behnaz Gheflati和Hassan Rivaz合作完成,发表于2022年7月IEEE工程与医学及生物学学会国际会议(EMBC),标题为《Vision Transformers for Classification of Breast Ultrasound Images》。

学术背景

研究领域与动机
乳腺超声(US)成像因其无创、低成本和高安全性成为乳腺癌筛查的重要工具。传统基于卷积神经网络(CNN)的自动分类方法受限于局部感受野,难以捕捉图像全局上下文信息。而自然语言处理(NLP)领域的Transformer架构通过自注意力机制(self-attention)实现了长程依赖建模,其视觉变体Vision Transformer(ViT)在图像分类中展现出超越CNN的潜力。本研究首次探索ViT在乳腺超声图像分类中的应用,旨在解决CNN的局限性,并评估不同数据增强策略和损失函数对模型性能的影响。

科学问题与目标
核心科学问题包括:
1. ViT能否在数据量有限的医学图像中有效学习全局特征?
2. 如何通过迁移学习(transfer learning, TL)适配预训练ViT模型至乳腺超声分类任务?
3. 针对类别不平衡数据集,加权交叉熵损失函数(weighted cross-entropy loss)是否优于传统损失函数?

研究流程与方法

1. 数据集与评估指标

数据集
- BUSI数据集:包含780张乳腺超声图像(500×500像素),分为正常(133张)、恶性(437张)和良性(210张)三类。
- Dataset B:163张图像(760×570像素),仅含良性与恶性两类。
所有图像统一缩放至224×224像素,按70%/15%/15%划分为训练集、验证集和测试集,采用5折交叉验证。

评估指标
- 分类准确率(Accuracy, Acc)
- 受试者工作特征曲线下面积(Area Under Curve, AUC)

2. 模型架构与训练策略

ViT设计
基于Dosovitskiy等提出的标准ViT架构,将输入图像分割为16×16的块(patch),通过线性嵌入层转换为序列,输入Transformer编码器。自注意力模块计算块间关系权重,替代CNN的局部卷积操作。

对比模型
- CNN基线:VGG16、ResNet50、InceptionV3、NasNetLarge,采用Adam优化器,训练30轮。
- ViT模型:包括ViT-Tiny(Ti/16)、ViT-Small(S/32)、ViT-Base(B/32)及混合架构(如ViT+ResNet),使用SGD优化器(动量0.9),学习率余弦衰减(初始0.001),训练250步。

损失函数
针对类别不平衡问题,采用加权交叉熵损失,权重与类别样本数成反比。

3. 数据增强实验

在ViT训练中测试裁剪、旋转、亮度/对比度调整等增强方法,但结果显示其对性能无显著提升(表III),可能因超声图像的物理特性限制了有效增强空间。

主要结果

1. CNN与ViT性能对比

  • CNN模型:ResNet50表现最佳(Acc 85.3%,AUC 0.94),优于VGG16(82%)、InceptionV3(80%)和NasNet(79%)(表I)。
  • ViT模型:所有ViT变体Acc均超过85%,其中ViT-B/32达到最高(Acc 86.7%,AUC 0.95)(表II)。ViT性能与ResNet相当,但显著优于其他CNN,证明自注意力机制在医学图像中的优势。

2. 数据集规模影响

合并BUSI与Dataset B后,ViT-B/32的Acc提升至86.7%(表IV),表明数据量增加可改善模型泛化能力。而单一Dataset B(仅两类)性能最低(Acc 74%),凸显多类别数据的重要性。

3. 模型效率分析

不同ViT变体(如Ti/16与B/32)性能接近,提示较小模型在计算成本与效果间更具平衡性。

结论与价值

科学意义

  1. 首次验证ViT在乳腺超声分类中的有效性:即使在小规模医学数据集上,ViT通过自注意力机制捕捉全局依赖的能力优于传统CNN。
  2. 迁移学习适配性:预训练ViT模型经微调后可高效适配医学图像任务,为后续研究提供方法论参考。
  3. 损失函数优化:加权交叉熵有效缓解了类别不平衡问题,提升少数类(如正常样本)的分类性能。

临床应用价值

  • 辅助诊断:高AUC(0.95)表明ViT可辅助放射科医生减少假阴性诊断,提升筛查效率。
  • 低成本部署:较小ViT模型(如Ti/16)在保持性能的同时降低计算资源需求,适合医疗场景。

研究亮点

  1. 创新性方法:首次将ViT引入乳腺超声分类,填补了自注意力模型在该领域的空白。
  2. 系统性对比:全面评估了4种CNN与5种ViT架构,提供可复现的基准结果。
  3. 物理特性适配:针对超声图像特性设计数据增强策略,虽未显著提升性能,但为后续研究排除无效方案。

其他发现

  • 数据增强局限性:超声图像的物理约束(如斑点噪声特性)可能限制传统增强方法的效果,未来需开发医学图像专用的增强算法。
  • 模型可解释性:ViT的自注意力权重可视化可能提供病灶定位线索,值得进一步探索。

本研究为Transformer在医学图像分析中的应用开辟了新方向,其代码与模型选择策略已通过开源平台共享,推动领域内可重复研究。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com