本研究由加拿大Concordia大学电气与计算机工程系的Behnaz Gheflati和Hassan Rivaz合作完成,发表于2022年7月IEEE工程与医学及生物学学会国际会议(EMBC),标题为《Vision Transformers for Classification of Breast Ultrasound Images》。
研究领域与动机
乳腺超声(US)成像因其无创、低成本和高安全性成为乳腺癌筛查的重要工具。传统基于卷积神经网络(CNN)的自动分类方法受限于局部感受野,难以捕捉图像全局上下文信息。而自然语言处理(NLP)领域的Transformer架构通过自注意力机制(self-attention)实现了长程依赖建模,其视觉变体Vision Transformer(ViT)在图像分类中展现出超越CNN的潜力。本研究首次探索ViT在乳腺超声图像分类中的应用,旨在解决CNN的局限性,并评估不同数据增强策略和损失函数对模型性能的影响。
科学问题与目标
核心科学问题包括:
1. ViT能否在数据量有限的医学图像中有效学习全局特征?
2. 如何通过迁移学习(transfer learning, TL)适配预训练ViT模型至乳腺超声分类任务?
3. 针对类别不平衡数据集,加权交叉熵损失函数(weighted cross-entropy loss)是否优于传统损失函数?
数据集
- BUSI数据集:包含780张乳腺超声图像(500×500像素),分为正常(133张)、恶性(437张)和良性(210张)三类。
- Dataset B:163张图像(760×570像素),仅含良性与恶性两类。
所有图像统一缩放至224×224像素,按70%/15%/15%划分为训练集、验证集和测试集,采用5折交叉验证。
评估指标
- 分类准确率(Accuracy, Acc)
- 受试者工作特征曲线下面积(Area Under Curve, AUC)
ViT设计
基于Dosovitskiy等提出的标准ViT架构,将输入图像分割为16×16的块(patch),通过线性嵌入层转换为序列,输入Transformer编码器。自注意力模块计算块间关系权重,替代CNN的局部卷积操作。
对比模型
- CNN基线:VGG16、ResNet50、InceptionV3、NasNetLarge,采用Adam优化器,训练30轮。
- ViT模型:包括ViT-Tiny(Ti/16)、ViT-Small(S/32)、ViT-Base(B/32)及混合架构(如ViT+ResNet),使用SGD优化器(动量0.9),学习率余弦衰减(初始0.001),训练250步。
损失函数
针对类别不平衡问题,采用加权交叉熵损失,权重与类别样本数成反比。
在ViT训练中测试裁剪、旋转、亮度/对比度调整等增强方法,但结果显示其对性能无显著提升(表III),可能因超声图像的物理特性限制了有效增强空间。
合并BUSI与Dataset B后,ViT-B/32的Acc提升至86.7%(表IV),表明数据量增加可改善模型泛化能力。而单一Dataset B(仅两类)性能最低(Acc 74%),凸显多类别数据的重要性。
不同ViT变体(如Ti/16与B/32)性能接近,提示较小模型在计算成本与效果间更具平衡性。
本研究为Transformer在医学图像分析中的应用开辟了新方向,其代码与模型选择策略已通过开源平台共享,推动领域内可重复研究。