基于视觉变换器的乳腺超声图像分类研究

分享自：
基于视觉变换器的乳腺超声图像分类研究

影像医学与核医学
生物医学工程
期刊:2022 44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC)
【点击此处】阅读全文、收藏及针对性提问
基于Vision Transformer的乳腺超声图像分类研究学术报告作者与发表信息本研究由加拿大Concordia大学电气与计算机工程系的Behnaz Gheflati和Hassan Rivaz合作完成，发表于2022年7月IEEE工程与医学及生物学学会国际会议（EMBC），标题为《Vision Transformers for Classification of Breast Ultrasound Images》。
学术背景研究领域与动机
 乳腺超声（US）成像因其无创、低成本和高安全性成为乳腺癌筛查的重要工具。传统基于卷积神经网络（CNN）的自动分类方法受限于局部感受野，难以捕捉图像全局上下文信息。而自然语言处理（NLP）领域的Transformer架构通过自注意力机制（self-attention）实现了长程依赖建模，其视觉变体Vision Transformer（ViT）在图像分类中展现出超越CNN的潜力。本研究首次探索ViT在乳腺超声图像分类中的应用，旨在解决CNN的局限性，并评估不同数据增强策略和损失函数对模型性能的影响。
科学问题与目标
 核心科学问题包括：
 1. ViT能否在数据量有限的医学图像中有效学习全局特征？
 2. 如何通过迁移学习（transfer learning, TL）适配预训练ViT模型至乳腺超声分类任务？
 3. 针对类别不平衡数据集，加权交叉熵损失函数（weighted cross-entropy loss）是否优于传统损失函数？
研究流程与方法1. 数据集与评估指标数据集
 - BUSI数据集：包含780张乳腺超声图像（500×500像素），分为正常（133张）、恶性（437张）和良性（210张）三类。
 - Dataset B：163张图像（760×570像素），仅含良性与恶性两类。
 所有图像统一缩放至224×224像素，按70%/15%/15%划分为训练集、验证集和测试集，采用5折交叉验证。
评估指标
 - 分类准确率（Accuracy, Acc）
 - 受试者工作特征曲线下面积（Area Under Curve, AUC）
2. 模型架构与训练策略ViT设计
 基于Dosovitskiy等提出的标准ViT架构，将输入图像分割为16×16的块（patch），通过线性嵌入层转换为序列，输入Transformer编码器。自注意力模块计算块间关系权重，替代CNN的局部卷积操作。
对比模型
 - CNN基线：VGG16、ResNet50、InceptionV3、NasNetLarge，采用Adam优化器，训练30轮。
 - ViT模型：包括ViT-Tiny（Ti/16）、ViT-Small（S/32）、ViT-Base（B/32）及混合架构（如ViT+ResNet），使用SGD优化器（动量0.9），学习率余弦衰减（初始0.001），训练250步。
损失函数
 针对类别不平衡问题，采用加权交叉熵损失，权重与类别样本数成反比。
3. 数据增强实验在ViT训练中测试裁剪、旋转、亮度/对比度调整等增强方法，但结果显示其对性能无显著提升（表III），可能因超声图像的物理特性限制了有效增强空间。
主要结果1. CNN与ViT性能对比CNN模型：ResNet50表现最佳（Acc 85.3%，AUC 0.94），优于VGG16（82%）、InceptionV3（80%）和NasNet（79%）（表I）。
 
ViT模型：所有ViT变体Acc均超过85%，其中ViT-B/32达到最高（Acc 86.7%，AUC 0.95）（表II）。ViT性能与ResNet相当，但显著优于其他CNN，证明自注意力机制在医学图像中的优势。
 
2. 数据集规模影响合并BUSI与Dataset B后，ViT-B/32的Acc提升至86.7%（表IV），表明数据量增加可改善模型泛化能力。而单一Dataset B（仅两类）性能最低（Acc 74%），凸显多类别数据的重要性。
3. 模型效率分析不同ViT变体（如Ti/16与B/32）性能接近，提示较小模型在计算成本与效果间更具平衡性。
结论与价值科学意义首次验证ViT在乳腺超声分类中的有效性：即使在小规模医学数据集上，ViT通过自注意力机制捕捉全局依赖的能力优于传统CNN。
 
迁移学习适配性：预训练ViT模型经微调后可高效适配医学图像任务，为后续研究提供方法论参考。
 
损失函数优化：加权交叉熵有效缓解了类别不平衡问题，提升少数类（如正常样本）的分类性能。
 
临床应用价值辅助诊断：高AUC（0.95）表明ViT可辅助放射科医生减少假阴性诊断，提升筛查效率。
 
低成本部署：较小ViT模型（如Ti/16）在保持性能的同时降低计算资源需求，适合医疗场景。
 
研究亮点创新性方法：首次将ViT引入乳腺超声分类，填补了自注意力模型在该领域的空白。
 
系统性对比：全面评估了4种CNN与5种ViT架构，提供可复现的基准结果。
 
物理特性适配：针对超声图像特性设计数据增强策略，虽未显著提升性能，但为后续研究排除无效方案。
 
其他发现数据增强局限性：超声图像的物理约束（如斑点噪声特性）可能限制传统增强方法的效果，未来需开发医学图像专用的增强算法。
 
模型可解释性：ViT的自注意力权重可视化可能提供病灶定位线索，值得进一步探索。
 
本研究为Transformer在医学图像分析中的应用开辟了新方向，其代码与模型选择策略已通过开源平台共享，推动领域内可重复研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问