基于 Swin Transformer 深度学习模型从 MRI 图像中改进肌肉萎缩症分类

分享自：
基于 Swin Transformer 深度学习模型从 MRI 图像中改进肌肉萎缩症分类

信息科学
影像医学与核医学
期刊:BioengineeringDOI:10.3390/bioengineering11060580
【点击此处】阅读全文、收藏及针对性提问
本研究旨在探讨深度学习模型在利用骨骼肌磁共振成像（MRI）扫描分类肌营养不良症（Muscular Dystrophies, MDs）方面的效能。由意大利国家研究委员会（CNR）、米兰理工大学以及IRCCS Eugenio Medea科学研究所等机构的研究人员共同完成，论文《Classification of Muscular Dystrophies from MR Images Improves Using the Swin Transformer Deep Learning Model》发表于2024年6月7日的《Bioengineering》期刊。
学术背景
肌营养不良症是一组以进行性肌肉组织萎缩为特征的广泛性肌肉疾病，其诊断面临重大挑战。当前，肌肉活检和基因检测是主要诊断方法，但前者具有侵入性且为局部取样，后者成本高昂且在某些情况下准确性有限。相比之下，磁共振成像作为一种非侵入性、多参数的成像工具，能够揭示骨骼肌的形态和结构特征，尤其是肌肉脂肪浸润等关键病变模式，在临床诊断和疾病监测中扮演着重要角色。然而，基于MRI图像的临床解读高度依赖放射科和神经科专家的个人经验，具有一定主观性。
近年来，人工智能，特别是深度学习（Deep Learning, DL）方法，在医学图像分析领域显示出巨大潜力。卷积神经网络（Convolutional Neural Networks, CNNs）已在多种医疗任务中证明了其有效性。而视觉变换器（Vision Transformer, ViT）及其变体Swin Transformer（SwinT）作为新兴架构，通过自注意力机制捕获图像中的长程依赖关系，在处理不同尺寸图像和降低计算需求方面展现出优势。
目前，利用AI对神经肌肉疾病进行MRI图像分类的研究已取得一定进展，但现有文献存在缺口。首先，缺乏专门针对贝克型肌营养不良症（Becker Muscular Dystrophy, BMD）与肢带型肌营养不良症2型（Limb-Girdle Muscular Dystrophy type 2, LGMD2）以及健康对照进行自动检测和鉴别诊断的多类别分类研究，而这两种疾病在肌肉受累模式上存在重叠。其次，尚未有研究将SwinT模型应用于此特定领域。
因此，本研究旨在填补上述研究空白，开发和测试一种新颖的三分类方法，利用Swin Transformer模型来区分健康个体、BMD患者和LGMD2患者。此外，考虑到MRI协议本身的多参数特性，本研究还旨在评估不同MRI对比度（即不同图像类型）对分类性能的影响，以期找到最佳的图像输入类型，从而提高诊断的准确性和效率，最终改善患者的治疗和预后。
详细工作流程
本研究是一项回顾性研究，其工作流程涵盖了数据收集、预处理、模型构建与训练、性能评估及统计分析等多个环节。
首先，在研究对象与数据采集阶段，研究共纳入了75次MRI扫描（来自54名受试者）。数据集包括17次来自健康志愿者的扫描、27次来自BMD患者（17名受试者）的扫描，以及31次来自LGMD2患者（10名LGMD2A和10名LGMD2B患者）的扫描。所有患者的诊断均通过临床表型分析、基因检测和肌肉活检（针对LGMD2患者）综合确定。MRI扫描使用3T Philips Achieva dStream扫描仪进行，采集序列包括用于观察肌肉结构的T1加权（T1w）梯度回波序列和用于量化脂肪浸润的Dixon序列。Dixon序列可生成三种对比度图：水（W）图像、脂肪（F）图像和脂肪分数（Fat Fraction, FF）图。FF图通过计算F和W图像得出，能定量评估肌肉组织中的脂肪浸润百分比。
其次，在数据集构建与预处理阶段，为优化模型训练，研究采用了以受试者为中心的选择策略。从总数据集中选取了46名受试者（共67次扫描，2036张图像）用于模型训练和验证。为了评估训练集选择对分类性能的影响，研究人员进行了10次独立实验，每次实验都随机分配这67次扫描，确保每张扫描至少有一次被纳入验证集。剩余的8名受试者（8次扫描，260张图像）被用作独立的测试集。所有图像均被调整大小为224×224像素，背景像素置零，并且为适配在ImageNet-1k数据集上预训练的模型，单通道的MRI图像被复制到三个RGB通道上。此外，研究采用了数据增强策略来提高模型的泛化能力，包括随机垂直翻转、水平和垂直平移（在像素总数的±10%范围内）、图像缩放（原始大小的90%至110%）以及旋转（-10至+10度）。
第三，在深度学习架构的实施与训练阶段，研究旨在比较Swin Transformer与传统卷积神经网络（CNNs）的性能。具体采用的架构包括：（1）Swin Transformer Tiny（SwinT），总可训练参数约为2790万；（2）ResNet50，总可训练参数约为2459万；（3）VGG19，总可训练参数约为2029万。所有架构均使用ImageNet-1k数据集进行预训练，并针对三分类任务进行了微调。模型顶部添加了全局平均池化层，随后是一个包含512个神经元的全连接层、一个丢弃率为40%的Dropout层以防止过拟合，以及一个使用Softmax激活函数、包含3个神经元的最终分类层。实验使用Adam优化器，学习率为10^-5，批次大小为16，共训练40个周期。所有模型都使用四种可用的MRI对比度（T1w, FF, F, W图像）分别进行了独立的训练、验证和测试。
第四，在分类性能评估阶段，研究采用两个主要指标：全局准确率（Accuracy, ACC）和F1分数（F-score）。全局准确率衡量所有类别中正确分类的图像切片占总切片数的比例。F1分数是精确率（Precision）和召回率（Recall）的调和平均数，用于评估每个特定类别的分类性能。最终的ACC和F1分数是10次独立运行结果的平均值。
最后，在统计分析阶段，为了评估不同深度学习架构和图像对比度对分类任务性能影响的显著性，研究对经过秩转换的数据进行了双因素方差分析（two-way ANOVA）。随后，使用配对Wilcoxon检验（并进行多重检验校正）进行组间比较。首先比较了不同的深度学习架构，然后比较了各网络架构内部不同图像对比度的性能。p值小于0.05被认为具有统计学显著性。
主要结果
研究结果表明，深度学习架构的选择和图像对比度的类型均对分类性能有显著影响。
在全局分类性能方面，双因素方差分析显示，深度学习架构和图像对比度都对准确率（ACC）有显著影响（p值分别为1.97×10^-5和2.04×10^-5）。总体而言，SwinT模型表现最佳，其ACC中位数从使用F图像时的0.885到使用FF图时的0.956不等，平均为0.919。相比之下，VGG19的ACC中位数在0.848（W图像）到0.91（T1w图像）之间，平均为0.879；ResNet50的ACC中位数在0.844（F图像）到0.921（FF图）之间，平均为0.886。具体而言，SwinT在使用FF图（p=0.006对比VGG19， p=0.016对比ResNet50）和W图像（p=0.018对比VGG19， p=0.021对比ResNet50）时，性能显著优于其他两种架构；在使用F图像时，SwinT也显著优于ResNet50（p=0.048）。在使用T1w对比度时，各架构之间未发现显著差异。
在评估不同图像对比度时，SwinT模型在使用FF图像时达到了最高的ACC中位数（0.956），且其性能显著优于使用F和W对比度时的自身表现（p=0.027）。而对于VGG19和ResNet50架构，T1w图像的性能最佳，ACC中位数分别为0.91和0.92，但与其他对比度相比，差异未达到统计学显著性。
在类别特异性分类性能方面，对于健康受试者的分类，所有模型和对比度都表现出极高的性能，F1分数在0.987到1之间。其中ResNet50表现尤为突出，F1中位数达到1。混淆矩阵分析显示，模型误分类的图像极少，且大多被误判为BMD类。对于LGMD2患者的分类更具挑战性，F1中位数范围在0.71到0.95之间。SwinT模型表现最优，F1中位数达到0.95。VGG19和ResNet50在使用T1w图像时最佳F1中位数分别为0.88和0.89。混淆矩阵揭示了大量误分类情况，例如VGG19最佳配置下错误分类了27%的LGMD2切片，而SwinT最佳配置下的错误率为7%，且大多数错误是将LGMD2切片误标为BMD。对于BMD患者的分类，F1中位数范围在0.82到0.94之间。SwinT在使用FF图像时取得了最佳性能，F1中位数为0.94。VGG19和ResNet50则在T1w图像上达到最佳，F1中位数均为0.88。混淆矩阵显示，SwinT的误分类率最低（2%），且错误主要是将BMD图像误标为LGMD2。
在计算时间方面，训练时间从11分钟到22分钟不等（ResNet50约11分钟，SwinT约17分钟，VGG19约22分钟）。平均推断时间在0.423秒到1.087秒之间。
结论
本研究标志着深度学习在利用骨骼肌MRI扫描分类神经肌肉疾病方面迈出了重要一步。通过评估Swin Transformer架构与传统CNN的性能，证明了SwinT在实现高准确率方面的优越性，尤其是在使用脂肪分数（FF）图像作为输入时。研究结果强调了SwinT作为一种强大的诊断工具的潜力，可通过深入分析肌肉受累模式来辅助临床决策。此外，研究结果突显了选择最佳MRI对比度的重要性，其中FF图被证明是增强分类准确性的关键图像生物标志物。尽管存在诸如队列规模有限等局限性，但本研究为未来进一步验证和扩展这些发现奠定了基础。总体而言，本研究推动了利用AI驱动方法对神经肌肉疾病进行准确分类的理解，最终有助于改善患者的护理和管理。
研究亮点
本研究具有多个重要亮点。首先，这是首次将Swin Transformer架构应用于基于骨骼肌MRI扫描的肌营养不良症三分类（健康、BMD、LGMD2）研究，填补了该领域的技术应用空白。其次，研究系统性地比较了前沿的SwinT模型与经典的CNN模型（VGG19， ResNet50），并证实了SwinT在捕获长程依赖关系和提升分类性能上的优势。第三，研究不仅关注模型架构，还深入探讨了不同MRI对比度（T1w, FF, F, W）对分类性能的影响，并明确FF图像是用于分类任务的最佳对比度，为临床MRI协议的选择提供了实证依据。第四，研究设计严谨，采用了受试者中心的数据划分策略和多次独立运行取平均的评估方法，增强了结果的可靠性。最后，研究所达到的最高准确率（95.6%） 与现有文献中同类研究相比处于领先水平，展示了该方法的强大潜力。
其他有价值的内容
除了主要发现，研究还提及了其潜在的临床应用价值。自动化分类过程（推断时间约1秒）相较于放射科医生的人工判读能显著节省时间。虽然训练模型需要一定时间（约17分钟），但这属于一次性前期工作。这表明，一旦模型训练完成，可以高效地应用于新数据的快速分类，具备临床转化前景。此外，研究将LGMD2A和LGMD2B合并为一个研究队列，虽然可能引发争议，但作者解释这是为了增强该组的统计效力，这一方法论决策值得读者在解读结果时注意。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问