膝骨关节炎进展的端到端多模态变换器预测

利用多模态Transformer实现膝骨关节炎进展的端到端预测

一、学术背景介绍

膝骨关节炎(Knee Osteoarthritis, KOA)是一种广泛影响全球数百万人群的慢性肌肉骨骼疾病。KOA因关节软骨与骨质的逐渐退变,通常会导致慢性疼痛、关节僵硬、功能受限等问题。遗憾的是,目前尚无有效的治愈手段,早期干预与疾病修饰性药物的研发极为依赖对KOA进展情况的准确预测。因此,预测KOA的进程成为骨科学与临床医学领域关键的未解难题。

KOA的进展非常异质,患者之间的表现及病理机制存在显著差异,这使得精准预测难度极大。传统临床主要依赖放射影像(X射线)的评估,尤其是Kellgren-Lawrence分级(KL分级),来判定KOA的严重性。然而,X射线仅反映了骨和关节间隙的变化,对于软组织早期的退变如软骨、半月板、脂肪垫等微观结构改变则几乎无法识别。磁共振成像(MRI)的引入极大丰富了关节成像的细致度,可以通过不同序列协议反映组织的形态学(structural MRI)与成分学(compositional MRI, 如T2-mapping)特征,极大扩充了对疾病早期病理变化的获取能力。

但在实际研究中,MRI相关研究大多样本量有限,生物标志物常通过影像分割与传统影像组学(radiomics)提取,存在“自下而上”设计视角的瓶颈,难以揭示复杂模式间的高层次隐含关系。此外,由于分析方法的限制,多模态(如X射线与多种MRI)的融合效果与协同价值仍未被系统性验证。

近年来,深度学习(Deep Learning, DL)使海量医学影像数据的分析成为可能,尤其是多模态、多序列融合的深度神经网络、Transformer模型等,可以从原始数据端到端地自动提取最优预测特征,为KOA个体化进展预测与表型划分提供新的思路。

二、论文来源与作者介绍

本文以“End-to-end Prediction of Knee Osteoarthritis Progression with Multimodal Transformers”为题,发表于IEEE Journal of Biomedical and Health Informatics(2025年9月第29卷第9期)。论文作者包括Egor Panfilov、Simo Saarakkala、Miika T. Nieminen以及Aleksei Tiulpin,均来自芬兰奥卢大学医学院(Faculty of Medicine, University of Oulu)及奥卢大学医院诊断放射科。该团队为骨关节影像分析及人工智能医学应用领域的领军团队。

本研究获得Osteoarthritis Initiative(OAI)、芬兰研究委员会及奥卢大学Infotech Institute支持,并将全部数据与模型代码公开,极大便利了学界后续研究的可复现性。

三、研究整体流程及方法详解

1. 研究设计与数据构建

本研究基于Osteoarthritis Initiative(OAI)这一多中心、前瞻性随访数据库,构建了五个不同时间窗口(12、24、36、48、96个月)的独立子数据集。每个数据集以基线(Baseline)信息为起点,界定在各自随访周期内KL分级是否进展(作为进展与非进展标签)。最终五个数据集的样本量分别为3967、3735、3585、3448、2421例,进展者比例随随访期增长而提升(长至96个月,进展者占27.7%)。测试集采用某一中心(Site D)独立抽取,以增强模型对成像域转移(domain shift)的鲁棒性,训练和验证数据则以5折交叉验证分配,保证标签分布一致。

2. 临床及影像变量

临床变量包括基本人口学信息(年龄、性别、BMI)、膝关节既往损伤/手术史、症状与功能量表(WOMAC评分)、基线X射线KL分级。影像数据涵盖X射线与多种MRI序列,包括高分辨率三维DESS(Dual-Echo Steady State)、冠状面中间加权TSE(Turbo Spin-Echo)、矢状面多射频回波T2-mapping(反映组织生化成分)。DESS主要用于软骨及半月板形态评估,TSE强调韧带、骨挫伤、滑膜炎等结构损伤,T2-map则可敏感捕捉软骨早期成分改变。

3. 实验方法及深度学习建模

3.1 临床数据基线模型

构建包含不同临床变量组合的Logistic回归(Logistic Regression, LR)模型作为基线,并纳入WOMAC、膝史与KL分级逐步添加分析。每组采用5折交叉验证,评估指标为ROC曲线下面积(AUC)与平均精度(AP)。

3.2 影像模型架构

针对不同模态,研究分别设计并实现如下模型:

  • 单一X射线影像: 采用ResNeXt-50_32x4d CNN模型直接分析原始X光片。
  • 单一MRI序列: 以ResNet-50作为特征提取器,再串联Transformer模块聚合各切片特征,既能利用预训练权重,又利于捕捉序列间空间关系。
  • 多模态融合模型: 对于两种模态(如XR+MRI),配置独立CNN分支,特征向量拼接后进入Transformer实现跨模态融合;三至四种模态时,各MRI分支配有中间层Transformer将特征嵌入共同空间,与其他分支汇总后再次Transformer融合。若合并临床数据,则另附浅层全连接分支。所有CNN均以ImageNet预训练权重初始化,Transformer等其他层随机初始化。

训练中,采用Adam优化器,focal loss应对类别不平衡,少数类别过采样,标准化学习率预热与衰减,硬件资源包括4块NVIDIA A100等高算力GPU,模型训练时间从0.5至6.5小时不等。

3.3 评估与统计分析

所有模型均在测试集与交叉验证数据上以AUC与AP为主要指标,以bootstrap法计算均值及标准误,通过置换检验(permutation test)检验模型间性能差异的显著性。此外,在多模态融合场景中,通过特征消融法(feature ablation)定量衡量各模态对融合模型预测性能的相对利用率(RURs)。

4. 亚组分析

为探讨不同临床人群的模型表现,进一步将受试者根据膝关节既往史分为“无既往损伤/手术”、“损伤未手术”、“既往手术”三组,再按基线KL分级与是否症状(WOMAC总分阈值为10)分层,分别在各亚组计算模型AUC与AP,探究多模态/单模态模型在不同人群中有效性的异质性。

四、主要实验结果详述

1. 临床基线模型结果

12个月视窗内,逐步加入WOMAC和膝史使AUC及AP各提升0.07;纳入KL分级后AP再增0.10,提示短期内影像对进展预测有额外贡献。24-48个月窗内,临床与影像因素增益减少;长达96个月窗问,非影像变量加KL分级则又有显著提升,长期进展相较短期更易于识别。多变量Logistic回归模型(C3)表现最好,作为后续分析基线。

2. 单模态影像模型表现

X射线模型在12/24个月视窗表现不如基线模型,36个月后优于基线,48-96个月AP提升且具统计意义。MRI结构序列(DESS/TSE)模型12个月视窗AUC优于基线与X射线模型,24个月起两项指标均提升,诸如24和96个月AUC最为显著;T2-map(成分MRI)表现与X射线近似。在长期预后中,MRI各模型均优于临床基线及X射线,凸显其早期检出价值。

3. 多模态融合模型表现

3.1 MRI协议间融合

结构MRI双序列融合(DESS+TSE)主要在12个月AUC提升0.03(无统计意义);融合成分序列(T2-map)时,加分幅度有限,仅在36个月目标AP提升显著。说明多序列MRI融合虽有补充作用,但段性提升有限。

3.2 放射+MRI融合

X射线与DESS融合 在12个月AUC分别比单模态提升0.11与0.05,在48/96月窗口部分AP略有提升。三模态(XR+DESS+T2-map)表现最优,整体测试得分在0.70至0.76(AUC)、0.10至0.55(AP)间波动,对比单模态与任意双模态模型更为稳定。进一步加入临床变量后对整体表现无明显增益,甚至在12月AP略低于非影像基线,表明部分易进展病例已可被纯临床变量识别,多模态影像的附加价值主要体现于更复杂、异质性更强的患者中。

4. 亚组与利用率分析

在“无既往损伤/手术”人群中,各模型AUC中等,MRI及融合模型命中率略优,尤其是基线KL分级低及症状阳性者。存在既往损伤或手术者模型表现显著提高,MRI与融合模型AUC/AP均大幅优于临床和X线模型,说明后者早期组织损伤-炎症-退变过程可被高维影像深度特征敏感捕捉。

RURs分析显示,融合模型中DESS MRI对输出的贡献始终占绝对主导(平均>85%),T2-map在短期窗口的补充作用更明显(最高至28%),但随期限延长其贡献降低。临床指标及X射线加入多模态融合模型时,边际贡献极低(%)。以上结果佐证MRI(特别是结构MRI)具有最高的信息量,在预测KL分级进展任务中处于“信息金字塔尖”。

五、总体结论、科学与应用价值

1. 主要科学结论

该研究提出了一个端到端的多模态深度学习预测框架,系统性评估了多模态融合对KOA进展预测的实际增益。结果否定了“模态越多越好”这一直觉,显示对于KOA进展的长期与短期预测,单纯依赖结构性MRI已可达与多模态融合相当的表现。只有极少数复杂人群(如既往膝损伤/手术)、疑难早期病例,通过多模态融合才有可能显著获益。

此外,成分MRI(如T2-map)在12个月内对识别早期退变者略有价值,但随随访时间拉长,其补充信息量不断减少,可能与KL分级这一金标准主要依赖影像形态学改变有关。临床变量则主要为短期预测提供信息,表明未来真实世界筛查中,结合既往既往膝疾病史与功能评分可初步识别高危人群,需MRI影像者或许范围有限。

2. 应用与转化价值

从应用角度看,本研究结果有重要现实意义:普及成本较低的X射线检查结合基本临床评估对于大多数人群已可满足KOA风险筛查,MRI应用可重点关注有复杂病史、疑难症状、新发损伤或试点药物干预的队列。针对不同筛查与临床需求,影像序列/多模态融合的层级式应用路线可大幅提高医疗检测效率,优化医疗资源配置。

基于深度学习(CNN+Transformer)的端到端预测方案,相较以往依赖区域分割与特征提取式影像生物标志物,有望更全面捕捉复杂组学(radiomics)及空间变异特征,为个体化KOA进展预测打开新思路。公开源代码与可复现研究设计将促进相关人工智能方法在KOA、骨科以及更广泛的慢性病进展预测领域的推广与进化。

六、研究亮点与创新点

  1. 工作流端到端完整:首次实现基于X射线、三种MRI与临床数据的多模态端到端融合预测,并形成规范化、开源的分析流程。
  2. 大规模样本、多时间窗验证:依托OAI数据库,样本数与亚组分析粒度大幅提升,增强研究结果的普适性与说服力。
  3. 深度关注多模态融合实际价值:基于RURs量化多模态内各成像类型于模型推理的真实贡献,发现结构MRI主导性,挑战了单纯追求“多模态即优越”的行业趋势。
  4. 亚组及异质性识别:深入分析不同临床背景(如术后、损伤后与典型病例)模型表现,强调KOA研究与建模过程中人群划分的必要性。
  5. 方法论创新:结合CNN与Transformer的架构,既兼备局部图像特征又捕捉序列或多源信息的全局依赖,为未来大体积医学影像融合研究提供思路。

七、其他值得关注的信息

  • 本文所有相关代码、数据筛选、预处理、模型开发和评估流程均已在GitHub开放(https://github.com/imedslab/oaprogressionmmf)。
  • 讨论部分对未来研究方向作出前瞻性展望,包括疾病进展序列预测、影像域适应、多中心数据泛化、AI模型精简等议题。
  • 指出KL分级作为终点的局限,提倡将MRI定量评分体系(如MOAKS)或自适应表型分组纳入未来预测体系。
  • 提醒未来多模态DL模型需关注不同模态分支权重学习的均衡性,探索更具临床可解释性及实际可用性的架构优化与决策机制。

八、总结

本研究通过多模态深度学习方法,系统性地评估了X射线、MRI不同序列及其融合对膝骨关节炎进展预测的实际贡献,提出了针对临床及研究实际需求的分层筛查与决策建议。以其大规模验证、细致亚组分析及开源框架,为骨关节炎及相关慢性病预测的AI方法探索与实际转化提供了坚实基础与新方向。