Prédiction de bout en bout de la progression de l'arthrose du genou avec des transformeurs multimodaux

Prédiction de bout en bout de la progression de l’arthrose du genou grâce aux Transformers multimodaux

I. Présentation du contexte scientifique

L’arthrose du genou (Knee Osteoarthritis, KOA) est une maladie chronique du système musculo-squelettique qui touche des centaines de millions de personnes dans le monde. En raison de la dégénérescence progressive du cartilage articulaire et des os, la KOA entraîne généralement des douleurs chroniques, une raideur articulaire et des limitations fonctionnelles. Malheureusement, aucun traitement curatif n’est actuellement disponible, et la prévision précise de la progression de la KOA est essentielle pour le développement de médicaments modificateurs de la maladie et pour les interventions précoces. Par conséquent, la prédiction de l’évolution de la KOA demeure une problématique majeure non résolue en orthopédie et en médecine clinique.

La progression de la KOA est très hétérogène, les manifestations cliniques et les mécanismes pathologiques variant considérablement d’un patient à l’autre, ce qui rend la prédiction précise extrêmement difficile. Traditionnellement, l’évaluation clinique repose principalement sur l’imagerie radiographique (rayons X), en particulier grâce au classement de Kellgren-Lawrence (KL), pour déterminer la gravité de la KOA. Cependant, les radiographies ne reflètent que les changements osseux et l’espace articulaire, et sont incapables de détecter les changements microscopiques précoces des tissus mous tels que le cartilage, le ménisque ou le coussinet adipeux. L’introduction de l’imagerie par résonance magnétique (IRM) a considérablement amélioré la finesse de l’examen articulaire, permettant, via différents protocoles séquentiels, d’explorer les caractéristiques morphologiques (IRM structurelle) et compositionnelles (IRM compositionnelle, tels que le T2-mapping), offrant ainsi un accès précieux aux altérations pathologiques précoces.

Cependant, dans la pratique, la plupart des études basées sur l’IRM disposent de tailles d’échantillon limitées, les biomarqueurs étant souvent extraits par segmentation d’image et radiomique traditionnelle, modèle de conception « ascendante » qui peine à révéler des relations complexes cachées entre phénotypes. De plus, en raison de limitations méthodologiques, les effets synergiques et la complémentarité de la fusion multimodale (rayons X et IRM) restent encore peu validés sur le plan systémique.

Ces dernières années, l’apprentissage profond (Deep Learning, DL) a rendu possible l’analyse de vastes ensembles de données d’imagerie médicale, notamment via des réseaux de neurones fusionnant plusieurs modalités/séquences, tels que les Transformers, capables d’extraire automatiquement des caractéristiques optimales de prédiction de façon bout en bout. Ce progrès ouvre de nouvelles perspectives pour la prédiction individualisée de la progression de la KOA et la classification phénotypique.

II. Source de l’article et présentation des auteurs

Cet article intitulé « End-to-end Prediction of Knee Osteoarthritis Progression with Multimodal Transformers » a été publié dans IEEE Journal of Biomedical and Health Informatics (Vol. 29, n° 9, septembre 2025). Les auteurs sont Egor Panfilov, Simo Saarakkala, Miika T. Nieminen et Aleksei Tiulpin, tous affiliés à la Faculté de médecine de l’Université d’Oulu (Finlande) et au département de radiologie diagnostique de l’hôpital universitaire d’Oulu. L’équipe est reconnue comme un leader dans le domaine de l’analyse de l’imagerie ostéo-articulaire et de l’intelligence artificielle médicale.

L’étude est soutenue par la base de données Osteoarthritis Initiative (OAI), le Conseil de la Recherche de Finlande et l’Infotech Institute de l’Université d’Oulu. Toutes les données et les codes sources des modèles sont publiquement accessibles, facilitant ainsi la reproductibilité au sein de la communauté scientifique.

III. Processus global et méthodologie de la recherche

1. Conception de l’étude et construction des données

L’étude se base sur la base de données prospective multicentrique OAI, à partir de laquelle cinq sous-ensembles indépendants ont été créés selon différentes fenêtres temporelles (12, 24, 36, 48, 96 mois). Chaque sous-ensemble commence par des données de base (baseline) et attribue l’étiquette de progression ou non-progression selon l’évolution de la classification KL durant la période de suivi. Les tailles d’échantillon respectives sont de 3967, 3735, 3585, 3448 et 2421, avec un taux progressif de cas évolutifs (jusqu’à 27,7% sur 96 mois). Le jeu de test est exclusivement constitué par le centre « Site D » pour améliorer la robustesse du modèle face aux transferts de domaine d’imagerie, tandis que les données d’entraînement et de validation sont attribuées par validation croisée à cinq plis, garantissant une distribution équilibrée des labels.

2. Variables cliniques et d’imagerie

Les variables cliniques comprennent les informations démographiques (âge, sexe, IMC), l’historique de blessures/opérations du genou, l’échelle fonctionnelle et symptomatique WOMAC, ainsi que le score KL de la radiographie de base. Les données d’imagerie incluent les rayons X et plusieurs séquences IRM : DESS 3D haute résolution (Dual-Echo Steady State), TSE pondéré intermédiaire coronale (Turbo Spin-Echo), T2-mapping multi-écho sagittal (caractérisant la composition biochimique des tissus). DESS cible l’évaluation morphologique du cartilage et du ménisque, TSE met l’accent sur les lésions ligamentaires, œdèmes osseux et inflammations synoviales, et la T2-map est sensible aux changements compositionnels précoces du cartilage.

3. Méthodes expérimentales et modélisation deep learning

3.1 Modèle de base sur données cliniques

Différentes combinaisons de variables cliniques alimentent des modèles de régression logistique (Logistic Regression, LR) en tant que référence, analysant successivement l’apport du score WOMAC, de l’historique du genou et du score KL. Chaque configuration est validée par validation croisée, et les indicateurs d’évaluation principaux sont l’aire sous la courbe ROC (AUC) et la précision moyenne (AP).

3.2 Architecture des modèles d’imagerie

Selon les modalités, les modèles suivants sont conçus et mis en œuvre :

  • Rayons X seuls : analyse directe des radiographies avec un modèle CNN ResNeXt-50_32x4d.
  • Séquence IRM unique : extraction de caractéristiques par ResNet-50, puis agrégation via un module Transformer, permettant d’exploiter la pré-formation et de capter les relations spatiales entre coupes.
  • Modèles de fusion multimodale : pour deux modalités (XR + IRM), des branchements CNN indépendants sont utilisés, les vecteurs de caractéristiques sont concaténés puis fusionnés par Transformer; pour trois/quatre modalités, chaque branche IRM intègre un Transformer intermédiaire pour une représentation latente commune, fusionnée avec les autres sources et à nouveau traitée par Transformer. L’ajout de données cliniques s’effectue via une branche dédiée entièrement connectée, tous les CNN étant initialisés par les poids d’ImageNet, les autres modules de façon aléatoire.

L’entraînement utilise l’optimiseur Adam, la focal loss pour contrer le déséquilibre de classe, sur-échantillonnage des minorités, réchauffement et décroissance du taux d’apprentissage, et des ressources matérielles haut de gamme (4 GPU NVIDIA A100, etc.), avec des durées d’entraînement allant de 0,5 à 6,5 heures par modèle.

3.3 Évaluation et analyse statistique

Tous les modèles sont évalués sur le jeu de test et la validation croisée selon l’AUC et l’AP, moyennés et mesurés par bootstrap, les différences significatives sont testées par permutation. Pour les modèles de fusion multimodale, l’apport relatif de chaque modalité à la performance prédictive est quantifié par ablation de features et calcul des taux d’utilisation relative (RURs).

4. Analyse de sous-groupes

Pour examiner la performance des modèles selon les profils cliniques, les sujets sont stratifiés en trois groupes : « pas de blessure/ chirurgie antérieure », « blessure sans chirurgie », « chirurgie antérieure ». Chaque groupe est subdivisé par score KL initial et symptôme (WOMAC >10), puis les performances (AUC, AP) sont calculées par sous-groupe, afin d’approfondir l’hétérogénéité d’efficacité des modèles mono- ou multimodaux.

IV. Détails des principaux résultats expérimentaux

1. Modèles cliniques de référence

Pour la fenêtre de 12 mois, l’ajout successif de WOMAC et de l’historique du genou augmente l’AUC et l’AP de 0,07 chacun ; l’ajout du score KL améliore l’AP de 0,10 supplémentaire, indiquant une contribution significative de l’imagerie à la prédiction de progression à court terme. Sur 24-48 mois, la plus-value des facteurs cliniques et radiographiques diminue ; sur 96 mois, leur contribution redevient significative. Le modèle logistique multi-variables (C3) affiche la meilleure performance et sert de référence pour les analyses suivantes.

2. Performance des modèles d’imagerie monomodale

Modèle rayons X : peu performant sur 1224 mois, meilleur que la référence à partir de 36 mois, avec une augmentation d’AP statistiquement significative sur 48-96 mois.
IRM structurale (DESS/TSE) : AUC supérieure au modèle de base et au modèle rayons X en fenêtre 12 mois, puis amélioration continue dès 24 mois. Les fenêtres 24 et 96 mois affichent les plus fortes hausses d’AUC; le T2-map (IRM compositionnelle) est comparable à la radiographie. À long terme, tous les modèles IRM surpassent la base clinique et la radiographie, soulignant l’intérêt de l’IRM pour la détection précoce.

3. Performance des modèles de fusion multimodale

3.1 Fusion entre protocoles IRM

La fusion de deux séquences IRM structurelles (DESS+TSE) n’apporte qu’une amélioration marginale (AUC +0,03 à 12 mois, non significatif); la fusion avec T2-map apporte une progression limitée, significative uniquement sur l’AP à 36 mois. Ainsi, la fusion de séquences IRM n’apporte que des bénéfices modérés et ponctuels.

3.2 Fusion rayons X + IRM

La fusion rayons X-DESS améliore l’AUC de 0,11 vs X seul et de 0,05 vs DESS seul à 12 mois ; les gains d’AP sont marginalement présents à 4896 mois. La fusion triple (XR+DESS+T2-map) affiche les résultats les plus constants (AUC de 0,70 à 0,76; AP de 0,10 à 0,55), surpassant les modèles mono- ou bimodaux. L’ajout des variables cliniques n’améliore pas la performance globale, et même diminue l’AP à 12 mois comparé au modèle clinique, suggérant que les cas faciles à prédire peuvent l’être depuis les données cliniques seules, et que la vraie valeur ajoutée des images réside dans les cas complexes et hétérogènes.

4. Analyse des sous-groupes et taux d’utilisation

Dans le groupe « sans blessure ni chirurgie antérieure », l’AUC reste moyenne quel que soit le modèle, mais IRM et modèles fusionnés sont légèrement meilleurs pour KL faible/symptomatiques. Chez les sujets avec blessure/ chirurgie ancienne, les performances sont bien plus élevées pour IRM et modèles fusionnés, ce qui montre que les altérations précoces et processus inflammatoires sont très détectables par les caractéristiques profondes extraites des images haute dimension.

L’analyse RURs montre que la DESS IRM domine systématiquement les contributions à la sortie du modèle fusionné (>85% en moyenne), le T2-map étant complémentaire surtout à court terme (jusqu’à 28%), mais moins pertinent à mesure que l’horizon s’étend. L’apport des variables cliniques et des rayons X dans la fusion multimodale est négligeable (%). Tout cela atteste que l’IRM, en particulier structurelle, porte l’essentiel de l’information pour la prédiction de la progression du score KL.

V. Conclusions générales, valeur scientifique et applicative

1. Conclusions scientifiques principales

Cette étude propose un cadre de prédiction multimodale en deep learning de bout en bout, évaluant systématiquement la vraie valeur ajoutée de la fusion pour prédire la progression de la KOA. Les résultats contredisent l’idée intuitive « plus on fusionne de modalités, mieux c’est », puisqu’à court comme à long terme, une IRM structurale seule atteint des performances comparables à la fusion multimodale. Seuls les cas complexes (antécédents traumatiques/ chirurgicaux, early Lesions) peuvent grandement bénéficier de la fusion.

De plus, l’IRM compositionnelle (T2-map) a une valeur marginale uniquement à court terme (12 mois), déclinant avec le temps, ce qui s’explique par la focalisation du standard KL sur les changements morphologiques; les variables cliniques sont donc surtout utiles pour la prédiction court terme. Pour le screening en conditions réelles, participer à une présélection sur la base de l’histoire du genou et du score fonctionnel permet déjà de repérer les patients à risque, réduisant la nécessité d’IRM pour une fraction des sujets.

2. Valeur d’application et de transfert

Du point de vue applicatif, ces résultats sont fondamentaux : l’association du screening clinique et des rayons X, peu coûteuse, suffit pour la majorité des patients, tandis que l’IRM peut cibler les cas à histoire complexe, symptômes atypiques, nouveaux traumatismes ou dans le cadre d’essais cliniques. Pour chaque niveau de besoin, configurer l’imagerie par séquence ou par fusion multimodale optimise l’efficience diagnostique et la gestion des ressources.

La prédiction deep learning (CNN+Transformer) de bout en bout surpasse les méthodes basées sur la segmentation et la feature engineering, captant les complexes signatures radiomiques et la variabilité spatiale, ouvrant la voie à la prédiction personnalisée de la progression de la KOA. L’ouverture des codes sources et la reproductibilité apportent une base solide à la diffusion et à l’évolution des méthodes IA dans la prévision de la KOA, de l’orthopédie et des pathologies chroniques en général.

VI. Points forts et innovations de l’étude

  1. Workflow complet et ouvert : première fusion bout en bout normalisée et ouverte sur rayons X, trois séquences IRM et les données cliniques.
  2. Grande taille d’échantillon et validation multi-temporelle : exploitation de l’OAI pour une granularité et une robustesse accrues des résultats et des analyses sous-groupes.
  3. Analyse approfondie de la vraie valeur de la fusion multimodale : quantification par RURs de la contribution réelle de chaque modalité, constatant la domination de l’IRM structurelle et nuançant la croyance que « la multimodalité prime ».
  4. Identification de sous-groupes et hétérogénéité : performance détaillée selon antécédents traumatiques, chirurgicaux ou cas classiques, soulignant l’importance de la stratification dans la recherche et la modélisation.
  5. Innovation méthodologique : architecture hybride CNN-Transformer, harmonisant extraction locale d’image et modélisation globale des dépendances multi-sources, inspirant la recherche sur la fusion de grosses données médicales volumétriques.

VII. Informations complémentaires à retenir

  • Tous les codes, méthodes de sélection de données, pré-traitements, développement et évaluation des modèles sont ouverts sur GitHub (https://github.com/imedslab/oaprogressionmmf).
  • La discussion ébauche plusieurs pistes de recherche future : prédiction séquentielle de progression, adaptation au domaine d’imagerie, généralisation multicentrique, optimisation de la taille et de l’interprétabilité des modèles IA.
  • L’article souligne les limites du score KL comme endpoint et suggère d’intégrer les scores quantitatifs IRM (tel que MOAKS) ou une stratification phénotypique adaptative dans les futurs systèmes de prédiction.
  • Il est recommandé que les modèles multimodaux deep learning optimisent la pondération des branches, explorent de meilleures architectures et mécanismes décisionnels cliniques pour plus d’équité et d’explicabilité.

VIII. Résumé

À l’aide de méthodes de deep learning multimodales, cette étude évalue systématiquement la contribution réelle des rayons X, des différentes séquences IRM et de leur fusion à la prédiction de la progression de l’arthrose du genou, et propose une stratégie hiérarchisée de screening et d’aide à la décision clinique. Par sa validation à grande échelle, ses analyses sous-groupes fines et son cadre ouvert, cette recherche apporte une base solide et des nouvelles orientations pour le développement et l’application de l’IA en orthopédie et dans la prévision de maladies chroniques.