Déclaration de consensus sur l'évaluation de la crédibilité des prédicteurs d'apprentissage automatique
I. Introduction – Les défis de la crédibilité de l’apprentissage automatique dans le domaine médical
Ces dernières années, le développement rapide de l’intelligence artificielle (IA) et de l’apprentissage automatique (Machine Learning, ML) a profondément transformé le secteur de la santé. En particulier dans le domaine de la médecine in silico, les prédicteurs fondés sur le ML sont devenus des outils majeurs pour estimer certains indicateurs physiologiques et pathologiques humains difficiles à mesurer directement, tels que l’évaluation du risque de maladie ou la prédiction de la réponse au traitement. Cependant, à mesure que les modèles de ML interviennent de plus en plus directement dans la prise de décision clinique, on exige de leur crédibilité (credibility) des standards inédits de rigueur. Autrement dit, garantir la justesse et la fiabilité des modèles d’apprentissage automatique en pratique médicale s’impose comme l’un des plus grands défis scientifiques pour le monde académique et industriel.
Comparés aux prédicteurs conventionnels fondés sur des modèles biophysiques (également appelés « modèles de premier principe »), les modèles de ML sont guidés par les données (data-driven), restent largement opaques (« boîte noire ») et dépendent fortement de la qualité et de la représentativité des jeux de données d’entraînement, avec des vulnérabilités potentielles telles que le biais, le surapprentissage (overfitting), etc. Par ailleurs, ces modèles réalisent leurs prédictions en détectant des corrélations statistiques, et non des relations causales (causal knowledge), ce qui accroît le risque d’erreurs lorsque le modèle est utilisé dans de nouveaux contextes. Ainsi, la construction d’un cadre théorique et méthodologique interdisciplinaire et spécialisé est devenue urgente pour évaluer de manière systématique et scientifiquement fondée la crédibilité des prédicteurs ML, étape essentielle pour l’obtention de l’agrément des organismes de régulation (tels que la FDA) et pour une adoption clinique fiable.
II. Présentation de l’origine de l’article et des auteurs
Cet article, intitulé « Consensus statement on the credibility assessment of machine learning predictors », a été publié sous la forme d’un « position article » dans la revue de référence Briefings in Bioinformatics (2025, volume 26, numéro 2, bbaf100). Il est coécrit par sept chercheurs de premier plan en modélisation in silico, sciences des données, pratique clinique et régulation scientifique : Alessandra Aldieri, Thiranja Prasad Babarenda Gamage, Antonino Amedeo La Mattina, Axel Loewe, Francesco Pappalardo et Marco Viceconti, affiliés à des institutions renommées telles que le Politecnico di Torino (Italie), l’Auckland Bioengineering Institute (Nouvelle-Zélande), l’hôpital Huashan de Shanghai/Fudan University (Chine), le Karlsruhe Institute of Technology (Allemagne), l’Université de Catane (Italie), etc. Ce consensus reflète l’avis collectif de la communauté internationale de la médecine in silico (in silico world community of practice), réunissant plus de 35 experts ayant contribué à la démarche. L’objectif : poser une base théorique et méthodologique pour l’évaluation de la crédibilité des prédicteurs ML, et proposer un cadre standardisé pour le monde académique, les développeurs et les régulateurs.
III. Contenu de l’article et analyse des points principaux
Cet article n’est pas une étude expérimentale originale, mais une synthèse de douze déclarations de consensus théoriques et pratiques issues de discussions systématiques entre experts sur l’évaluation de la crédibilité des modèles d’apprentissage automatique. Il constitue une innovation méthodologique et un socle de référence pour l’ensemble du secteur. Voici une analyse approfondie de son contenu et de ses principes.
1. Clarification du périmètre de recherche et du système conceptuel
L’article commence par définir clairement son socle conceptuel. Le « système d’intérêt » (system of interest, SI) désigne un objet d’étude complexe, évoluant dans le temps et l’espace (ex : le corps humain), caractérisé par des interactions multiples. Parmi ses nombreuses variables, la « quantité d’intérêt » (quantity of interest, QI) est celle que l’on souhaite prédire, bien qu’elle soit difficile à mesurer directement ; on la déduit donc à partir d’autres variables plus accessibles (ensemble ω).
L’article adopte le modèle hiérarchique DIKW (Données-Information-Connaissance-Sagesse) : - « Données » : valeurs brutes issues de l’observation du SI, quantitatives ou catégorielles. - « Information » : données enrichies de métadonnées permettant leur contextualisation (qui, quoi, où, quand). - « Connaissance » : hypothèses causales établies entre informations, permettant la prédiction de nouveaux résultats. - « Sagesse » : connaissance ayant résisté à de nombreux essais de réfutation, donc jugée fiable pour la prise de décision.
Cette structure logique pose les bases de l’évaluation ultérieure de la crédibilité.
2. Distinction fondamentale entre modèles ML et biophysiques au regard de la causality
L’article insiste sur la distinction entre connaissances causales « explicites » et « implicites » dans la prédiction de la QI : - Les connaissances causales explicites sont fondées sur des principes scientifiques vérifiables (physique, chimie, biologie). Exemple : modélisation par éléments finis du processus de consolidation d’une fracture. - Les connaissances causales implicites résident dans de vastes ensembles de données observées, sans nécessité de lois physiques explicites, la prédiction reposant alors sur la détection de corrélations statistiques. C’est le propre du ML.
À cause de ce recours à la connaissance implicite, les variables d’entrée des modèles ML sont souvent seulement « suffisantes » mais pas « nécessaires », ce qui expose à des risques d’omission ou de redondance (sous- ou surapprentissage) difficiles à contrôler lors de l’évaluation de la crédibilité.
3. Définition de la crédibilité et cadre d’évaluation en sept étapes
En s’appuyant sur la métrologie, la statistique et la simulation numérique, l’article définit la « crédibilité » comme la capacité du prédicteur à maintenir l’erreur dans des limites acceptables pour tous les scénarios d’entrées possibles. L’impossibilité d’accéder à la valeur réelle pour chaque état oblige à une estimation approchée basée sur des échantillonnages et une décomposition des sources d’erreur. Les auteurs proposent un processus complet en sept étapes :
- Définition du contexte d’utilisation et du seuil d’erreur : Il s’agit de clarifier le contexte d’application et de fixer l’erreur maximale tolérable (ε).
- Détermination de la source des valeurs réelles : Il faut obtenir les « vraies valeurs » de la QI et des variables associées via des méthodes de mesure crédibles, d’une précision au moins dix fois supérieure à l’erreur permise.
- Quantification de l’erreur de prédiction : On réalise des expériences contrôlées, collecte variables d’entrée et vraie sortie afin de caractériser la distribution des erreurs effectives.
- Identification des sources d’erreur : On passe en revue les potentielles sources d’erreur propres à chaque type de prédicteur, telles que l’incertitude numérique, aléatoire (aleatoric uncertainty), ou liée à une connaissance incomplète (epistemic uncertainty).
- Décomposition des sources d’erreur : On cherche à dissocier les différentes contributions à l’erreur globale, parfois via des expériences conçues pour isoler un facteur à la fois.
- Analyse de la distribution des erreurs : On vérifie la conformité des distributions d’erreur avec les attentes théoriques (ex : normalité pour l’incertitude aléatoire).
- Robustesse et applicabilité : Au-delà de l’analyse contrôlée, il faut évaluer la généralisation du modèle : gestion des outliers, détection de biais cachés, et capacité de transfert à des scénarios non vus.
L’article compare en détail les modèles biophysiques (où les erreurs sont plus aisées à tracer car l’ensemble d’entrée est supposé « nécessaire ») et les modèles ML (où la suffisance sans nécessité accroît le risque de variables manquantes ou non pertinentes, difficulté centrale abordée ici).
4. Stratégies pour la robustesse face aux biais et garanties de sécurité
Pour contrer la perte d’applicabilité et les défaillances potentielles en cas d’exemples atypiques, deux stratégies clés sont proposées :
- Gestion sur l’ensemble du cycle de vie du produit (Total Product Life Cycle, TPLC) : Les performances du modèle doivent être monitorées en continu une fois déployé. L’ajout progressif de nouveaux ensembles de tests et de données réelles permet d’élargir prudemment le champ d’application, chaque extension devant s’appuyer sur de nouvelles preuves empiriques de fiabilité.
- Conception d’une couche de sécurité (Safety Layer) : Avant chaque prédiction, le modèle vérifie que les entrées appartiennent à la distribution couverte lors de l’entraînement/tests ; sinon, il avertit l’utilisateur ou refuse la prédiction, recourant au besoin à une méthode traditionnelle plus fiable. Pour cela, il convient de conserver dans les jeux de données toutes les variables observables, même non directement utilisées par le modèle.
5. Les douze déclarations de consensus et leurs fondements
Le cœur de l’article est constitué de douze déclarations théoriques qui structurent l’architecture du consensus :
- Définition des quantités, observation et relations prédictives
- Application concrète du modèle DIKW dans des exemples biomédicaux (ex : prédiction de la croissance tumorale)
- Différenciation explicite/implicite des connaissances causales, scénarios associés, et rôle des approches hybrides (ML informé par la physique, cadres hybrides, séquentiels ou parallèles)
- Principes de décomposition et quantification de l’erreur de prédiction
- Spécificités des problèmes ML : surapprentissage, biais, variables manquantes, opacité, qualité et dynamique temporelle des données
- Stratégies d’amélioration : TPLC, couche de sécurité, collecte exhaustive des données, promotion de la standardisation, surveillance continue, conformité réglementaire
- Mise en perspective avec les récents guides des agences telles que la FDA, et dialogue croisé des approches
6. Conclusions de consensus, recommandations pratiques et apports innovants
Principales conclusions :
- Les prédicteurs ML, dépendant de connaissances implicites, sont plus vulnérables aux biais et déficits d’entrées, mais restent irremplaçables pour traiter des problèmes complexes.
- Une décomposition systématique des erreurs et une évaluation progressive renforcent la crédibilité des modèles.
- La gestion du cycle de vie et l’intégration d’une couche de sécurité augmentent la robustesse et la transférabilité du modèle à diverses populations et contextes cliniques.
Huit recommandations majeures : 1. Standardiser la mise en œuvre de la méthode d’évaluation en 7 étapes ; 2. Encourager une collecte de données exhaustive et de haute qualité pour des évaluations plus rigoureuses ; 3. Développer des méthodes adaptées de validation et de quantification de l’incertitude pour spécificités des modèles ML ; 4. Privilégier la transparence des modèles et leur interprétabilité ; 5. Renforcer la communication avec les autorités réglementaires pour garantir la conformité ; 6. Intensifier la formation interdisciplinaire et sensibiliser les professionnels de santé au ML ; 7. Favoriser la collaboration intersectorielle et l’agrégation des compétences ; 8. Insister sur le suivi continu du modèle en contexte réel et les mises à jour dynamiques.
7. Importance et valeur de l’article
Ce consensus fondateur fusionne pour la première fois l’expertise en modélisation in silico, science des données, clinique et régulation, pour répondre à la question cruciale : « comment évaluer scientifiquement la crédibilité des modèles ML appliqués à la médecine ? » Il pose de nouveaux standards pour la profession, comblant un vide académique. Là où la littérature se concentrait sur l’« interprétabilité » et la « fiabilité », les auteurs replacent la « crédibilité » comme critère central et indispensable pour l’usage clinique — exiger non seulement que le modèle soit juste la plupart du temps, mais que, dans toute la gamme contrôlée d’utilisation, l’erreur ne dépasse jamais le seuil clinique toléré. Cela jette les bases d’un déploiement conforme et sécurisé de l’IA médicale.
Le positionnement rejoint les plus récents guides de la FDA, tout en offrant une dimension novatrice sur la robustesse aux biais, l’intégration de couches de sécurité et un plan d’action concret pour la généralisation des modèles ML en santé.
IV. Informations complémentaires
- L’article s’inscrit dans le projet européen H2020 « in silico world » (numéro de projet 101016503).
- Les auteurs déclarent n’avoir aucun conflit d’intérêts ; toutes les recommandations reposent sur un processus de consensus itératif.
- Les références couvrent l’ensemble des champs de pointe : ML en santé, validation de modèles, interprétabilité, fiabilité, hybridation, avec une bibliographie exhaustive.
V. Conclusion
Ce « consensus statement » rédigé par les plus grands experts internationaux et approuvé par une large communauté, analyse en profondeur les principaux enjeux des modèles ML médicaux, et propose à la fois un schéma méthodologique systémique et des solutions praticables pour le développement, l’évaluation, l’application clinique et la validation réglementaire de ces modèles. Sa publication marque un progrès fondamental dans la normalisation des pratiques d’évaluation de l’IA en médecine, et constitue un jalon dans l’innovation responsable ainsi que dans le développement de haute qualité de l’industrie de la santé digitale.