Estimation et évaluation de la conformité des explications contrefactuelles multiclasses pour la prévention des maladies chroniques
I. Contexte académique et motivation de la recherche
Au cours des dernières années, l’intelligence artificielle (IA) a réalisé d’immenses progrès dans le domaine de la santé. Passant des premiers systèmes d’aide au diagnostic et de la prédiction du risque à la recommandation de programmes d’intervention personnalisés, l’IA est devenue un outil clé pour améliorer la qualité et l’efficacité des soins médicaux. Toutefois, son application concrète en clinique se heurte encore à de nombreux défis, le plus saillant étant l’explicabilité (Explainability) et la fiabilité (Trustworthiness) des modèles. Lorsque des systèmes d’IA servent d’outils de support à la décision clinique (Clinical Decision Support Systems, CDSS), professionnels et patients souhaitent vivement pouvoir “comprendre” comment l’IA formule ses inférences et si celles-ci sont conformes au savoir médical établi plutôt que le fruit d’une boîte noire. Le manque de transparence entrave non seulement l’adoption des outils d’IA mais nuit également à la confiance des médecins, impactant la sécurité des patients et la qualité des résultats de santé.
Pour pallier cette lacune, les techniques d’IA explicable (Explainable AI, XAI) ont vu le jour. La XAI tente de conserver la puissance de l’IA tout en rendant son processus décisionnel compréhensible, offrant ainsi des parcours décisionnels automatisés et data-driven transparents, fiables et acceptables par les experts médicaux. Parmi les nombreuses techniques XAI, les explications contrefactuelles (Counterfactual Explanations) retiennent particulièrement l’attention. Leur idée centrale est de montrer “ce qui se passerait si les données d’entrée changeaient”, c’est-à-dire exploiter un scénario “what-if” pour aider les médecins à comprendre la base des jugements du modèle et les leviers d’intervention possibles. En contexte médical, les explications contrefactuelles permettent de construire des stratégies d’intervention personnalisées pour chaque patient, dévoilant quelles modifications de variables pourraient influencer le risque de maladie ou le diagnostic — par exemple, en ajustant la pression artérielle, la glycémie, l’indice de masse corporelle (IMC) ou d’autres biomarqueurs.
Malgré leur pertinence conceptuelle, les explications contrefactuelles posent encore de nombreux défis pratiques et évaluatifs : comment garantir qu’une explication contrefactuelle soit suffisamment proche des données originales (donc “faisable”) et suffisamment représentative de la classe cible (donc “utile”) ? Comment quantifier et sélectionner systématiquement des explications de qualité et fiables ? Comment générer efficacement des explications contrefactuelles contrôlées dans des classifications multi-classes complexes (tel que la stratification du risque) ? Cette étude propose précisément des méthodes nouvelles sur ces lacunes, appliquées à la prévention personnalisée du risque cardiovasculaire chez les patients atteints de bronchopneumopathie chronique obstructive (BPCO), dans l’objectif de construire pour les CDSS des mécanismes explicatifs plus rigoureux et dignes de confiance.
II. Référence de l’article et informations sur les auteurs
Cet article de recherche, intitulé “Estimation and Conformity Evaluation of Multi-Class Counterfactual Explanations for Chronic Disease Prevention”, a été publié en septembre 2025 dans la revue IEEE Journal of Biomedical and Health Informatics. L’équipe d’auteurs, issue de plusieurs pays et institutions, comprend notamment Marta Lenatti (auteure correspondante), Alberto Carlevaro, Aziz Guergachi, Karim Keshavjee, Maurizio Mongelli et Alessia Paglialonga. Les institutions clés incluent le CNR-Istituto di Elettronica e di Ingegneria dell’Informazione e delle Telecomunicazioni (Italie), l’Université de Gênes, la Ted Rogers School of Management et School of Information Technology Management (Canada), l’Institut de politique, gestion et évaluation de la santé de l’Université de Toronto, et l’Université York. Ce projet est soutenu par l’Union Européenne, le Ministère italien de l’université et la recherche (MUR), dans le cadre de divers programmes nationaux sur l’IA et d’écosystèmes d’innovation.
III. Détail du processus de recherche
1. Extraction et prétraitement de la base de données
Cohorte et taille de l’échantillon :
L’équipe a extrait de la base du Canadian Primary Care Sentinel Surveillance Network (CPCSSN) des données de dossiers électroniques de santé pseudonymisés, collectés entre 2000 et 2015. Cette extraction cible des patients de plus de 20 ans diagnostiqués BPCO, permettant d’obtenir après filtrage strict 9613 enregistrements complets (beaucoup moins que les 37504 originaux, garantissant ainsi la qualité des données).
Variables et caractéristiques :
Chaque observation comprend les biomarqueurs principaux collectés jusqu’à six mois avant le diagnostic BPCO : âge au diagnostic, sexe assigné à la naissance, IMC, pression artérielle systolique et diastolique (SBP/DBP), glycémie à jeun (FBS), LDL, HDL, triglycérides (TG), cholestérol total (TOTCHOL), statut tabagique (actuel, ex-fumeur, jamais fumé), existence d’hypertension ou de diabète (diagnostiquée dans les six mois précédant la BPCO). Les variables sont catégorisées : modifiables (IMC, tension…), partiellement modifiables (tabac…), et non modifiables (âge, antécédents).
Sortie ciblée :
Le score utilisé est le Framingham Risk Score (FRS), classant le risque cardiovasculaire à 10 ans selon l’algorithme de la Société Cardiovasculaire Canadienne : faible (<10 %, 3944 cas), modéré (10 %-19 %, 3274 cas), élevé (≥20 %, 2395 cas). Cette sortie sert de référence à la génération d’explications contrefactuelles personnalisées.
2. Construction et optimisation du modèle de classification multi-classes
Algorithme principal :
L’équipe emploie le Multi-Class Support Vector Data Description (MC-SVDD), un classifieur structurant les observations par hypersphères dans un espace à noyau de haute dimension, adapté à la détection d’anomalies et multi-classes. Pour pallier l’inévitable erreur de classification dans les données médicales réelles, ils innovent en intégrant un contrôle du taux de faux positifs (False Positive Rate Control, FPR) : via une approche one-vs-all itérative, chaque classe est entraînée avec des SVDD mono-classe jusqu’à obtenir un taux d’erreur inférieur au seuil choisi (0.1) ou jusqu’à une limite d’itérations (ex : 1000).
Alternative modélisation et validation :
Pour certains algorithmes de génération d’explications comme DICE (incompatible directement avec MC-SVDD), un Modèle SVM de substitution (Surrogate Support Vector Machine) est utilisé, maximisant la similitude d’entrées/sorties avec MC-SVDD. La cohérence entre modèles a été confirmée par le coefficient de Kappa de Cohen (0,89).
Apprentissage et test :
L’ensemble de données est partitionné 70⁄30 (formation/test), la normalisation étant réalisée par scaling maximal. La calibration des hyperparamètres MC-SVDD et SVM est menée via validation croisée à trois plis et recherche en grille. Les deux modèles affichent d’excellentes performances, particulièrement après l’introduction du contrôle FPR qui privilégie la “non-classification” en cas d’incertitude, gage de robustesse en pratique clinique.
3. Génération d’explications contrefactuelles
Idée générale :
En prenant les cas à haut risque cardiovasculaire (682⁄690 dans le test set), chaque “fait” tente de générer deux contrefactuels : un menant vers le risque modéré, un vers le faible risque (chacun correspondant à une nouvelle combinaison de biomarqueurs).
Comparaison de méthodes et innovation :
Deux stratégies majeures sont déployées :
MUCH (Multi Counterfactuals via Halton Sampling) : S’appuie sur un échantillonnage quasi-aléatoire Halton dans l’espace de la classe cible et optimise la “distance minimale” pour générer le contrefactuel. Les contraintes garantissent que le nouveau point soit inclus dans la classe cible tout en restant éloigné des autres frontières. MUCH est très contrôlable et converge facilement, particulièrement couplé au MC-SVDD.
DICE (Diverse Counterfactual Explanation) : Utilise un algorithme génétique heuristique pour optimiser la diversité et la proximité, tout en prenant en charge des features mixtes. Pour assurer l’équité, chaque fait génère un seul contrefactuel (comme MUCH). Les méthodes heuristiques de DICE peuvent aboutir à des solutions sous-optimales ou ne pas converger dans des cas complexes.
Les deux méthodes restreignent strictement l’amplitude de variation des variables, respectant les contraintes biomédicales (ex. : un patient fumeur peut évoluer vers “ex-fumeur” mais pas “jamais fumé”), et fixant des seuils maximums médicaux (IMC, lipides, etc.).
4. Évaluation de la qualité des explications contrefactuelles et conformité
Indicateurs d’évaluation et tests statistiques :
- Availability (taux de génération réussie)
- Discriminative Power (précision de discrimination de la classe cible)
- Proximity (proximité au fait d’origine, mieux si plus faible)
- Sparsity (nombre moyen de variables modifiées)
- Implausibility (écart à la moyenne de la classe cible, mieux si plus faible)
- Diversity (variabilité interne de l’ensemble des contrefactuels)
Des tests de Wilcoxon et Mann-Whitney U sont utilisés pour valider la significativité, avec correction de Bonferroni.
Évaluation de la conformité contrefactuelle :
Introduction d’un score de “conformité contrefactuelle” (Counterfactual Conformity), inspiré de la Conformal Prediction (CP), pour quantifier la qualité de l’explication :
- La distance mixte (Hamming + cosinus) évalue à la fois la proximité (au fait d’origine) et la plausibilité (au centre de la classe cible).
- Un seuil ε (par ex. 0,1) détermine si une explication obtient un haut niveau de confiance. Si tous les objectifs sont validés, on parle de “contrefactuel totalement conforme”, sinon l’explication est “partiellement” ou “non conforme”.
- Le calibrage du score sur le set de test permet de filtrer les explications et d’en quantifier la fiabilité.
IV. Analyse des principaux résultats
1. Performances du classifieur
- Après contrôle du FPR, MC-SVDD atteint une précision de 85,6 % sur l’ensemble d’entraînement, avec 10 % de points non classés (donc moins de faux diagnostics mais plus de refus intentionnels explicables). Les sensitivités sont de 88,2 % (faible risque), 75,0 % (modéré), 95,9 % (élevé). Les performances sur le test set restent solides.
- Le SVM proxy modélise avec grande fidélité le MC-SVDD : 96,9 %/92,6 % de précision sur l’entraînement/test, Kappa de Cohen à 0,89.
2. Génération et comparaison des explications contrefactuelles
- Taux de génération moyen : 84,6 % pour MUCH, 98,2 % pour DICE. Les deux méthodes offrent une haute capacité de discrimination (légèrement supérieure pour MUCH) ; MUCH est meilleur en vraisemblance et diversité, DICE excelle en proximité et en parcimonie des features modifiées.
- Pour le passage haut->modéré risque, les variations proposées par MUCH et DICE diffèrent nettement pour certaines variables (ex. : SBP, lipides), avec des différences statistiques significatives.
- L’évaluation de la conformité permet d’éliminer les explications non réalistes : les explications filtrées montrent de meilleurs scores (proximité, vraisemblance, parcimonie), les variations suggérées restant atteignables en clinique (e.g. variations BMI ou pression artérielle dans des plages réalistes).
3. Recommandations d’intervention personnalisée et valeur clinique
- Les explications totalement conformes générées par MUCH/DICE suggèrent des adaptations pertinentes et réalisables (diminuer la pression, optimiser l’IMC, augmenter le HDL, arrêt du tabac), cohérentes avec les connaissances médicales, fournissant ainsi des pistes concrètes d’intervention personnalisée.
- Chez les patients avec comorbidités (hypertension, diabète…), les amplitudes de variation suggérées sont bien plus élevées pour les variables concernées (p. ex., baisse de pression importante chez les hypertendus), prouvant la prise en compte des réalités cliniques par le modèle.
V. Conclusion, valeur académique et applicative
Cette étude propose un système complet d’explications contrefactuelles pour la stratification multi-classe du risque médical, validé sur la prévention cardiovasculaire des patients BPCO, avec une rigueur méthodologique couvrant extraction des données, apprentissage, génération explicative et sélection/évaluation :
- Première structuration d’une évaluation de conformité contrefactuelle, permettant aux CDSS de fournir non seulement une justification du raisonnement IA mais aussi de filtrer automatiquement les recommandations d’intervention réellement fiables et opérationnelles.
- Synergie d’un algorithme de classification multi-classe (MC-SVDD) et de générations optimisées (MUCH/DICE), renforçant l’adaptabilité médicale et la diversité des explications.
- Recommandations personnalisées applicables en pratique clinique et validées sur une grande cohorte, présentant un solide potentiel de diffusion.
- La méthodologie est généralisable à d’autres maladies chroniques et profils de risque, soutenant l’élaboration de programmes d’intervention IA en télémédecine ou en temps réel, favorisant la santé publique.
VI. Points forts de l’étude et perspectives
- Méthode et indicateur nouveaux : L’application de MUCH contrefactuel et de la conformité contrefactuelle est une première en santé : elle améliore la fiabilité et l’utilité des explications.
- Qualité des données et rigueur du design : Base du santé à large échelle, données de grande qualité, normalisation stricte et contraintes biomédicales apportent des résultats solides et crédibles.
- Flexibilité et portabilité : Le cadre modèle et explicatif s’adapte à divers types de maladies, facilement intégrable dans les systèmes CDSS cliniques.
- Perspectives : Prochaines étapes : intégration dynamique d’expertise médicale, optimisation des seuils et extension à d’autres pathologies, afin de faire maturer l’XAI médicale de la théorie à la pratique.
VII. Autres informations pertinentes
- Le code, certaines données et outils de cette étude sont déjà en open-source, facilitant la réplicabilité, validation et amélioration par la communauté scientifique et industrielle.
- Les concepts et processus exposés dans l’article constituent désormais une base technologique pour la gestion chroniques des maladies via DSE (Dossier de Santé Électronique), la médecine préventive intelligente et la conception de modèles IA robustes face aux risques.
- L’équipe de recherche mène une collaboration internationale et multidisciplinaire exemplaire, illustrant le parcours de R&D, d’évaluation et de transfert technologique pour les grands modèles IA en santé.
Par ses innovations techniques et sa rigueur académique, cette étude offre un outil décisif et de nouvelles perspectives pour la prévention individualisée des maladies chroniques pilotée par l’IA, marquant une nouvelle ère d’IA médicale explicable, crédible et utile pour la pratique réelle.