Analyse des caractéristiques apprises similaires aux critères diagnostiques dans la classification ECG à 12 dérivations par apprentissage profond

Recherche sur l’interprétabilité de l’apprentissage profond dans le diagnostic automatisé de l’ECG — Synthèse des avancées basées sur l’IA explicable

I. Contexte académique et problématique

L’électrocardiogramme (ECG), moyen important de collecte de signaux physiologiques pour le diagnostic des maladies cardiaques en clinique, existe depuis plus d’un siècle. Ces dernières années, avec le développement rapide de l’intelligence artificielle (IA) et des réseaux de neurones profonds (Deep Neural Networks, DNNs), les algorithmes de diagnostic automatique basés sur les données ont obtenu des performances remarquables dans le domaine de l’ECG, particulièrement dans l’identification des anomalies complexes telles que les arythmies, surpassant nettement les méthodes traditionnelles. Les modèles de deep learning, grâce à l’apprentissage et à l’extraction automatique des caractéristiques du signal, ont considérablement fait progresser l’interprétation automatique des ECG et les systèmes d’aide au diagnostic.

Néanmoins, la généralisation clinique de ce type d’algorithmes boîte noire reste limitée, l’un des obstacles principaux étant le manque d’explicabilité. Bien que ces modèles puissent fournir des jugements de classification précis, les professionnels médicaux éprouvent des difficultés à comprendre leurs justifications décisionnelles, craignant que le modèle ne soit basé sur des corrélations fallacieuses, du bruit ou des erreurs d’appareillage, influençant ainsi la sécurité et la fiabilité du diagnostic. Par exemple, si le modèle utilise des caractéristiques de bruit ou des signaux sans signification clinique comme fondement diagnostic, il est particulièrement sujet à des erreurs de type “Clever Hans” (c’est-à-dire une précision apparente reposant sur des associations erronées). Ainsi, l’amélioration de l’explicabilité des modèles de deep learning et la révélation de la relation entre leurs caractéristiques internes et les standards cliniques sont devenues un enjeu central et un sujet chaud de recherche en IA médicale.

Face à ce constat, cette équipe de recherche a introduit les méthodes d’IA explicable (Explainable Artificial Intelligence, XAI) dans le champ du diagnostic automatisé de l’ECG, dans le but d’analyser les caractéristiques implicites apprises par les modèles de deep learning lors de la classification d’ECG multi-dérivations (12-lead ECG), de vérifier si le modèle intègre des critères diagnostiques conformes aux manuels de cardiologie, et de proposer un processus d’analyse quantitative, jetant ainsi une base solide pour les futures applications de l’IA médicale.

II. Source de l’article et informations sur les auteurs

Cet article, intitulé “Analysis of a Deep Learning Model for 12-Lead ECG Classification Reveals Learned Features Similar to Diagnostic Criteria”, a été publié dans la revue académique de référence IEEE Journal of Biomedical and Health Informatics (Vol. 28, No. 4, avril 2024, pp. 1848-1859). L’autrice principale et correspondante est Theresa Bender, et l’équipe regroupe Jacqueline M. Beinecke, Dagmar Krefting, Carolin Müller, Henning Dathe, Tim Seidler, Nicolai Spicher et Anne-Christin Hauschild. Les principaux membres sont affiliés à la faculté d’informatique médicale et au département de cardiologie du University Medical Center Göttingen en Allemagne, illustrant la force de leur collaboration interdisciplinaire.

III. Conception de l’étude et processus technique

1. Principes généraux de la recherche

Cette étude repose sur l’utilisation d’un modèle de réseau résiduel profond (ResNet) déjà développé et rendu public, appliqué à des données ECG originales provenant de deux bases de données ECG de grande envergure (CPSC2018 et PTB-XL). Des méthodes XAI d’explicabilité sont employées pour analyser les caractéristiques du signal réellement apprises par le modèle dans un contexte de diagnostic, et des méthodes d’évaluation et de visualisation quantitatives innovantes sont proposées, permettant d’exposer systématiquement le mécanisme de décision du modèle d’IA.

a. Sources de données et sélection des échantillons

  • Base de données CPSC2018 : Collectée dans 11 hôpitaux chinois, annotée manuellement par des experts. L’étude a choisi 200 ECG normaux, 200 de fibrillation auriculaire (Atrial Fibrillation, AF) et 200 de bloc de branche gauche (Left Bundle Branch Block, LBBB).
  • Base de données PTB-XL : Données publiques allemandes avec une période d’acquisition plus longue, une diversité de population et de matériel différente de CPSC2018, utilisée pour la validation et l’évaluation de la généralisation des résultats.

b. Processus de traitement des données et modélisation

  1. Prétraitement : Tous les signaux ECG sont ré-échantillonnés à 400 Hz, tronqués ou complétés par des zéros à 4096 points, formant une matrice d’entrée standardisée (n × 4096 × 12, n est le nombre de relevés).
  2. Inférence du modèle : Chaque enregistrement ECG est soumis au modèle ResNet pré-entraîné pour une classification multi-classes des six anomalies ECG, avec des scores de probabilité de sortie (activation sigmoïde).
  3. Analyse explicable : Outil Innvestigate utilisé pour deux principales méthodes XAI :
    • Integrated Gradients (IG) : Attribution d’une valeur d’importance à chaque point d’entrée par l’intégration des gradients le long du segment entre l’entrée et un input de référence.
    • Layer-wise Relevance Propagation (LRP) : Décomposition du score de prédiction en scores de pertinence pour chaque dimension de l’entrée, pour une explication plus fine.
  4. Analyse quantitative en trois niveaux :
    • Statistiques globales de la pertinence : Analyse de la distribution des scores de pertinence dans chaque groupe diagnostique (normal, AF, LBBB), évaluant la sensibilité du modèle aux signaux pathologiques.
    • Statistiques par dérivation : Analyse par dérivation (lead), comparaison des scores dans chaque catégorie, identification des dérivations clefs sur lesquelles le modèle s’appuie.
    • Analyse temporelle par cycle cardiaque : Méthode de « battement moyen » pour segmenter et aligner chaque ECG selon les cycles, permettant d’analyser, pour chaque période rythmique, les ondes spécifiques (P, QRS, T) valorisées par le modèle, et évaluer son adéquation aux standards cliniques.
  5. Visualisation et évaluation : Normalisation des scores de pertinence ([-1, 1]), visualisation par heatmaps et scatterplots pour exposer la logique de décision à des experts et médecins, obtention de leur retour pour améliorer la méthodologie explicative.
  6. Comparatifs expérimentaux et validation de généralisation :
    • Comparaison du nouvel algorithme avec les variantes traditionnelles de LRP (telles que ε-LRP, αβ-LRP, ω^2-LRP).
    • Validation croisée du protocole sur PTB-XL.

2. Principales innovations techniques et méthodes développées

Les points forts de cette étude sont : - Proposition innovante d’une analyse multi-niveaux des scores de pertinence, du niveau global au niveau dérivation puis au cycle cardiaque, pour examiner systématiquement la relation entre l’apprentissage du modèle et les critères diagnostiques réels. - Intégration de plusieurs méthodes XAI, comparaison de divers algorithmes d’attribution pour évaluer leurs mérites et différences en contexte médical. - Visualisation détaillée pour fournir aux cliniciens des outils concrets d’interprétation rapide des modèles. - Validation croisée sur plusieurs bases de données, mise en évidence de la robustesse et de la généralisation du mécanisme décisionnel.

IV. Principaux résultats expérimentaux et analyse du processus

1. Distribution globale des scores de pertinence

L’analyse montre que la majorité des points d’échantillonnage de l’ECG ont des scores de pertinence proches de zéro dans la décision du modèle, ce qui est conforme à la réalité clinique (hors ondes, le segment de base n’a typiquement aucune valeur diagnostique). Les scores de pertinence pour les groupes AF et LBBB sont plus larges et penchent vers le positif par rapport aux ECG normaux : dans le groupe LBBB, le score est nettement supérieur à celui du groupe normal dans l’intervalle [0, 0,10], tandis que le groupe AF a une répartition plus diffuse, illustrant une meilleure sensibilité du modèle aux signaux pathologiques.

L’analyse par enregistrement individuel révèle que la moyenne des scores de pertinence (mn) augmente avec la probabilité d’anomalie prédite (cn). Il existe une forte corrélation entre la classification faite par le modèle et la moyenne des scores de pertinence ; les erreurs de classification surviennent fréquemment près du seuil ou lorsque la moyenne des scores est proche de zéro, suggérant que le seuil du modèle peut être optimisé.

2. Analyse des scores de pertinence par dérivation

La comparaison entre leads montre que les scores de pertinence dans les enregistrements anormaux sont significativement plus élevés que dans le groupe normal, notamment en dérivation v1. Pour la classification AF, la différence de score de v1 est particulièrement marquante, indiquant que le modèle a appris l’importance diagnostique de v1 (comme l’absence d’onde P ou la présence d’ondes de fibrillation). En classification LBBB, les leads gauches (comme avl, v5, v6) sont aussi valorisées, ce qui correspond aux critères cliniques standards. Les tests statistiques (Wilcoxon) révèlent des différences significatives pour toutes les leads.

3. Analyse temporelle par cycle cardiaque

La méthode « battement moyen » montre que le modèle focalise les scores de pertinence positifs sur les complexes QRS, tandis que les scores sur les ondes P et T reflètent la qualité de l’apprentissage du modèle :

  • En classification AF, le complexe QRS, notamment le pic R, concentre la pertinence ; l’onde P dans les ECG normaux présente une forte pertinence négative, montrant que la présence de P est utilisée comme “preuve contre” la fibrillation auriculaire.
  • En classification LBBB, les complexes QRS larges, le segment ST prolongé et l’inversion polaire de l’onde T sont les points de focus du modèle ; le groupe normal présente une pertinence négative prononcée sur T, tandis que le groupe LBBB se concentre sur l’anomalie du signal. Les scores sont concentrés dans les cycles pathologiques, les formes d’onde correspondent aux anomalies ECG typiques du LBBB.

4. Visualisation et évaluation par experts

La visualisation par heatmaps normalisées montre que : - Pour le LBBB, le modèle se concentre sur l’onde S négative de v1, le segment ST prolongé et les ondes R larges. - Pour l’AF, l’attention est sur les pics R et les zones d’absence de l’onde P, avec certains marquages sur des pseudo-ondes P. - En cas de bruit (dérive de la ligne de base, bruit, décollements de leads), les scores de pertinence convergent sur les artefacts, augmentant le risque d’erreur de classification, ce qui illustre la dépendance du modèle à la qualité du signal.

5. Test de généralisation base de données & algorithmes

La répétition de l’expérience sur PTB-XL révèle des résultats très similaires, l’algorithme affichant un fort pouvoir de généralisation inter-base de données. Le groupe LBBB maintient une forte concentration des scores sur les anomalies, et la précision des étiquettes influence la distribution des scores, ce qui suggère que le modèle pourrait apprendre des distinctions encore plus fines.

Les diverses méthodes XAI impactent significativement la distribution des scores : ε-LRP et αβ-LRP privilégient les pics R, tandis que ω^2-LRP augmente l’attention sur les ondes non-R et les artefacts (bruit). La méthode IG montre une meilleure capacité explicative et une focalisation plus élevée. Il en découle que le choix du cadre d’attribution doit être adapté à la situation clinique.

V. Conclusion et valeur scientifique

En résumé, cette étude démontre systématiquement que le modèle pré-entraîné de deep learning pour la classification automatisée de l’ECG à 12 leads peut apprendre les critères diagnostics conformes aux standards cliniques. Par exemple, le modèle reconnaît les ondes P nettes comme “preuve contre” l’AF, les complexes QRS larges et la direction de l’onde T comme critères de LBBB, tout en attribuant des poids diagnostiques différents selon les leads, appuyant la sécurité et la fiabilité du diagnostic assisté par IA.

Le processus d’analyse quantitatif multi-niveaux développé dans l’étude, conjugué aux méthodes de visualisation, permet de présenter instantanément au clinicien la logique décisionnelle du modèle, facilitant le contrôle de la pertinence de l’IA et réduisant le risque d’erreur. Ce travail pose un jalon important pour le développement d’outils cliniques d’explicabilité de l’IA et pour la mise en œuvre fiable des systèmes AI en médecine. L’étude montre aussi que le modèle est sensible aux artefacts de signal, ce qui suggère que l’analyse de pertinence pourrait être exploitée pour développer des fonctions de détection de la qualité du signal et des alertes sur les anomalies.

VI. Points forts et contributions innovantes

  1. Processus d’explication à haute dimension intuitive : Première segmentation de l’analyse XAI en trois niveaux — global, par lead, par cycle cardiaque — améliorant largement la transparence du diagnostic.
  2. Fusion approfondie des standards cliniques et IA : Validation systématique que le modèle de deep learning peut spontanément apprendre les principaux critères diagnostiques ECG et le choix des leads, renforçant la crédibilité de l’IA médicale.
  3. Validation croisée multi-algorithmes : Comparaison de plusieurs méthodes XAI d’attribution, exposition de leurs avantages et limites, fournissant des bases théoriques pour le choix pratique en clinique.
  4. Support visuel pour la décision clinique : Méthodes de visualisation telles qu’heatmaps et scatterplots, facilitant la compréhension médico-clinique de la logique AI et promouvant le “white-boxing” de l’IA.
  5. Pouvoir de généralisation inter-base de données élevé : Réplication des résultats sur différentes bases de données, excluant l’influence liée au matériel ou à la population.

VII. Limites et perspectives futures

  • L’analyse basée sur la méthode IG est limitée pour interpréter l’information de dépendance temporelle (comme la variation de l’intervalle RR dans les arythmies), ce qui reste un point faible pour l’interprétation de l’AF ; l’intégration future d’algorithmes d’attribution temporelle est nécessaire.
  • En utilisant des bases de données publiques, un biais de sélection peut subsister ; il est nécessaire d’incorporer des données réelles cliniques d’urgence ou d’hospitalisation pour étendre la généralisation.
  • L’étude n’a pas développé de façon systématique de fonction de détection automatique des artefacts ou de correction d’erreur ; une analyse combinée avec la chronologie des scores de pertinence pourrait à terme renforcer la robustesse et la sécurité des systèmes AI.

L’équipe prévoit à l’avenir de développer, sur la base de ces résultats, un outil interactif d’explication clinique de l’IA, visant à garantir à la fois la revue logique visuelle et la sécurité du diagnostic assisté par IA, afin de soutenir le déploiement généralisé de l’IA pour le diagnostic ECG automatique en clinique réelle.

VIII. Autres informations utiles

Tout le code source issu de cette recherche est public sur GitLab (https://gitlab.gwdg.de/medinfpub/biosignal-processing-group/xai-ecg, commit #aed722d8), avec la totalité des analyses PTB-XL et des vidéos dynamiques (publiées en matériel annexé), afin de faciliter la reproduction et l’extension des recherches par la communauté.

IX. Synthèse et signification académique

Cette étude montre pleinement les perspectives d’application des méthodes XAI dans le diagnostic automatique de l’ECG, apportant aux praticiens une solution concrète pour ouvrir la boîte noire de l’IA et supprimer les obstacles majeurs à la promotion de l’IA médicale. Les processus multi-niveaux et de visualisation proposés font progresser la transparence décisionnelle de l’IA en médecine ; il s’agit d’un jalon dans la démocratisation de l’IA médicale, ayant une valeur clé pour la sécurité des patients, la réduction du risque d’erreur et l’amélioration de l’efficacité clinique.