Reconstruction générative de signaux cardiaques multimodaux à partir d'un unique capteur de cardiographie vibratoire

Génération de signaux cardio-vasculaires multimodaux à partir d’un unique capteur de vibrational cardiography

Présentation du contexte

Les maladies cardiovasculaires (Cardiovascular Disease, CVD), l’une des principales causes de morbidité et de mortalité dans le monde, touchent chaque année des centaines de millions de patients et imposent un lourd fardeau aux systèmes de santé. Selon la littérature, les dépenses médicales annuelles liées aux maladies cardiovasculaires s’élèvent à plusieurs dizaines de milliards de dollars et affectent la productivité ainsi que la qualité de vie des patients. La prévalence de multiples facteurs de risque, tels que l’hypertension, le diabète, l’obésité et un mode de vie sédentaire, rend la prévention et la prise en charge des CVD encore plus difficiles.

La détection et l’intervention précoces sont cruciales pour améliorer l’efficacité de la gestion des CVD et pour réduire la survenue d’événements cardiovasculaires graves. Dans ce contexte, les technologies de surveillance de santé portables connaissent un essor considérable. Grâce à des dispositifs portables surveillant les paramètres physiologiques cardiaques, les patients peuvent devenir acteurs de leur santé et collaborer avec les médecins pour une prise en charge individualisée. Les principales techniques actuelles de surveillance cardiovasculaire comprennent :

  • Électrocardiogramme (Electrocardiography, ECG): Enregistre l’activité électrique du cœur pour fournir des informations sur la fréquence, le rythme et contribuer au diagnostic des pathologies. Il est considéré comme le “gold standard” de la surveillance cardiaque.
  • Photopléthysmographie (Photoplethysmography, PPG): Utilise un capteur optique pour détecter les variations du volume sanguin. Très utilisée dans les montres connectées et bracelets fitness, elle permet de surveiller la fréquence cardiaque, la saturation en oxygène, etc.
  • Cardiographie d’impédance (Impedance Cardiography, ICG): Évalue le débit aortique par les variations d’impédance thoracique et permet d’obtenir des paramètres hémodynamiques essentiels comme le débit cardiaque.
  • Surveillance non invasive de la pression artérielle (Non-Invasive Blood Pressure, NIBP): Réalise une mesure continue et non invasive de la pression artérielle grâce à des dispositifs type pinces ou bracelets.

Bien que ces technologies présentent chacune des avantages, la surveillance multimodale en temps réel rencontre des limites telles qu’un grand nombre de capteurs, la complexité d’usage pour l’utilisateur et le défi de synchroniser les données. Puisque ces méthodes puisent toutes leurs informations de la physiologie cardiaque, des chercheurs s’interrogent : serait-il envisageable de déduire ou reconstruire d’autres signaux à partir d’un unique capteur, simplifiant ainsi dispositifs et opérations pour une surveillance cardio-vasculaire multimodale efficace ? C’est le point de départ du champ “modal transfer in cardiology” (transfert multimodal en cardiologie) en plein essor ces dernières années.

Grâce à l’apprentissage profond et aux modèles génératifs, de nombreux travaux ont exploré la cartographie entre signaux cardiaques, par exemple la génération d’ECG à partir de PPG, l’estimation du NIBP via PPG, ou encore la conversion entre signaux ECG mono-derivés et à 12 dérivations. Les modèles tels que Generative Adversarial Network (GAN), U-net, Long Short-Term Memory (LSTM) repoussent ainsi les frontières, mais ces recherches se cantonnent principalement aux conversions entre deux modalités à la fois, sans solution pour la reconstruction simultanée de multiples signaux.

Cette étude s’intéresse particulièrement à la Vibrational Cardiography (VCG), incluant la seismocardiography (SCG) et la gyrocardiography (GCG), qui utilise un capteur inertiel (IMU) installé au niveau du processus xiphoïde pour enregistrer l’activité mécanique cardiaque (contractions, mouvements valvulaires, flux sanguin). Il a été démontré que la VCG capture des informations sur la dynamique cardiaque, respiratoire et hémodynamique, et permet de mesurer des indicateurs comme la fréquence cardiaque, les intervalles cardiaques, des paramètres de pathologies cardio-vasculaires ou encore le volume d’éjection.

L’innovation de cette étude réside dans l’hypothèse que le signal VCG renferme des informations physiologiques riches et variées. Se pourrait-il, grâce à des modèles génératifs et machine learning, reconstituer uniquement à partir de la VCG les signaux ECG, PPG, ICG et NIBP, soit quatre modalités différentes ? Si cela s’avère possible, cela simplifierait énormément le matériel, rendant la surveillance continue du cœur plus pratique et diffusible au quotidien.

Origine de l’étude et informations sur les auteurs

Cette étude a été réalisée par James Skoric, Yannick D’Mello et David V. Plant (Fellow IEEE), de l’École d’ingénierie électrique et informatique de l’Université McGill (Canada). L’article est publié dans le numéro de septembre 2025 du IEEE Journal of Biomedical and Health Informatics (Vol. 29, No. 9), l’une des revues internationales de référence en bio-informatique et technologies de la santé. Les expérimentations ont été réalisées à l’Université McGill, validées par le comité d’éthique local (numéro d’approbation : 21-06-035).

Déroulement de l’étude

1. Système expérimental et conception matérielle

Pour garantir la qualité de la captation VCG, les auteurs ont construit un système sur mesure. Le capteur principal est un IMU du commerce (MPU9250, InvenSense), capable de capturer l’accélération tri-axiale et la rotation tri-axiale (soit 6 canaux), fixé au niveau du processus xiphoïde grâce à un adhésif double-face. L’IMU échantillonne à 300 Hz, les données sont recueillies par un mini-ordinateur Raspberry Pi Zero et sauvegardées en fichier texte avant d’être transférées via Wi-Fi à l’ordinateur d’analyse. Les signaux de référence cibles (ECG, PPG, ICG, NIBP) sont collectés par un système Biopac MP160, assurant la synchronisation grâce à un signal d’horloge relayé du MP160 vers le Raspberry Pi, garantissant ainsi l’alignement temporel de toutes les modalités.

2. Participants et sujets de l’étude

L’étude a inclus au total 20 volontaires sains (16 hommes, 4 femmes), d’âge moyen 23 ans (écart-type 3,5 ans), taille moyenne 178 cm, poids moyen 76 kg. Aucun n’avait d’antécédent cardiovasculaire, hémodynamique ou respiratoire. Une partie des sujets a participé à une seconde session environ 43 jours plus tard, portant à 34 le nombre total de sessions et à 2686 minutes la durée cumulée d’enregistrement.

3. Procédure expérimentale et interventions

Le protocole expérimental couvre de nombreuses situations physiologiques dans le but d’observer l’évolution des signaux cardiaques, respiratoires et hémodynamiques. Les étapes sont les suivantes :

  1. Repos (Rest) : 7 minutes d’enregistrement.
  2. Apnée à haut volume pulmonaire : Apnée après inspiration maximale, 5 enregistrements de 2 minutes chacun par sujet.
  3. Apnée à bas volume pulmonaire : Apnée après expiration maximale, 5 enregistrements de 1 minute chacun.
  4. Respiration profonde chronométrée (Timed Deep Breathing) : Inspiration de 5 secondes, expiration de 5 secondes, répété pendant 5 minutes.
  5. Respiration profonde libre (Free Paced Deep Breathing) : Respiration profonde sans contrainte de temps pendant 5 minutes.
  6. Nouveau repos : 7 minutes supplémentaires.
  7. Test du cold pressor : main droite plongée dans de l’eau glacée (3°C) pendant 1 minute, enregistrement total de 5 minutes (1 min de repos, 1 min de stimulation froide, 3 min de récupération).
  8. Repos prolongé : 30 minutes (intervalle entre deux cold pressor tests).
  9. Second test du cold pressor.

Calibration du NIBP avant/après chaque intervention ; acquisition simultanée de tous les signaux ; sujets allongés et immobiles afin de limiter les artefacts de mouvement.

4. Prétraitement des données

Tous les signaux sont d’abord rééchantillonnés à 200 Hz pour les besoins de l’apprentissage et pour éliminer les fréquences inutiles. Un filtre passe-bande Butterworth d’ordre 3 (0,8-50 Hz, ou 0,8-8 Hz pour le PPG) atténue bruit et fluctuations. Découpage des signaux par fenêtre glissante de 512 échantillons (2,56 s), avec 50% de chevauchement par fenêtre. Les segments de NIBP non valides (réétalonnage automatique ou valeurs anormales) ont été exclus. Tous les segments valides ont ensuite été normalisés par z-score. Au total, 118772 segments efficaces ont servi à l’entraînement et l’évaluation du modèle de deep learning.

5. Architecture du modèle génératif et entraînement

Les auteurs ont adopté un réseau antagoniste génératif conditionnel (Conditional Generative Adversarial Network, cGAN), décliné en architecture Pix2Pix unidimensionnelle pour la génération simultanée de signaux multimodaux. Détail du modèle :

  • Générateur (Generator) : basé sur un U-Net (architecture encodeur-décodeur à connexions sautées), il prend en entrée six canaux VCG (512×6) et produit quatre canaux cibles (ECG, ICG, NIBP, PPG ; 512×4). L’encodeur comporte 8 blocs convolutionnels de tailles de filtres progressives (64-128-256-512-512-512-512-512), le décodeur utilise des convolutions transposées et skip connections pour réutiliser efficacement les informations à différentes profondeurs.
  • Discriminateur (Discriminator) : structure PatchGAN, qui évalue l’authenticité des signaux par patchs via 4 blocs convolutionnels.
  • Fonction de coût : combinaison entre la perte L1 (erreur absolue moyenne, reflétant structure/amplitude) et la perte adversarielle (Binary Cross Entropy). Entraînement via optimiseur Adam, taux d’apprentissage 2e-4, batch size 32, et 5 époques.

Le modèle apprend à générer simultanément toutes les modalités cibles et est évalué par validation croisée “leave-one-out” : 19 sujets pour l’entraînement, 1 pour le test (jamais vu lors de l’entraînement, sans calibration spécifique), reflétant la robustesse en usage pratique.

6. Méthodes d’évaluation du signal généré

La correspondance entre signaux générés et signaux de référence est évaluée par le coefficient de corrélation de Pearson ® et l’erreur absolue moyenne (MAE). Chaque fenêtre générée est comparée à la réalité, résultats agrégés par médiane pour chaque sujet et sur l’ensemble de la cohorte. Pour l’analyse des points fiduciaires (Fiducial Points) — P/Q/R/S/T sur ECG, B/C/X sur ICG, onsets et pics sur PPG & NIBP — des algorithmes automatiques (notamment Neurokit2) annotent ces points sur les signaux générés/réels. L’écart temporel (tolérance : 250 ms) permet de quantifier la précision du marquage.

L’influence de la longueur de fenêtre sur la performance du modèle a également été testée (512, 1024, 2048, 4096 points soit 2,56 à 20,48 secondes), pour vérifier la capacité du modèle à générer de longs signaux continus et évaluer son adaptabilité en situation réelle.

Principaux résultats

1. Qualité de la reconstruction multimodale

Le modèle présente d’excellentes performances pour tous les signaux cibles :

  • Médianes du coefficient de corrélation ® : ECG 0,808, NIBP 0,907, ICG 0,833, PPG 0,929
  • Médianes de l’erreur absolue moyenne (MAE) : ECG 0,309, NIBP 0,275, ICG 0,401, PPG 0,255

La variation de corrélation et d’erreur selon les interventions est faible : la précision reste élevée malgré les modifications de l’état physiologique. Les corrélations maximales sont observées au repos (physiologie stable), une légère baisse apparaît durant l’apnée et le cold pressor test (dû à la déformation des signaux). Le modèle suit fidèlement les transformations de morphologie et les réactions des points clés, révélant sa capacité à modéliser toute la dynamique physiologique.

Sur les exemples individuels, les signaux générés pour ECG, NIBP, PPG, ICG reproduisent la morphologie réelle. En présence de bruit sur le signal d’origine, l’estimation du modèle apparaît parfois plus régulière, suggérant une possible application au débruitage signal ultérieur.

2. Précision de détection des points fiduciaires

La détection des événements clés donne les résultats suivants :

  • MAE pour le pic R de l’ECG de seulement 6,66 ms, soit 1 à 2 échantillons d’écart avec la réalité à 200 Hz — extrême précision temporelle.
  • Les autres pics ECG (P/Q/S/T) présentent des MAE de 12 à 28 ms.
  • MAE pour le point C de l’ICG de 15,11 ms, B et X présentant plus de variabilité (ces points sont plus difficiles à annoter sur le plan algorithmique et physiologique).
  • Les pics PPG et NIBP ont des MAE de retard entre 17 et 39 ms, affectés par le bruit dû à la propagation du pouls vers les sites distaux.
  • Aucun biais systématique directionnel; la qualité de reconstruction des événements temporels est suffisante pour l’utilisation clinique (mesure des intervalles, LVET, PEP, PTT, etc).

3. Performance sur signaux longs (fenêtres étendues)

En testant sur des segments jusqu’à 20 s, la dégradation des performances est très modérée : corrélations et erreurs restent élevées (0,789 ECG, 0,891 NIBP, 0,810 ICG, 0,898 PPG), démontrant l’aptitude du modèle à générer de longues séquences, élément clé d’une surveillance portable en continu.

Conclusion et portée de l’étude

Cette recherche propose pour la première fois la reconstruction simultanée de multiples signaux cardiovasculaires à partir d’un unique capteur VCG et d’un générateur basé sur réseau antagoniste génératif profond. Elle démontre que le signal VCG recèle suffisamment d’informations multidimensionnelles pour permettre cette “translation multimodale”. Les apports majeurs sont :

  1. Matériel simplifié et praticité accrue : Remplacement des systèmes multi-capteurs traditionnels par une solution à point unique, réduisant encombrement, inconfort et risques de désynchronisation, améliorant la portabilité.
  2. Surveillance synchrone multi-signal : Grâce à la VCG, l’utilisateur recueille l’ensemble des signaux ECG, ICG, NIBP, PPG — tous compatibles avec l’analyse clinique classique.
  3. Excellente précision sur les points fiduciaires : Faibles erreurs sur les événements clés, rendant possible l’analyse des intervalles critiques et leur usage en diagnostic non invasif en continu.
  4. Forte capacité de généralisation : Tests croisés sur sujets non vus durant l’entraînement, performance peu influencée par âge, sexe ou morphologie — la solution est donc généralisable.
  5. Excellente gestion des signaux longs : Production fiable de séquences longues — atout pour la surveillance de longue durée en conditions réelles.
  6. Base technologique pour la santé connectée : Une étape vers le couplage avec des outils d’aide au diagnostic et l’application à la détection de pathologies ou à l’évaluation fonctionnelle du cœur.

Points forts et innovations technologiques

  • Première validation d’une génération quadri-modale synchrone à partir du seul signal VCG, franchissant le plafond des approches bi-modales précédentes.
  • Usage innovant d’un Pix2Pix multivoies unidimensionnel, permettant un traitement efficace et généralisant de multiples canaux.
  • Protocole expérimental et interventions physiologiques variées, garantissant la robustesse du modèle face à la diversité des états réels, nettement mieux qu’un entraînement sur signal unique “au repos”.
  • Évaluation automatique complète, intégrant détection automatique des points et métriques adaptées, pour répondre au standard d’exactitude clinique.
  • Socle pour le développement de dispositifs médicaux non invasifs, continus et multi-dimensionnels.

Autres informations pertinentes

Les auteurs notent que la normalisation des signaux, bien qu’optimisant l’apprentissage, limite la capacité du modèle à restituer les amplitudes absolues (donc la quantification précise de paramètres comme la saturation en oxygène nécessitera des ajustements/optimisations supplémentaires). Les signaux distaux (PPG, NIBP) sont plus sensibles au bruit, ce qui peut guider le choix des sites et des méthodes de fusion pour des applications futures. Certains algorithmes (par ex. détection du point B) restent perfectibles dans l’état de l’art et devraient être combinés pour une meilleure fiabilité.

Si les données ne sont pas publiques, le code est accessible sur Github (https://github.com/jamesskoric/vcg-generative-reconstruction), favorisant la reproductibilité et les travaux futurs.

Synthèse et perspectives

Cette étude constitue une avancée majeure dans la surveillance de santé connectée sur capteur unique et dans la génération profonde de signaux physiologiques. Elle révèle tout le potentiel multimodal du VCG et la capacité des modèles d’IA à l’exploiter. Les recherches futures pourront étendre la validation du modèle à des cohortes plus vastes, à des patients pathologiques, à des situations cliniques variées, et travailler plus avant sur la fidélité des amplitudes et la robustesse au bruit. L’innovation ne concerne pas que les algorithmes, mais touche également à la simplification du matériel, de l’expérience utilisateur, et même à la transformation des pratiques de diagnostic, ouvrant une nouvelle ère pour la gestion mondiale de la santé cardio-vasculaire.