MASA-TCN : Réseaux de neurones convolutifs temporels multi-ancrages et sensibles à l'espace pour la reconnaissance des émotions EEG continues et discrètes
Une avancée dans la reconnaissance des émotions EEG : présentation et analyse expérimentale du modèle unifié MASA-TCN
Contexte académique et motivation de recherche
La reconnaissance des émotions humaines est un sujet central dans les domaines des neurosciences, de l’intelligence artificielle et de l’interaction homme-machine. L’identification automatique des états émotionnels permet de servir la gestion de la santé mentale, les systèmes d’assistance intelligente et une interaction homme-machine plus naturelle, offrant un soutien et un suivi efficace aux personnes atteintes de troubles psychiques tels que la dépression, l’anxiété et les troubles du spectre autistique. Cependant, le développement des technologies de reconnaissance des émotions s’est principalement concentré sur les signaux comportementaux externes, tels que la voix ou les expressions faciales, qui bien que faciles à collecter, peuvent être volontairement masqués ou contrôlés par les participants, rendant difficile la capture précise de l’état émotionnel authentique du cerveau.
En comparaison, l’électroencéphalogramme (EEG), en tant qu’outil d’imagerie cérébrale non invasif, à faible coût et à haute résolution temporelle, permet de refléter directement l’activité neuronale émotionnelle intrinsèque du cerveau, offrant ainsi un avantage unique dans le domaine de la reconnaissance des émotions. Les tâches basées sur l’EEG se divisent essentiellement en deux catégories : la classification des états émotionnels discrets (Discrete Emotion Classification, DEC) et la régression continue des états émotionnels (Continuous Emotion Regression, CER). La première attribue une étiquette de classe à chaque échantillon, tandis que la seconde vise une prédiction temporelle continue de l’émotion, épousant mieux la dynamique réelle des émotions. Pourtant, malgré la richesse des travaux sur la DEC, la recherche sur la CER, surtout avec des signaux EEG, reste très limitée, tant en méthodes qu’en bases de données.
Face à ce constat, les auteurs de cet article cherchent à résoudre deux questions clés : (1) comment améliorer les résultats des tâches de régression continue d’émotion basées sur l’EEG, en particulier lorsque les méthodes existantes ne parviennent pas à apprendre efficacement les caractéristiques spatiales des signaux EEG ; (2) est-il possible de proposer un modèle unifié, capable d’exploiter simultanément les caractéristiques spatiales, spectrales et temporelles, et applicable à la fois à la CER et la DEC, afin de réaliser une reconnaissance des émotions « tout-en-un » ?
Source de l’article et informations sur les auteurs
Cet article intitulé « MASA-TCN: Multi-Anchor Space-Aware Temporal Convolutional Neural Networks for Continuous and Discrete EEG Emotion Recognition » est publié dans l’IEEE Journal of Biomedical and Health Informatics (Volume 28, numéro 7, juillet 2024). Les auteurs Yi Ding, Su Zhang, Chuangao Tang et Cuntai Guan sont tous des spécialistes reconnus du signal EEG et des interfaces cerveau-machine. Ils sont affiliés à la Nanyang Technological University (Singapour) et au Nanjing Institute of Technology (Chine). Cette recherche a bénéficié du soutien de l’Agence de Science, Technologie et Recherche (A*STAR) à Singapour et des fonds correspondants.
Conception de l’étude et description technique
Cet article propose une approche algorithmique originale en introduisant le MASA-TCN (Multi-Anchor Space-Aware Temporal Convolutional Neural Networks, réseau neuronal convolutif temporel à espace conscient multi-ancres) pour résoudre systématiquement les problèmes d’apprentissage des caractéristiques spatiales et de fusion des tâches dans la reconnaissance des émotions EEG. Voici le détail du flux technique :
1. Définition des tâches et mode d’annotation des données
- Tâche CER : chaque essai EEG est segmenté en fenêtres temporelles courtes, les étiquettes étant des valeurs continues fluctuantes au cours du temps (exemple : le score de valence), synchronisées avec le signal EEG via des fenêtres glissantes.
- Tâche DEC : chaque essai EEG reçoit une étiquette de classe discrète, toutes les sous-parties d’un même essai partagent la même étiquette.
2. Conception de l’architecture du réseau
Le MASA-TCN est composé de quatre grands modules :
(1) Bloc d’extraction des caractéristiques (Feature Extraction Block) - Après prétraitement, pour chaque sous-segment EEG, on calcule la densité spectrale de puissance relative (Relative Power Spectral Density, rPSD) sur 6⁄5 bandes fréquentielles, créant des vecteurs d’entrée de 192⁄160 dimensions selon le nombre de channels et les bandes du jeu de données.
(2) Couche convolutive temporelle à espace conscient (Space-Aware Temporal Layer, SAT) - Première innovation : comprend deux types de kernels convolutifs : a) les kernels de contexte (Context Kernel) extrayant les caractéristiques spectrales par canal ; b) les kernels de fusion spatiale (Spatial Fusion Kernel) apprenant les modèles spatiaux entre canaux. Par le réglage des strides et des taux de dilation, la convolution temporelle causale augmente le champ réceptif et améliore le pouvoir discriminant, évitant la redondance due au chevauchement des fenêtres.
(3) Bloc de fusion attentive multi-ancres (Multi-Anchor Attentive Fusion Block, MAAF) - Deuxième innovation : trois SATs parallèles avec des longueurs de kernel temporel différentes (3, 5, 15) pour capturer la dynamique émotionnelle à différentes échelles. Les trois sorties sont concaténées puis fusionnées via une convolution 1×1, réalisant une « fusion attentive » pour pondérer dynamiquement les contributions multi-échelles et renforcer la robustesse du modèle.
(4) Bloc de réseau convolutif temporel (Temporal Convolutional Network Block, TCN) - Plusieurs couches convolutionnelles causales sont empilées, incorporant des connexions résiduelles et la normalisation pour apprendre des caractéristiques temporelles de plus haut niveau. La profondeur et la largeur (nombre de kernels) contrôlent la taille du champ réceptif temporel.
(5) Module de sortie régression/classification - Pour la CER, un régressseur linéaire prédit la valeur émotionnelle à chaque instant ; pour la DEC, une moyenne des sorties de chaque sous-segment donne l’étiquette globale, permettant une transition de la régression à la classification.
3. Jeux de données et prétraitement
- MAHNOB-HCI: pour la CER, 30 sujets, 24 retenus pour 239 essais, EEG 32 canaux, fréquence d’échantillonnage 256Hz, étiquettes à 4Hz, annotées par des experts sur la valence.
- DEAP: pour la DEC, 32 sujets, 40 vidéos musicales d’1 min chacune avec scores subjectifs, EEG 32 canaux, 512Hz réduit à 128Hz. Les labels continus sur 9 niveaux sont binarisés en deux classes.
Le prétraitement inclut la suppression des périodes hors stimulus, filtrage passe-bande, référence moyenne, segmentation par fenêtre glissante et calcul des rPSD. Les traitements sont uniformisés pour permettre la comparaison.
4. Protocoles expérimentaux et d’évaluation
- Indicateurs CER : Erreur quadratique moyenne (RMSE), coefficient de corrélation de Pearson (PCC), coefficient de concordance (CCC), la perte est optimisée sur le CCC.
- Indicateurs DEC : Précision (Accuracy, ACC) et score F1, évalués par validation croisée 10-fold et tests par sujet indépendant.
- Les hyperparamètres et la stratégie d’entraînement sont parfaitement alignés entre tous les modèles pour une comparaison équitable.
Principaux résultats et analyse des données
1. Analyse des résultats pour la CER
Sur le jeu MAHNOB-HCI, MASA-TCN surpasse largement toutes les méthodes comparatives – RNN, LSTM, GRU, TCN, et les plus récentes. - Sur le set de test : RMSE réduit de 14,29%, PCC augmenté de 0,043, CCC augmenté de 0,046 (vs TCN). - Par rapport au meilleur existant [8], RMSE inférieur de 9,09%, PCC supérieur de 0,033, CCC supérieur de 0,04.
2. Études d’ablation et analyse du modèle
L’ajout successif de SAT puis MAAF améliore constamment les résultats CER. - SAT seul : baisse du RMSE, +0,022 PCC, +0,023 CCC. - Ajout du MAAF : RMSE descendu à 0,060, PCC à 0,507, CCC à 0,417.
3. Effet de la dilation initiale et du kernel
- Une dilation initiale de 2 dans le SAT donne les meilleures performances, élargissant efficacement le champ réceptif tout en limitant la redondance modèle.
- L’accroissement de la taille du kernel de 3 à 15 améliore le PCC et le CCC, soulignant l’importance du multi-échelle pour capturer la dynamique émotionnelle.
4. Effet de la profondeur et de la largeur du modèle
- Au-delà de 4 couches, la performance ne progresse plus et peut légèrement diminuer, tandis que l’élargissement à 64 kernels donne les meilleurs résultats. Un modèle trop large (128) devient plus difficile à entraîner et donne de moins bons résultats.
- Ceci illustre l’importance de l’équilibre entre l’apprentissage spatial et le champ réceptif temporel.
5. Stratégie de fusion et ordre de l’apprentissage spatial
- La fusion attentive surpasse la concaténation ou la moyenne simple, MASA-TCN s’impose nettement pour la gestion de la fusion des caractéristiques.
- L’apprentissage spatial « précoce » (dans SAT) est nettement plus efficace que « tardif » (après TCN), la différence de performance est notable et l’apprentissage tardif ne permet pas d’atteindre des résultats comparables.
6. Résultats sur la DEC et analyse de l’architecture du classificateur
MASA-TCN atteint aussi les meilleurs scores en précision et F1 sur la DEC du jeu DEAP (valence, arousal), surpassant SVM, DeepConvNet, EEGNet, TSception et les transformers MEET. L’intégration du mécanisme de fusion de moyenne renforce la robustesse et la généralisation.
Conclusion, valeur scientifique et portée applicative
MASA-TCN surmonte les obstacles de l’apprentissage spatial et du modèle unifié entre CER/DEC dans la reconnaissance d’émotions EEG, proposant une approche novatrice. Valeurs-clés scientifiques :
- Innovation méthodologique : convolution spatio-temporelle consciente et fusion attentive multi-ancres multi-échelles résolvent la complexité de l’apprentissage des caractéristiques EEG.
- Modèle unifié nouvelle génération : MASA-TCN gère régression continue et classification discrète, atténuant les difficultés due au manque de données ou à la désynchronisation des labels, ouvrant de nouvelles perspectives pour la généralisation et les applications concrètes.
- Excellente transférabilité expérimentale : nouveaux sommets sur deux bases publiques, code et protocole publiés pour garantir la reproductibilité.
- Portée scientifique et applicative forte : surveillance de la santé mentale, systèmes intelligents d’assistance, interaction homme-machine et calcul émotionnel promettent de vastes applications.
Points forts de la recherche et perspectives
Les points marquants de cette étude sont :
- Introduction d’un module SAT inédit pour l’apprentissage spatial et d’un mécanisme MAAF de fusion multi-ancres, comblant une lacune technique dans la reconnaissance d’émotions EEG.
- Fusion audacieuse de la structure du modèle et de la typologie des tâches, rendant possible la réutilisation croisée dans le domaine.
- Prise en charge de la régression émotionnelle continue haute performance, facilitant l’étude de la dynamique émotionnelle en neurosciences cognitives.
- Analyse approfondie des stratégies de fusion, du taux de dilation et de la largeur du modèle, fournissant une base scientifique à l’optimisation future des algorithmes.
- Mise à disposition de tout le code et protocole expérimental, favorisant la standardisation des données et des méthodes.
Cependant, la disponibilité des données pour la CER reste limitée et l’annotation fine des labels demande encore des efforts. L’explication du fait que l’apprentissage spatial précoce soit supérieur nécessite plus d’analyses théoriques et de méthodes d’IA explicables. La perte pourrait aussi intégrer plusieurs indicateurs pour améliorer la régression des extrêmes et des micro-dynamiques.
Résumé
Dans l’ensemble, ce travail constitue une avancée majeure en reconnaissance des émotions EEG. Le modèle MASA-TCN et sa validation expérimentale détaillée posent des bases méthodologiques solides pour la recherche en calcul émotionnel, neurosciences cognitives et santé mentale clinique. Cet article propose non seulement de nouvelles approches pour la modélisation spatiale-temporelle EEG, mais offre aussi des guides pratiques pour les applications industrielles et les développements algorithmiques futurs.