AV-FOS : reconnaissance du style d’interaction multimodal audio-visuel basée sur transformeur pour les enfants autistes avec la version révisée du Family Observation Schedule 3ème édition (FOS-R-III)

I. Introduction de contexte : Les difficultés cliniques de la surveillance du comportement des enfants autistes et les perspectives technologiques

Le trouble du spectre autistique (TSA, Autism Spectrum Disorder, ASD, autisme) est un trouble neurodéveloppemental qui dure toute la vie. Ces dernières années, les taux d’autisme aux États-Unis ont augmenté rapidement : selon les données épidémiologiques actuelles, en moyenne, un enfant sur 36 est atteint d’autisme. L’autisme se manifeste principalement par des difficultés de communication et d’interaction sociale, des intérêts et activités restreints, ainsi que des comportements répétitifs et stéréotypés. Ces symptômes centraux affectent directement les activités quotidiennes et le fonctionnement social des enfants dans la famille, à l’école et dans la société. En outre, les « comportements difficiles » (Challenging Behaviors, CBs) liés à l’autisme, tels que l’automutilation, l’agressivité et les conduites perturbatrices, présentent une importance clinique majeure. Ces comportements aggravent non seulement les difficultés sociales des enfants, mais entraînent aussi des risques importants pour la santé, mettant parfois en danger la sécurité de l’enfant lui-même ou d’autrui.

Actuellement, la surveillance comportementale des enfants autistes repose principalement sur des évaluations cliniques réalisées par des professionnels lors d’observations périodiques dans des institutions médicales ou hospitalières. Toutefois, cette approche est coûteuse, exigeante en main-d’œuvre, présente des intervalles trop longs et ne permet pas une observation continue sur le long terme. Par ailleurs, le champ d’observation diagnostique en clinique est limité, ce qui rend difficile la capture précise des variations comportementales dans l’environnement familial réel et peut générer des divergences entre les diagnostics et les comportements réels. Ainsi, le développement d’outils automatisés et intelligents pour l’analyse comportementale constitue un enjeu urgent dans le domaine de l’autisme. Un système capable d’analyser automatiquement, en contexte familial réel, les interactions entre un enfant autiste et son aidant allégerait considérablement la charge des aidants et soutiendrait le diagnostic ainsi que les interventions.

Dans le domaine de l’évaluation comportementale de l’autisme, la FOS-R-III (Revised Family Observation Schedule, 3e édition) est un outil d’observation directe validé, utilisé pour suivre les interactions détaillées entre enfants autistes et parents dans différents contextes. Cet outil est largement adopté en clinique et en recherche, formant la base des analyses, des interventions et des stratégies de soutien pour les comportements difficiles (CBs) et les styles d’interaction. Cependant, le codage FOS-R-III se fait actuellement principalement de façon manuelle, ce qui est extrêmement laborieux et chronophage. La possibilité d’automatiser ce codage par des techniques d’intelligence artificielle telles que l’apprentissage profond représenterait une avancée révolutionnaire pour le domaine de l’autisme.

II. Origine de la publication et présentation des auteurs

L’article intitulé « AV-FOS: Transformer-based Audio-Visual Multimodal Interaction Style Recognition for Children with Autism Using the Revised Family Observation Schedule 3rd Edition (FOS-R-III) » a été publié dans l’IEEE Journal of Biomedical and Health Informatics (édition de septembre 2025). Les auteurs sont Zhenhao Zhao, Eunsun Chung, Kyong-Mee Chung et Chung Hyuk Park, affiliés respectivement à la George Washington University (Department of Biomedical Engineering) et à la Yonsei University (Department of Psychology). Cette équipe pluridisciplinaire allie expertise en ingénierie et en psychologie, offrant une base solide tant théorique que technologique à ce projet. L’étude a été financée par la National Science Foundation (NSF, États-Unis), dans le cadre d’un programme sur « l’interaction et l’intervention humain-robot à long terme ».

III. Détail du processus de recherche

Cette étude propose une démarche originale et innovante dans le domaine de l’autisme, visant à construire un système automatique et intelligent de reconnaissance comportementale, à encoder les données selon la grille FOS-R-III et à résoudre divers obstacles de l’analyse clinique. Le processus comprend les étapes principales suivantes :

1. Développement et constitution du jeu de données

Collecte des données :

L’équipe a rassemblé 216 vidéos au domicile de 83 participants, soit un total d’environ 25 heures, chaque segment durant 5 à 15 minutes, filmés dans l’environnement familial naturel à l’aide de caméras portatives, simulant une dynamique domestique complexe et authentique. L’âge moyen des enfants est de 9,72 ans avec un ratio garçon/fille d’environ 7:3 ; tous les enfants autistes ont été diagnostiqués par des cliniciens agréés, et les enfants non diagnostiqués formellement ont été inclus s’ils dépassaient le seuil SCQ (Social Communication Questionnaire).

Design des tâches et évaluation comportementale :

Les enfants ont réalisé trois types de tâches : jeu avec des jouets spécifiques, exécution de séquences d’instructions (quatre versions), et jeu libre, permettant d’évaluer diverses compétences cognitives, motrices et sociales. Les comportements observés ont été évalués selon une « liste de contrôle des comportements problématiques » (Problem Behavior Checklist), couvrant 14 catégories types (automutilation, agressivité, gestes répétitifs, non obéissance, troubles alimentaires, hyperactivité, etc.), notées sur une échelle de Likert à 5 niveaux. Le score moyen de l’échantillon est de 33, indiquant des troubles comportementaux d’intensité modérée.

Annotation des données :

Toutes les vidéos ont été annotées manuellement par 5 étudiants chercheurs en psychologie, supervisés par un psychologue certifié et un BCBA, à l’aide de la grille FOS-R-III pour consigner tous les 10 secondes 23 styles d’interaction (Interaction Styles, IS), couvrant comportements de l’enfant et du parent (par exemple : éloge/praise, affection, non-obéissance, etc.). Les annotations distinguent également la tonalité émotionnelle positive ou négative (ex : sa+ pour attention sociale positive, sa- pour négative). L’équipe a suivi un protocole strict, incluant 20h de formation des annotateurs et la vérification croisée sur 30% de l’échantillon, atteignant 90% de taux d’accord inter-juges, nettement supérieur aux standards (80%), fournissant une base fiable pour l’entraînement des modèles IA.

2. Prétraitement et extraction des caractéristiques

Traitement vidéo :

Chaque vidéo a été découpée en segments de 10 secondes pour faciliter le codage. Trois stratégies de sampling visuel ont été employées : a) attention spatiale de la frame centrale (Middle Frame Spatial Attention), où l’image centrale est découpée en 196 patches ; b) attention inter-trames (Cross-frame Attention), où le segment est divisé en quatre périodes dont chaque frame clé apporte 49 patches, pour un total de 196 ; c) attention des frames moyennes (Averaged Key Frame Attention), avec moyenne pixelisée sur les trois frames (début, milieu, fin) et découpage en 196 patches. L’approche c) a donné les meilleurs résultats grâce à un équilibre entre informations spatiales et temporelles.

Traitement audio :

Les signaux audio ont été normalisés (centrage, amplitude uniforme), conserver le taux d’échantillonnage original de 16 000 Hz. Extraction des caractéristiques avec le filtre Mel (Mel-filter bank), fenêtre de 25 ms, pas de 10 ms, aboutissant à 128 dimensions de spectre log Mel, unifiant la durée à 1024 frames par padding ou découpage. Les caractéristiques audio sont finalement segmentées en 512 patches de 16×16, adaptées à l’entrée du modèle.

3. Conception de l’architecture du modèle

Encodeur et décodeur transformer :

La structure centrale repose sur les transformers fusionnant les modalités visuelles et audio. Les données sont tokenisées, projetées via des couches linéaires dans un espace de dimension 768, associées à des embeddings de position et de modalité par codage sin-cos 2D. L’encodeur traite les tokens non masqués, le décodeur prend en charge tous les tokens (masqués et non masqués) pour la reconstruction et l’extraction des représentations profondes.

Pré-entraînement auto-supervisé :

Le modèle utilise une stratégie de pré-entraînement innovante basée sur CAV-MAE (Contrastive Audio-Visual Masked Autoencoder), intégrant une fonction de perte avec composante de contraste (Contrastive Loss) et reconstruction (Reconstruction Loss) pour lier les modalités et contextualiser l’information. 75% des patches sont masqués, l’information est traitée et reconstruite via les encodeurs et décodeurs entraînés. La perte contrastive rapproche les représentations audio/visuelles du même contexte et éloigne celles de contextes différents. La perte de reconstruction pousse le modèle à capturer les liens latents des données, maximisant l’efficience sur données non annotées.

Apprentissage supervisé pour l’encodage FOS-R-III :

La structure pré-entraînée est simplifiée, les composants redondants retirés, et une tête de classification multiclasse spécifique à la FOS-R-III (13 styles d’interaction) ajoutée. La couche de décision utilise le pooling moyen des tokens, puis un MLP donne la prédiction de probabilité pour chaque style, l’occurrence étant déterminée par un seuil. L’entraînement utilise une perte d’entropie croisée binaire (Binary Cross Entropy) pour optimiser la précision.

Modèles de référence et de comparaison :

Le modèle de base est GPT-4V (dernier modèle multimodal d’OpenAI) avec Prompt Engineering. Modèles comparatifs : Slowfast Networks (modèle CNN pour vidéo, pré-entraîné sur Kinetics-400), Vision Transformer (ViT, pré-entraîné sur ImageNet-21k), tous ajustés sur le jeu de données interne de l’étude.

4. Design expérimental et évaluation

L’entraînement et l’inférence des modèles ont été réalisés sur un serveur équipé de 4 GPU NVIDIA A5000, configuration adaptée à une mise en œuvre clinique. La segmentation du jeu de données se fait par participant pour garantir la généralisation du modèle. Les métriques d’évaluation sont : précision multi-label (Accuracy), score F1, précision stricte (Strict Accuracy), AUC, précision moyenne (MAP), offrant une vue complète de la performance et la gestion des déséquilibres de classes. Les sorties GPT-4V sont traitées pour standardiser le format des réponses.

IV. Résultats principaux

1. Performance leader dans le domaine

Le modèle AV-FOS (transformer multimodal audio-visuel) surpasse de façon significative le modèle de référence GPT-4V avec prompt et les modèles comparatifs classiques (Slowfast, ViT), sur tous les indicateurs. En évaluation sur des exemples inconnus, la précision dépasse les 85%, dépassant le seuil d’accord inter-juges de 80% (tout en restant légèrement inférieur au 90% d’accord des annotations humaines propres à cette étude). Sur un jeu de données fortement déséquilibré, AV-FOS obtient 0,88 en AUC, 0,67 en MAP et 0,59 en F1, nettement supérieur à la concurrence, démontrant une haute robustesse sur petits volumes et classes minoritaires. Temps d’inférence : AV-FOS détecte le comportement sur une vidéo de 10s en 0,0018 seconde, quasi instantané et nettement supérieur à GPT-4V qui souffre de restrictions matérielles.

2. Analyse des performances par classe et des erreurs

Au niveau de la reconnaissance des différents styles d’interaction, AV-FOS excelle, notamment sur les comportements nécessitant la modalité audio (instructions vagues, instructions spécifiques positives…), captant les subtilités complexes visées en clinique. Les modèles basés uniquement sur la vision parviennent via des indices visuels (mouvements de lèvres, tête) à prédire certains comportements audio, mais la fusion multimodale du modèle proposé reste supérieure. La reconnaissance des classes minoritaires (plaintes, affection du parent, non-obéissance) reste difficile à cause du faible nombre d’exemples, conduisant à des prédictions prudentes, mais AV-FOS garde un avantage clair sur ce point. Un test de Wilcoxon confirme la significativité statistique des différences observées.

3. Avantage de la fusion multimodale et études ablatives

Les études d’ablation montrent que le modèle audio seul (A-FOS) est meilleur que le modèle vidéo seul (V-FOS), particulièrement sur les comportements relatifs aux instructions et à la socialisation, mais que la fusion audio-vidéo permet encore d’augmenter la performance. Supprimer le pré-entraînement CAV-MAE réduit la précision générale de seulement 2%, mais fait chuter F1 et MAP de façon plus marquée, soulignant la valeur ajoutée de l’auto-supervision pour les données déséquilibrées. L’analyse de la stratégie de sampling visuel pointe l’approche “Averaged Key Frame Attention” comme optimale pour concilier informations spatiales et temporelles avec une efficience computationnelle propice aux applications cliniques.

4. Visualisation de l’inférence et interprétabilité du modèle

La cartographie de l’attention (Attention Map) révèle quatre zones d’interaction : “vision vers vision”, “vision vers audio”, “audio vers vision”, “audio vers audio”, illustrant la capacité du modèle à croiser et intégrer les informations pour une inférence multimodale robuste. Cette interprétabilité est une avancée majeure, ouvrant la voie à une utilisation médicale où les experts peuvent comprendre le raisonnement de l’IA.

V. Conclusion et valeur de la recherche

Cet article propose avec innovation un jeu de données basé sur les échelles FOS-R-III et un modèle de codage automatique AV-FOS, apportant des solutions efficaces aux difficultés majeures du domaine : évaluation comportementale, fardeau de l’annotation humaine, rareté des données cliniques, et faible interprétabilité des IA. Le modèle, basé sur la fusion audio-visuelle, peut être généralisé à des contextes cliniques réels, offrant une valeur pratique dans le diagnostic, l’évaluation des risques et le soutien à l’intervention.

Sur le plan scientifique, l’étude déclenche des avancées dans l’IA appliquée à l’analyse du comportement médical : auto-supervision, mécaniques d’attention inter-modalités, ingénierie de caractéristiques spécifiques à la médecine - tous à la pointe mondiale. Sur le plan applicatif, les résultats pourraient être déployés dans les hôpitaux et centres de réhabilitation, améliorant l’efficacité du diagnostic tout en baissant les coûts et en procurant un soutien plus personnalisé et opportun aux familles affectées par l’autisme.

VI. Points forts et principaux apports

  1. Données cliniques originales : Collecte et annotation selon des normes éthiques et professionnelles strictes, soutenant l’entraînement d’IA de haute qualité.
  2. Nouveau modèle profond audio-visuel multimodal : Première application codant automatiquement selon la grille FOS-R-III, optimisée par un double stade auto-supervisé/supervisé, rehaussant la précision de la reconnaissance comportementale clinique.
  3. Gestion des classes minoritaires et des petits échantillons : Grâce au pré-entraînement universel et à l’ingénierie de caractéristiques médicale, performances leader sur les catégories rares.
  4. Performance de rapidité de l’inférence : Ultra-rapide, parfaitement adapté aux besoins urgents du diagnostic clinique.
  5. Interprétabilité et transparence du modèle : Visualisation des mécanismes d’attention, facilitant l’acceptation et la compréhension par les experts médicaux.

VII. Informations complémentaires et perspectives

Le jeu de données et les algorithmes proposés sont ouverts à la communauté académique internationale pour promouvoir la standardisation de l’analyse comportementale automatisée dans l’autisme. La publication respecte les standards IEEE et les principes éthiques, avec une protection rigoureuse de la vie privée des participants.

Avec une collecte de données et une évolution constantes de l’équipe, le système gagnera encore en capacité de reconnaissance des comportements minoritaires et en généralisation applicative ; il devrait s’étendre à la détection et au traitement des troubles autistiques et émotionnels. L’avenir de la fusion IA-médecine se dessine et se réalise peu à peu au travers de telles initiatives innovantes.