Cartographie de l'espace génique à une résolution unicellulaire avec l'analyse des modèles de signaux géniques

Cartographie de l’espace génique à résolution unicellulaire : étude sur l’analyse des motifs de signalisation génique (GSPA)

Contexte académique

La technologie de séquençage ARN unicellulaire (single-cell RNA sequencing, scRNA-seq) a fait des progrès significatifs ces dernières années dans la recherche biologique, notamment en révélant l’organisation de l’espace des états cellulaires (cellular state space). Cependant, bien que de nombreuses méthodes de calcul aient été développées pour cartographier l’espace des états cellulaires, les études sur la cartographie ou l’intégration (embedding) de l’espace génique (gene space) restent relativement rares. L’expression génique est hautement organisée, les gènes collaborant à travers des processus biologiques et des voies complexes. Néanmoins, en raison du bruit biologique et technique (comme le phénomène de perte de gènes “dropout”), la quantification précise des similitudes entre les gènes reste un défi. Pour cela, cet article propose une nouvelle méthode basée sur le traitement des signaux sur graphes (graph signal processing, GSP) — l’analyse des motifs de signalisation génique (Gene Signal Pattern Analysis, GSPA), visant à apprendre des représentations riches des gènes à partir de données unicellulaires et à soutenir diverses tâches biologiques.

Source de l’article

Cet article est rédigé conjointement par Aarthi Venkat, Sam Leone, Scott E. Youlten et d’autres auteurs, avec la participation de plusieurs institutions de recherche, dont Yale University et Boise State University. L’article a été publié en décembre 2024 dans la revue Nature Computational Science, sous le titre “Mapping the gene space at single-cell resolution with gene signal pattern analysis”, avec le DOI 10.1038/s43588-024-00734-0.

Processus et résultats de la recherche

1. Formulation du problème d’embedding génique

L’étude commence par poser le problème de l’embedding génique, à savoir que les motifs d’expression génique dans les données unicellulaires peuvent être considérés comme des signaux définis sur un graphe cellule-cellule (cell-cell graph). L’objectif est de construire une cartographie d’un espace génique de haute dimension à un espace d’embedding de basse dimension, préservant ainsi les distances entre les gènes (basées sur la structure géométrique du graphe cellule-cellule), tout en étant robuste au bruit et adaptable à des tâches en aval.

2. Aperçu du modèle GSPA

L’idée centrale de GSPA est de considérer les motifs d’expression génique comme des signaux sur un graphe cellule-cellule et d’utiliser des ondelettes de diffusion (diffusion wavelets) pour une décomposition multi-échelle. Les étapes spécifiques sont les suivantes : - Construction du graphe cellule-cellule : basé sur la similarité des profils d’expression génique entre les cellules, un graphe est construit, et un opérateur de diffusion (diffusion operator) est défini pour décrire les probabilités de transition entre les cellules. - Construction d’un dictionnaire d’ondelettes de diffusion : en utilisant les puissances de l’opérateur de diffusion, des ondelettes multi-échelles sont générées pour capturer les caractéristiques locales et globales des signaux géniques. - Décomposition et embedding des signaux géniques : chaque signal génique est projeté sur le dictionnaire d’ondelettes de diffusion pour obtenir sa représentation multi-échelle, et une réduction de dimension est effectuée via un autoencodeur (autoencoder) pour générer des embeddings géniques de basse dimension.

3. Résultats et validation expérimentale

L’étude valide l’efficacité de GSPA à travers des données simulées et des ensembles de données unicellulaires réels, notamment : - Capture de modules de co-expression génique : GSPA est capable de capturer avec précision les modules de co-expression génique et de préserver les similitudes entre les gènes. - Analyse de la localisation génique (localization) : La méthode de “localisation différentielle” (differential localization) proposée par GSPA permet d’identifier les gènes exprimés localement sur le graphe cellule-cellule, qui sont généralement liés aux changements d’état des cellules. - Applications en aval : GSPA démontre son utilité dans divers domaines, notamment l’analyse de la communication intercellulaire (GSPA-LR), la transcriptomique spatiale (GSPA-Multimodal) et la prédiction de la réponse des patients (GSPA-PT).

4. Études de cas spécifiques

  • Co-expression génique dans la différenciation des cellules T CD8+ : L’étude analyse les cellules T CD8+ dans des infections aiguës et chroniques, identifiant des modules géniques clés liés à la différenciation des cellules T et révélant le rôle unique de la signalisation des interférons dans les infections chroniques.
  • Analyse de la communication intercellulaire basée sur GSPA-LR : GSPA-LR permet d’identifier les motifs de signalisation des paires ligand-récepteur (ligand-receptor, LR) sans annotation du type cellulaire, révélant le rôle du récepteur immunosuppresseur PD-1 dans les événements indésirables liés à l’immunité.
  • Analyse de la transcriptomique spatiale basée sur GSPA-Multimodal : GSPA-Multimodal intègre l’expression génique et l’affinité spatiale, identifie les gènes variables spatialement (spatially variable genes) et révèle des réseaux de signalisation multicellulaires complexes dans les ganglions lymphatiques humains.
  • Prédiction de la réponse des patients basée sur GSPA-PT : GSPA-PT construit des vecteurs patients pour prédire avec précision la réponse des patients atteints de mélanome à l’immunothérapie et identifie les gènes clés liés à la fonction des cellules T.

Conclusion et importance

GSPA, en considérant l’expression génique comme un signal sur un graphe cellule-cellule et en combinant les ondelettes de diffusion avec des techniques d’apprentissage profond, offre une nouvelle méthode d’embedding génique. Elle permet non seulement de capturer les relations complexes entre les gènes, mais fournit également des outils d’analyse puissants pour diverses tâches biologiques, telles que la communication intercellulaire, la transcriptomique spatiale et la prédiction de la réponse des patients. Cette étude jette des bases importantes pour le domaine de la cartographie de l’espace génique et ouvre de nouvelles orientations pour la future analyse des données unicellulaires.

Points forts de la recherche

  • Méthode d’embedding génique innovante : GSPA applique pour la première fois le traitement des signaux sur graphes à l’analyse des données d’expression génique unicellulaire, proposant un cadre d’embedding basé sur les ondelettes de diffusion.
  • Représentation multi-échelle : En construisant un dictionnaire d’ondelettes de diffusion multi-échelles, GSPA capture à la fois les caractéristiques locales et globales des signaux géniques, améliorant la robustesse et l’interprétabilité de l’embedding.
  • Applications étendues en aval : GSPA peut non seulement être utilisé pour l’identification de modules géniques et l’analyse de la communication intercellulaire, mais s’étend également à la transcriptomique spatiale et à la prédiction de la réponse des patients, démontrant sa polyvalence.
  • Analyse sans annotation du type cellulaire : GSPA-LR permet d’identifier les motifs de signalisation des paires ligand-récepteur sans annotation du type cellulaire, offrant un outil plus flexible pour l’analyse de la communication intercellulaire.

Informations supplémentaires

L’étude a également publié le code de GSPA en open source, permettant à d’autres chercheurs d’appliquer et d’améliorer cette méthode. Le code est disponible sur GitHub. De plus, les résultats de validation sur plusieurs ensembles de données réels confirment davantage l’utilité et la fiabilité de GSPA dans la recherche biologique pratique.