Inférer les réseaux de régulation génique à partir de données de séquençage d'ARN monocellulaire en série temporelle via des autoencodeurs récurrents causaux de Granger
1. Contexte académique et motivation de la recherche
Ces dernières années, le séquençage de l’ARN à cellule unique (single-cell RNA sequencing, scRNA-seq) est devenu l’une des technologies les plus disruptives dans le domaine de la recherche scientifique et médicale, permettant aux chercheurs de capturer au niveau d’une cellule unique les subtiles différences de transcription entre une multitude de cellules. Cette technologie a considérablement enrichi la biologie cellulaire et revêt une grande importance pour la compréhension de la différenciation cellulaire, du développement et des mécanismes pathogènes. Sur la base des données scRNA-seq, l’inférence de réseaux de régulation génique (gene regulatory networks, GRNs), révélant ainsi la complexité des relations de régulation entre facteurs de transcription et gènes cibles, constitue l’un des enjeux clés actuels de la bioinformatique et de la biologie systémique.
Cependant, les données scRNA-seq présentent intrinsèquement un bruit élevé, une forte parcimonie (sparsity) et des « événements de dropout », ce qui pose d’énormes défis pour l’analyse des données. En particulier, l’analyse de données scRNA-seq en séries temporelles (time-series scRNA-seq data) fait face, en plus de ces carences, à la complexité de la dynamique temporelle, ce qui rend la modélisation et l’inférence encore plus difficiles. La plupart des méthodes traditionnelles d’inférence de GRN sont conçues pour des données statiques et restent limitées pour modéliser les données temporelles. Les principaux défis actuels sont : comment intégrer efficacement l’information temporelle afin de capturer les régulations dynamiques, comment renforcer la robustesse face au bruit et à la parcimonie, et comment réduire les faux positifs induits par les analyses de simple corrélation.
Ainsi, afin de résoudre ces difficultés scientifiques et techniques et de promouvoir l’avancée de la recherche biologique et de l’étude des mécanismes pathogènes, il devient nécessaire de développer de nouvelles méthodes d’inférence de GRN, plus efficaces et plus robustes.
2. Source de l’article et auteurs
L’article intitulé « Inferring gene regulatory networks from time-series scRNA-seq data via granger causal recurrent autoencoders » a été publié dans le volume 26, numéro 2 du journal Briefings in Bioinformatics en 2025 (DOI : https://doi.org/10.1093/bib/bbaf089).
Les auteurs incluent Liang Chen, Madison Dautle, Ruoying Gao, Shaoqiang Zhang (auteur correspondant) et Yong Chen (auteur correspondant), issus respectivement de la Faculté d’informatique et d’ingénierie de l’information de l’Université normale de Tianjin (Chine) et du Département de sciences biologiques et biomédicales de la Rowan University (États-Unis). Cette équipe pluridisciplinaire, réunissant informatique, ingénierie de l’information et biomédecine, possède une solide expérience dans le domaine de l’omics unicellulaire et du développement algorithmique.
3. Détails du déroulement de la recherche
Cet article présente une recherche méthodologique originale (original research), dont la contribution essentielle est la proposition d’une méthode non supervisée inédite, baptisée « Granger », combinant apprentissage profond et inférence causale, capable d’inférer efficacement et automatiquement la structure des GRN à partir de données scRNA-seq temporelles. Voici une présentation détaillée de la conception et du déroulement expérimental.
1. Architecture générale de la méthode
La méthode Granger s’appuie sur un apprentissage profond non supervisé en combinant la causalité de Granger avec un autoencodeur variationnel récurrent (recurrent variational autoencoder, VAE). Elle intègre plusieurs techniques de pointe : VAE récursif, détection de causalité de Granger, pénalisation de la parcimonie ajustable, fonction de perte basée sur la loi binomiale négative (negative binomial loss), spécifiquement adaptées au niveau élevé de bruit et de sparsité des données temporelles scRNA-seq.
Vue d’ensemble du procédé technique :
- Prétraitement des données et inférence de pseudo-temps
Utilisation de Scanpy pour effectuer la filtration de qualité, la normalisation, la transformation logarithmique et la sélection des gènes hautement variables. En l’absence d’informations temporelles, l’algorithme PAGA (Partition-based graph abstraction) est employé pour ordonner automatiquement les cellules en pseudo-temps, en fournissant l’entrée au modèle temporel. - Génération des séries temporelles
Pour m gènes, la série d’expression de chaque gène g à travers toutes les cellules, basée sur l’ordre du pseudo-temps, est notée $x_g = (x_g^1, x_g^2,…,x_g^t)$, avec t le nombre de points temporels. - Architecture principale : VAE récursif intégré à la causalité Granger
Le modèle comprend un encodeur et un décodeur multi-tête. L’encodeur réduit la série temporelle multivariée en un espace latent de dimension inférieure ; chaque tête du décodeur reconstitue la série d’un gène spécifique. Des réseaux neuronaux récurrents (RNN), plus précisément des unités GRU, sont employés à la fois pour l’encodeur et chaque tête du décodeur. L’objectif central du modèle est d’inférer pour chaque paire de gènes l’existence ou non d’une régulation causale (matrice d’adjacence $A$), représentant un graphe orienté de causalité Granger. - Innovation dans la conception de la fonction de perte
Utilisation de la loi binomiale négative pour modéliser l’expression scRNA-seq, en complément de l’erreur de reconstruction et de la divergence KL. Ajout d’une pénalisation L1 pour forcer la parcimonie du réseau prédit. L’optimisation implique à la fois la différentiabilité et des mécanismes non différentiables, limitant ainsi le surapprentissage. - Optimisation du modèle et stratégie d’entraînement
Première étape : entraînement hybride PGD (Proximal Gradient Descent) + SGD (Stochastic Gradient Descent) pour optimiser les poids de la GRU et les paramètres des couches d’entrée ; deuxième étape : après identification de la solution parcimonieuse, poursuite du réglage par SGD. L’implémentation se fait sous PyTorch avec support GPU.
2. Jeux de données et système d’évaluation
L’équipe a utilisé plusieurs ensembles de données et mis en place un protocole d’évaluation rigoureux :
- Données synthétiques
Utilisation de 6 jeux de données synthétiques du cadre beeline, couvrant des topologies linéaires, cycliques, bifurquées et convergentes, avec différentes tailles d’échantillons (de 100 à 5000 cellules), simulant le processus de différenciation développementale.
- Jeux de données réels ou prétraités
4 jeux de données biologiques réelles, sur cellules souches embryonnaires humaines, cellules dendritiques murines, hépatocytes humains, etc., incluant des versions avec 50 % et 70 % de données de dropout.
- Étude de cas réelle
Sélection de données du cerveau de souris issues de l’Atlas Allen, ciblant 1055 neurones excitateurs hippocampiques et centrées sur 5 TFs majeurs (E2F7, GBX1, SOX10, PROX1, ONECUT2) pour l’inférence pratique des GRN.
- Comparaisons méthodologiques
Comparaison systématique avec 8 outils de référence en inférence non supervisée de GRN : GRNBoost2, SINCERITIES, PIDC, PPCOR, SCODE, GENIE3, SINGE et NORMI, couvrant divers cadres techniques (corrélation, information mutualisée, régression, causalité…).
Les indicateurs d’évaluation comprennent : AUPRC (aire sous la courbe Precision-Recall), AUROC (aire sous la courbe ROC), AUPRC Ratio et Early Precision Ratio (EPR), afin de traiter à la fois le déséquilibre des classes et la précocité des prédictions.
3. Expérimentations et résultats principaux
(1) Conception de la fonction de perte et optimisation des hyperparamètres
Les effets de la perte binomiale négative $\lambda_{NB}$, la pénalisation de parcimonie $\lambdaa$ et le paramètre de lag $l$ sur la performance ont été testés. Les résultats démontrent : - L’ajout d’une perte binomiale négative adéquate ($\lambda{NB}=1$) améliore significativement AUPRC et AUROC, surtout dans les scénarios à fort dropout ; - Le meilleur intervalle pour le paramètre de parcimonie se situe entre 0.2 et 0.4, évitant que le graphe soit trop parcimonieux ou non convergent ; - La longueur de la fenêtre temporelle dépend de la taille de l’échantillon, l’optimum se situant autour de l=200-300 (pour les moyens et grands jeux) ; - L’emploi de GRU à deux couches surpasse nettement la version monolayer, permettant de mieux capturer la dynamique non linéaire complexe.
(2) Importance de l’algorithme de pseudo-temps
Comparaison de trois algorithmes majeurs de pseudo-temps : SLINGSHOT, PAGA et SCORPIUS montre que PAGA et SLINGSHOT permettent d’améliorer considérablement la précision, tandis que l’ordre de pseudo-temps aléatoire dégrade nettement la performance. Ceci prouve que la qualité du pseudo-temps est cruciale pour l’inférence dynamique.
(3) Résultats comparés aux méthodes de référence
Sur tous les jeux synthétiques et réels, Granger obtient la meilleure ou la seconde meilleure performance AUPRC/AUROC. L’avantage est particulièrement marqué sur petits ensembles ou en situation de dropout élevé (50 %, 70 %) où les méthodes concurrentes échouent souvent. Sur des jeux réels tels que les cellules souches embryonnaires humaines, les valeurs de AUPRC Ratio et EPR dépassent nettement la concurrence. Le modèle est ainsi performant et robuste, tout particulièrement en conditions bruitées.
(4) Application aux cellules du cerveau murin et découvertes biologiques
L’approche a permis de prédire avec succès la cible de 5 facteurs de transcription chez des neurones excitateurs de souris, révélant une enrichissement des gènes dans le développement du système nerveux, le signalement cellule-cellule, la sécrétion de facteurs de croissance, etc. La majorité des relations de régulation inférées sont corroborées par la littérature et des données ChIP-seq (exemple: PROX1 sur le promoteur de LIMD1, colocalisant avec des marques de chromatine), et le réseau montre une forte connnectivité multifactorielle. Certaines régulations inférées ne sont pas détectables par la simple co-expression, ce qui illustre la capacité du modèle à capter des motifs implicites de régulation, offrant des bases solides pour des validations expérimentales ultérieures et l’exploration des maladies.
4. Conclusions et portée
Cet article propose et valide un nouveau cadre algorithmique qui fusionne inférence causale et deep learning, baptisé Granger, capable d’inférer de façon robuste, efficace et automatique les réseaux dirigés de régulation génique à partir de données scRNA-seq temporelles. La signification scientifique se situe à plusieurs niveaux : - Innovation méthodologique : modélisation causale des systèmes transcriptionnels dynamiques, comblant les insuffisances des approches de corrélation, et offrant une interprétabilité accrue ; - Avancées techniques : résolution efficace du problème d’instabilité et des faux positifs sous bruit/sparsity, illustrant un nouveau paradigme pour la modélisation de données dynamiques et parcimonieuses ; - Applicabilité large : méthode non supervisée, indépendante de labels ou de connaissances a priori sur les TF-gènes, applicable à des espèces/organes inédits, élargissant sensiblement le champ des études GRN ; - Intérêt biologique : découverte à la fois des régulations connues et inédites, détection de réseaux de co-régulation, ouvrant de nouvelles voies pour l’identification de cibles pathologiques ou l’étude du destin cellulaire.
5. Points forts de la recherche
- Première intégration de la causalité Granger et des autoencodeurs récurrents, capturant ainsi la régulation dynamique guidée par le temps ;
- Double optimisation innovante par la loi binomiale négative et la pénalisation L1, permettant de réduire sensiblement les prédictions erronées sous fort dropout et bruit ;
- Performances supérieures à tous les benchmarks de référence, alliant précision et robustesse ;
- Validité expérimentale confirmée par la littérature et ChIP-seq sur données réelles, assurant une forte capacité d’interprétation biologique.
6. Informations complémentaires
Les auteurs déclarent que le code est accessible en open source (https://github.com/shaoqiangzhang/granger), et que les jeux de données sont publics et traçables. L’article discute en détail de perspectives telles que l’intégration future de mesures causales non linéaires, de mécanismes d’attention ainsi que de données multiomiques, fournissant de riches fondements théoriques et méthodologiques pour les travaux ultérieurs.
7. Résumé
Cette recherche introduit une méthodologie novatrice pour l’inférence de réseaux de régulation génique, accélérant la progression vers des analyses de dynamique unicellulaire intelligentes et automatisées. La méthode Granger répond non seulement aux besoins concrets liés à la sparsité des données et à la modélisation dynamique, mais fournit aussi un outil décisif pour l’étude des mécanismes pathologiques, du destin cellulaire et pour la biologie systémique, jetant ainsi des bases solides tant pour la recherche fondamentale qu’appliquée dans ce domaine.