Deep scSTAR : Exploiter l'apprentissage profond pour l'extraction et l'amélioration des caractéristiques associées au phénotype à partir du séquençage d'ARN unicellulaire et des données de transcriptomique spatiale

Ces dernières années, des technologies de pointe telles que le séquençage unicellulaire (single-cell RNA sequencing, scRNA-seq) et la transcriptomique spatiale (spatial transcriptomics, ST) ont profondément stimulé le développement des sciences de la vie et de la médecine clinique. Elles ont révélé l’hétérogénéité cellulaire et ont offert de nouvelles perspectives sur des domaines majeurs tels que les maladies, le développement et l’immunité. Cependant, les données unicellulaires à grande échelle souffrent de bruits techniques importants, d’effets de lot (batch effects) complexes et de signaux biologiques divers et bruités, faisant de “l’extraction et de l’amélioration précises des caractéristiques associées au phénotype” l’un des défis clés. Nombre de méthodes traditionnelles, même si elles sont centrées sur la réduction du bruit et l’intégration des données, risquent d’atténuer, voire de perdre, des signaux décisionnels phénotypiques cruciaux, limitant ainsi la compréhension approfondie des mécanismes pathologiques et des interactions cellulaires.

1. Contexte et importance de la recherche

L’identification de caractéristiques unicellulaires associées au phénotype est essentielle pour élucider la progression des maladies, la réponse immunitaire et la résistance tumorale, entre autres. Par exemple, dans l’immunothérapie du cancer et la médecine personnalisée, la capacité à identifier précisément les sous-populations cellulaires impliquées dans la dysfonction immunitaire ou la résistance est souvent déterminante pour le succès du traitement. Les outils de traitement ou d’intégration de données les plus répandus à ce jour (Harmony, scMerge, scMerge2, MNN, Seurat, Liger, etc.) visent principalement à la correction des lots et à la réduction du bruit technique, mais présentent des limites notables dans la préservation et l’amplification de “l’hétérogénéité biologique étroitement liée au phénotype pathologique”. Même les méthodes récentes comme « HIDDEN », qui diffusent les labels d’échantillons à l’échelle cellulaire et effectuent la prédiction de la réduction dimensionnelle, améliorent la distinction des types cellulaires pertinents, mais restent limitées face à des ensembles de données complexes à grande échelle.

Pour répondre à ce défi, l’équipe de cet article a développé, sur la base de leur méthode précédente scStar (centrée sur l’analyse PLS), un nouveau cadre basé sur l’intelligence artificielle profonde : « deep scStar (dscStar) ». dscStar intègre une réduction progressive du bruit et un modèle d’apprentissage supervisé multitâche, axé sur l’amplification et la révélation de signaux clés, étroitement liés au phénotype, cachés dans les données unicellulaires ou spatiales. Cette approche vise à faciliter la compréhension des mécanismes fondamentaux du microenvironnement tumoral et de la résistance aux traitements.

2. Source de l’article et contexte institutionnel des auteurs

Cet article, intitulé « Deep scStar: leveraging deep learning for the extraction and enhancement of phenotype-associated features from single-cell RNA sequencing and spatial transcriptomics data », a été publié en 2025 par Oxford University Press dans Briefings in Bioinformatics (Volume 26, Issue 3, bbaf160). Les auteurs, dont Lianchong Gao, Yujun Liu, Jiawei Zou, Fulan Deng, Zheqi Liu, Zhen Zhang, Xinran Zhao, Lei Chen, Henry H.Y. Tong, Yuan Ji, Huangying Le, Xin Zou et Jie Hao, appartiennent à des institutions chinoises de renom telles que le Centre de biomédecine systémique de l’université Jiaotong de Shanghai, l’Université Fudan, l’Hôpital de Zhongshan, l’Université polytechnique de Macao, et le Neuvième Hôpital populaire de Shanghai, entre autres. Cette composition illustre une collaboration interdisciplinaire et multicentrique, posant des bases scientifiques et des ressources robustes pour leurs travaux.

3. Analyse approfondie du design expérimental et du workflow

1. Aperçu du workflow

Le but central de dscStar est de préserver et amplifier, au sein de larges ensembles de données unicellulaires, les caractéristiques/sous-groupes cellulaires associés à un phénotype précis (tels que le sous-type clinique, la progression pathologique ou la réponse au traitement). Son flux de travail se divise en trois grandes étapes, éliminant progressivement le bruit non phénotypique et, à travers un modèle d’apprentissage profond, renforce les caractéristiques cibles :

Étape 1 : Reconnaissance des cellules inchangées (Unchanged Cell Recognition)

Par l’algorithme SCCURE, deux groupes de données (classés selon le statut pathologique, la stratégie thérapeutique ou des niveaux d’expression génique spécifiques) subissent un clustering par modèle de mélange gaussien (GMM), le nombre de clusters étant déterminé automatiquement ou manuellement. Le calcul de la divergence de Kullback-Leibler (KL) permet d’identifier des sous-populations « stables » n’affichant pas de variation significative d’expression selon le phénotype (unchanged cells). Ceci sert de “cellules ancrages” pour la correction des effets de lot et des variations non pertinentes.

Étape 2 : Réduction du bruit via PLS-DA (Noise Reduction with PLS-DA)

Sur les cellules inchangées, un modèle de discriminant PLS (PLS-DA) est construit pour supprimer le bruit aléatoire, les effets de lot et les signaux biologiques non pertinents, laissant l’information la plus étroitement liée au phénotype. Pour éviter la perte excessive de signaux subtils, cette étape peut être facultative selon les besoins de l’utilisateur.

Étape 3 : Apprentissage supervisé multitâche (Supervised Multi-task Learning)

Sur les données débruitées, un auto-encodeur profond (Denoising Autoencoder, DAE) encode la matrice d’expression dans un espace latent de basse dimension, puis un perceptron multicouche (MLP) relie ces caractéristiques à la discrimination des labels phénotypiques. L’ensemble combine trois termes de perte – reconstruction, classification et orthogonalité – pour, via le modèle multitâche (MTL), affiner davantage et amplifier les caractéristiques liées au phénotype.

2. Innovations algorithmiques et détails d’implémentation

a) Composants du modèle d’apprentissage profond et fonctions de perte

  • Encodeur et décodeur : constitués chacun de réseaux à plusieurs couches : 5120, 1024, 512 neurones (encodeur) ; 512, 1024, 5120 (décodeur), fonctions d’activation ELU, taux de dropout adaptés à chaque couche.
  • Injection de bruit binomial : pour améliorer la robustesse face au bruit technique.
  • Classifieur (MLP) : relie le vecteur latent de 512 dimensions au label binaire du phénotype.
  • Termes de perte : reconstruction (MSE), classification (MSE), orthogonalité (distance de Frobenius entre la matrice de Gram et l’identité), à pondération ajustable, pour favoriser la dés-corrélation et l’apprentissage discriminant.

b) Autres processus clés de traitement et d’évaluation des données

Standardisation, intégration des lots (Seurat-BBKNN/Harmony), sélection de gènes fortement variables, graphes de voisins, clustering, réduction de dimension (UMAP), enrichissement de jeux de gènes (GSVA), analyse pseudotemporelle (scTour), amplification spatiale des signaux (MCP-counter, RCTD, SpaceXR), analyse d’interactions moléculaires (CellChat, NicheNet), analyses de corrélation et de survie, et multiples métriques d’évaluation (ARI, ASW, F1-score), formant un système complet de validation quantitative.

4. Résultats principaux et découvertes scientifiques

L’article procède à des validations et découvertes sur plusieurs conditions types et des ensembles de données complexes.

1. Évaluation sur jeux de données simulés

Sur des données simulées très contrôlées (nombre de clusters variés, intensité fold change, forte diversité de bruit), dscStar surpasse scStar, scMerge2, Harmony, etc., en maintenant des scores ARI, ASW et F1 élevés même en environnement à signal faible. Il identifie et amplifie fidèlement les sous-populations et gènes différentiellement exprimés liés au phénotype, alliant conservation d’hétérogénéité et clarification du signal.

2. Identification de sous-groupes rares et transitions fines

Sur un mélange simulé de cellules B naïves et B mémoire réelles (rapport 95:5), dscStar parvient à isoler précisément la rare sous-population B mémoire et à détecter l’état transitoire mémoire B → plasmablast, lequel est fondu dans de gros clusters par les outils classiques. La pseudotemporalité confirma la justesse du chemin de transition révélé par dscStar.

3. Découvertes sur les sous-populations tumorales clés liées à la résistance

  • NSCLC sous immunothérapie anti-PD-1 : L’analyse de 32 528 cellules T CD8+ par dscStar a mis au jour un sous-groupe terminalement épuisé, surexprimant HSP et FKBP4 (hsp-related tex), caractérisé par une dysfonction immunitaire et une résistance à l’immunothérapie (ICB), corrélée à un mauvais pronostic. L’analyse conjointe avec le suivi clonotypique TCR montre sa différence intrinsèque par rapport aux autres populations épuisées et suggère un possible point de blocage thérapeutique.
  • Autres tumeurs (validation croisée) : Dans le mélanome cutané (SKCM) et le carcinome basocellulaire (BCC), des données unicellulaires et bulk confirment le lien entre forte expression hsp/fkbp4 et déficit immunitaire, révélant une universalité inter-cancer.

4. Interactions tumorales-immunitaires dans la transcriptomique spatiale

Sur les données ST du carcinome rénal (RCC), dscStar a permis d’affiner la localisation spatiale des cellules cancéreuses, T CD8+, macrophages associés aux tumeurs (TAMs) et cellules de type MSC-like. Il a ainsi mis au jour d’importantes interactions via les axes FN1/CD99 entre cellules tumorales MSC-like et immunité, offrant des éléments nouveaux sur l’immunosuppression et la résistance, validés par d’autres cohortes (TCGA, CellChat, survie).

5. Barrière immunitaire dans le carcinome hépatocellulaire

Dans le CCH (HCC), l’application de dscStar sur des données multi-omiques a révélé la collaboration des neutrophiles S100A12+ (neu_c1) et des fibroblastes associés au cancer (CAF) à la marge tumorale pour former une barrière immunitaire. Le signal neu_c1, enrichi uniquement chez les non-répondeurs ICB, suggère un rôle essentiel dans la résistance au traitement. L’analyse approfondie des interactions ligand-récepteur (NicheNet, EnrichR) pointe l’activation de voies liées à l’ECM et dévoile que cette “barrière immunitaire” constitue un obstacle majeur au traitement.

6. Sensibilité à la détection de réponses phénotypiques fines

Sur des données unicellulaires temporelles de souris après injection de LPC (démylinisation), dscStar a détecté de façon ultra-sensible des sous-populations endothéliales précoces (lgals1, s100a6 positifs) associées à la réponse initiale au stress, que les workflows classiques ne parviennent pas à dissocier, illustrant la haute sensibilité du modèle.

5. Conclusion et portée

Ce travail illustre la capacité de dscStar à extraire, amplifier et révéler des signaux clés au sein de données monocellulaires et spatiales très complexes, faiblement hétérogènes et hautement dimensionnelles. Il apporte non seulement un progrès méthodologique et théorique, mais offre aussi aux domaines de la biologie tumorale, de la résistance immunitaire, de la modélisation phénotypique et de la prise de décision clinique un soutien concret.

  • Importance scientifique : dévoile les mécanismes d’interaction cellulaire dépendant de multiples niveaux omiques et spatio-temporels, comblant une lacune des méthodes traditionnelles.
  • Valeur applicative : fournit à la médecine de précision, à l’immunothérapie et à la bioinformatique des outils avancés pour le traitement des données et la découverte de biomarqueurs ; le code et les workflows sont publiquement disponibles.

6. Points forts et innovations

  1. Apprentissage profond + multitâche, avec multiples fonctions de perte, pour dominer les environnements complexes et riches en bruit.
  2. Aucune nécessité de définir a priori le nombre de sous-groupes ou traits, associant adaptabilité et interprétabilité.
  3. Sensibilité remarquable aux sous-populations rares ou faiblement corrélées, surpassant largement les méthodes classiques de clustering ou d’intégration.
  4. Capacité à décortiquer des interactions fines dans les scénarios multi-omiques et spatiaux.
  5. Code open source et pipelines disponibles pour la reproductibilité et la diffusion.

7. Limites et perspectives

Malgré ses performances remarquables, les auteurs soulignent que dscStar pourrait encore s’améliorer sur les phénotypes complexes ou continus, car il reste aujourd’hui centré sur la binarisation (high/low) et dépend de la qualité des labels. Les défis futurs concernent : la gestion des déséquilibres de données, la détection de sous-populations très rares, l’extension aux scénarios “pan-omiques” et la validation croisée expérimentale.

8. Conclusion

L’article « Deep scStar: leveraging deep learning for the extraction and enhancement of phenotype-associated features from single-cell RNA sequencing and spatial transcriptomics data » synthétise des avancées théoriques, algorithmiques et applicatives majeures, ouvrant des perspectives inédites pour l’analyse phénotypique profonde en biologie unicellulaire et proposant des outils puissants pour l’ère des big data biomédicaux.