Évaluation comparative des outils d'inférence des aberrations du nombre de copies à l'aide de jeux de données multi-omiques à cellule unique

I. Contexte et importance de la recherche

Dans les domaines de l’oncologie et de la génomique, les altérations du nombre de copies chromosomiques (Copy Number Alterations, CNAs) représentent un type de variation génétique clé qui conduit à la survenue et à la progression du cancer. Les CNAs déterminent non seulement l’hétérogénéité tumorale, mais sont également d’une grande importance pour la détection précoce des tumeurs, l’analyse de l’évolution des sous-clones tumoraux, la compréhension des mécanismes de résistance, etc. Les méthodes traditionnelles de détection des variations du nombre de copies reposent principalement sur le séquençage d’ADN à cellule unique (scDNA-seq). Malgré leur haute résolution, elles sont limitées par leur coût élevé et leur faible couverture, rendant difficile leur déploiement à grande échelle et à haut débit dans la pratique.

Avec la popularisation de la technologie de séquençage d’ARN à cellule unique (single-cell RNA sequencing, scRNA-seq) et l’accumulation croissante de données, les chercheurs ont découvert qu’il était possible, dans certaines conditions, d’inférer les variations potentielles du nombre de copies génomiques à partir de données scRNA-seq. Cela a considérablement élargi les perspectives d’exploitation des données transcriptomiques existantes pour l’exploration de variations structurelles du génome. Ainsi, plusieurs outils computationnels ont récemment émergé pour inférer les CNAs à partir de données scRNA-seq, tels qu’inferCNV, CopyKAT, SCEVAN, Numbat et CASPER. Ces outils utilisent, selon des signaux de niveau d’expression ou de fréquence allélique, différentes approches algorithmiques pour déduire les profils de CNAs dans les cellules tumorales.

Cependant, en raison des différences de leurs principes algorithmiques, paramétrages, exigences pour les données d’entrée et scénarios d’application, il n’existait jusqu’à présent aucune étude indépendante et systématique de benchmarking pour comparer horizontalement les performances, points forts et limitations de chaque outil. Cette situation pose des difficultés dans les choix méthodologiques et l’interprétation des résultats au sein de nombreuses études sur l’hétérogénéité tumorale ou la transcriptomique spatiale à cellule unique. Il est donc de grande valeur scientifique et pratique de mener une comparaison rigoureuse et objective des principaux outils, basée sur des données multi-omiques réellement appariées scDNA-seq/scRNA-seq, pour normaliser le domaine et améliorer la qualité des recherches.

II. Source de l’article et informations sur les auteurs

Cet article, intitulé « Benchmarking copy number aberrations inference tools using single-cell multi-omics datasets », a été rédigé conjointement par Minfang Song, Shuai Ma, Gong Wang, Yukun Wang, Zhenzhen Yang, Bin Xie, Tongkun Guo, Xingxu Huang et l’auteur correspondant Liye Zhang. Les auteurs sont principalement affiliés au Zhejiang Lab, à l’Institut des sciences et technologies de la vie de ShanghaiTech University, au Centre de recherche et d’essais cliniques de Shanghai ainsi qu’au Laboratoire national de Yazhou Bay. L’article est publié dans la revue internationale de référence « Briefings in Bioinformatics », volume 26, numéro 2, en 2025.

III. Conception de l’étude et détails du protocole

1. Schéma général de l’étude

Cette étude de benchmarking innove en utilisant des jeux de données multi-omiques à cellule unique contenant simultanément des informations ADN et ARN (c’est-à-dire, séquençage en parallèle scRNA-seq et scDNA-seq sur la même cellule). Les CNAs définies par scDNA-seq servent de « gold standard », permettant l’évaluation systématique des performances multi-dimensionnelles des cinq outils phares d’inférence de CNAs à partir de scRNA-seq. Le processus central inclut :

  • l’intégration des jeux de données multi-omiques et la sélection des échantillons ;
  • l’exécution complète (et optimisation des paramètres) des cinq outils (inferCNV, CopyKAT, SCEVAN, Numbat, CASPER) ;
  • la comparaison quantitative entre outils sur des tâches telles que : classification « tumeur vs cellule normale », précision des profils de CNAs, identification des sous-clones tumoraux, détection d’aneuploïdies dans les cellules non malignes, sous différentes conditions expérimentales.

2. Origine et traitement des jeux de données

L’équipe de recherche a réuni plusieurs jeux de données multi-omiques réelles provenant de différents projets publics ou de collaborateurs, parmi lesquels :

  • 8 échantillons de cancer colorectal (Colorectal Cancer, CRC) (issus de l’étude de Zhou et al., 8 cas) ;
  • 2 leucémies aiguës lymphoblastiques (Acute Lymphoblastic Leukemia, ALL) ;
  • 1 gliome, 1 tumeur neuroendocrine (Neuroendocrine tumor), 1 lignée cellulaire NPC43 et 1 lignée HUVEC (issus des travaux de Yu ou Cui et al.) ;

Chaque échantillon comprend des données de séquençage RNA et DNA appariées sur la même cellule. Les résultats scDNA-seq servent de vérité terrain pour les CNAs, tandis que les données scRNA-seq constituent l’entrée des logiciels testés. Pour plus de détail, voir la table S1 dans l’article.

3. Les cinq outils et leurs principes

Les outils évalués sont regroupés en deux grands types :

  • Outils basés uniquement sur les matrices d’expression : inferCNV, CopyKAT, SCEVAN. Leur principe : lorsqu’il y a amplification ou délétion du nombre de copies sur une région chromosomique, l’expression moyenne des gènes concernés augmente ou baisse. Les algorithmes s’appuient sur des moyennes glissantes, des segmentations bayésiennes, des optimisations de rupture, etc. pour détecter ces variations spatiales dans les profils d’expression.
  • Outils utilisant aussi l’information allélique/du site hétérozygote : Numbat, CASPER. En plus de la matrice d’expression, ils intègrent l’évolution du ratio des allèles (B-allele frequency), ce qui permet de déduire des événements plus subtils comme les pertes d’hétérozygotie sans variation du nombre de copies (Copy number neutral Loss of Heterozygosity, CNLOH). Numbat repose ainsi sur un modèle Markov caché (HMM) tenant compte des haplotypes. CASPER implémente un cadre d’analyse multi-échelle du signal.

Chaque logiciel a été exécuté selon les protocoles officiels (avec optimisation empirique des paramètres) : par exemple, inferCNV utilise une approche « deux passes » pour optimiser le référentiel de normalisation ; pour Numbat et CASPER, le choix des cellules de référence est crucial.

4. Protocole d’évaluation et indicateurs

  • Précision de la classification tumeur/normale :

    • Clustering scDNA-seq comme vérité de terrain, calcul des mesures de précision/F1-score de classification des mêmes cellules par chaque outil.
    • Analyse de l’influence, sur la performance, du degré de pureté tumorale (tumor purity, proportion de cellules tumorales), de l’incorporation des cellules du microenvironnement, de la profondeur de séquençage, etc.
  • Concordance des profils CNAs inférés :

    • Comparaison segment par segment des profils CNAs inférés à ceux du terrain (scDNA-seq), quantification par le coefficient de corrélation de Pearson.
    • Evaluation de la capacité de détection des grandes altérations comme des micro-variations, et du bénéfice de l’optimisation de pipeline (comme la double passe d’inferCNV).
  • Détection des points de rupture et des structures sous-clonales :

    • Pour les trois outils disposant de cette fonctionnalité (inferCNV, SCEVAN, Numbat), évaluation (F1-score, recall…) de la précision sur les ruptures majeures des chromosomes des principaux sous-clones tumoraux.
    • L’analyse de sous-clonage est fondée sur un clustering hiérarchique, puis la concordance structurelle des sous-clones déduits à partir d’ARN (scRNA-seq) vs DNA (scDNA-seq).
  • Capacité de détection des aneuploïdies dans les cellules non malignes :

    • Les groupes cellulaires à risque (fibroblastes, lymphocytes T/B, cellules endothéliales) sont analysés pour évaluer la sensibilité de détection des variations chromosomiques isolées.
  • Efficacité computationnelle et praticité :

    • Mesure du temps de calcul, des ressources mémoire pour l’analyse de jeux de données de plusieurs milliers de cellules, permettant d’évaluer l’applicabilité à grande échelle de chaque outil.

IV. Principaux résultats et détails

1. Capacité de classification automatique tumeur/normale

  • Performances générales : Numbat est le plus performant lorsqu’il dispose de données multi-omiques riches (expression + fréquences allélique) ; CopyKAT est le meilleur, et très résistant à la faible profondeur de séquençage, lorsqu’on n’a que la matrice d’expression.
  • Impact de la pureté tumorale : En cas de pureté tumorale élevée, inferCNV tend à choisir par erreur le fond tumoral comme référence, causant une erreur de normalisation (les signaux CNAs tumoraux sont pris pour la ligne de base, alors que les cellules normales sont classées à tort comme tumorales) ; SCEVAN est moins efficace dans les échantillons à faible pureté tumorale. L’inclusion de cellules du microenvironnement améliore significativement la performance pour la classification et la détection des CNAs.
  • Expérience simulée : Divers scénarios simulant des proportions de tumeur/normale de 1:100 à 100:1 par sous-échantillonnage confirment la robustesse relative des outils : Numbat garde une haute précision, inferCNV inverse parfois ses classifications dans les cas extrêmes.

2. Précision des profils de CNAs inférés

  • Optimisation du fond de référence : Pour inferCNV, la stratégie en deux étapes (reconnaître d’abord les cellules normales comme référence, puis faire l’inférence) améliore fortement la concordance (corrélation de Pearson) des profils CNAs inférés et scDNA-seq.
  • Variabilité inter-outils : Numbat et CASPER produisent des profils entiers discrets plus propres et comparables avec l’ADN ; les autres outils sortent des signaux continus. Aucun outil ne domine sur tous les échantillons : l’équilibre cellulaire tumeur/normale favorise toujours les meilleurs résultats.
  • Points de rupture, micro-segments et événements LOH :
    • SCEVAN obtient la meilleure F1-score et sensibilité sur la détection des points de rupture majeurs.
    • Grâce à l’analyse B-allele, Numbat détecte finement les CNLOH, mais génère aussi des faux positifs par confusion avec des régions d’amplification importante.

3. Détection des sous-clones tumoraux

  • Tous les outils, sous réserve d’une classification correcte des cellules tumorales, sont aptes à reproduire la structure sous-clonale réelle : sur les cas de gliome ou de CRC, la concordance (ARI>0.8) entre la structure des sous-clones déduite de l’ARN et celle du DNA est très forte, sauf pour certains cas particuliers nécessitant l’aide de cellules du microenvironnement. SCEVAN et inferCNV se distinguent particulièrement.

4. Analyse de l’aneuploïdie des cellules non malignes

  • Etant donné que les CNAs des cellules non malignes sont généralement des variations de chromosomes entiers, tous les outils se révèlent peu performants dans la détection de ces altérations de faible ampleur. En cause : la faible quantité d’UMI/gènes dans ces cellules par rapport aux tumeurs, et l’ampleur plus faible des perturbations d’expression – d’où un besoin de nouveaux algorithmes spécialisés pour ces cas.

5. Efficacité informatique et applicabilité

  • CopyKAT et SCEVAN sont les plus efficaces et adaptés à l’analyse de milliers de cellules sur ordinateurs standards ; Numbat et inferCNV, à cause de leur complexité, sont recommandés sur serveur dès que l’échelle dépasse 1 000 cellules.

V. Conclusions et valeur applicative

Cette étude constitue la première évaluation indépendante et systématique des outils inférant les CNAs à partir de scRNA-seq. Elle expose les avantages, faiblesses et recommandations de chaque méthode, selon différents scénarios :

  • Le choix de l’outil doit être adapté aux conditions expérimentales : avec données B-allele, privilégier Numbat + SCEVAN/InferCNV ; avec seulement la matrice d’expression, préférer le couple CopyKAT + SCEVAN/InferCNV. Utiliser plusieurs outils permet de fiabiliser les résultats.
  • L’optimisation des paramètres et la sélection du référentiel sont essentiels : le pipeline deux passes d’inferCNV et le paramètre gamma de Numbat doivent être ajustés sur chaque échantillon.
  • La détection d’événements spéciaux (ex : LOH) requiert une validation indépendante avec les données DNA.

Cette étude fournit à la recherche sur les tumeurs et la transcriptomique spatiale une référence normalisée pour le choix et la validation des outils, améliorant la robustesse et l’homogénéité des résultats. Elle met également en lumière les limites actuelles pour la détection des faibles variations et de la faible expression, aiguillant le développement algorithmique futur.

VI. Points forts et innovations de la recherche

  • Utilisation innovante de données multi-omiques authentiques sur les mêmes cellules, reflétant au mieux la réalité biologique de l’application de ces outils.
  • Evaluation exhaustive, couvrant la classification, la détection des points de rupture et des sous-clones, la consommation des ressources, et l’optimisation des paramètres.
  • Identification claire des biais et spécificités de chaque outil selon les scénarios : apporte un guide précieux pour les nouvelles applications comme la transcriptomique spatiale.

VII. Autres informations importantes

L’article met à disposition en open source tous les codes et scripts utilisés, pour faciliter la reproduction et la réutilisation. Toutes les données sont publiques et accessibles. Les travaux ont été financés par la Fondation nationale chinoise pour la science, le programme « Leading Goose » du Zhejiang, le Zhejiang Lab, etc. L’équipe des auteurs possède une expérience avancée et des ressources dans l’analyse multi-omique à cellule unique des tumeurs, la rédaction étant le fruit d’une collaboration inter-institutions.

Cette étude pose des bases expérimentales et critiques inédites pour le développement et l’application de l’inférence des variations du nombre de copies à partir du scRNA-seq. Elle aura une influence large et durable sur la bioinformatique des cancers et sur d’autres domaines frontaliers de la recherche biomédicale.