Modélisation inter-espèces des génomes végétaux à la résolution d'un nucléotide à l'aide d'un modèle linguistique ADN pré-entraîné

Jalons de la modélisation inter-espèces des génomes végétaux : Création et applications révolutionnaires du modèle de langage ADN PlantCaduceus

I. Contexte académique et motivations de la recherche

Au cours des vingt dernières années, la progression fulgurante des technologies de séquençage à haut débit a permis la publication de plus de 1000 génomes végétaux, un chiffre appelé à croître de façon continue. Cependant, l’annotation fonctionnelle de ces vastes génomes, la compréhension de leur régulation transcriptionnelle et traductionnelle, ainsi que l’analyse de l’effet des variations génétiques sur l’adaptation et les caractères, restent des défis majeurs en génomique végétale et en amélioration des cultures.

Comparés aux animaux et à l’homme, les génomes des plantes sont d’une complexité accrue : taille immense, abondance de séquences répétées, très grande diversité inter-espèces, avec d’importantes variations même au sein d’une même espèce ou d’un même genre. Ainsi, les modèles de deep learning développés sur une seule espèce se généralisent mal aux autres, limitant fortement l’annotation fonctionnelle et la prédiction des effets des mutations, surtout chez les espèces non modèles ou nouvellement séquencées. Par ailleurs, les jeux de données annotés de grande ampleur sont très rares en botanique, ce qui empêche les approches supervisées de deep learning de se généraliser efficacement.

Récemment, sous l’influence de la montée en puissance des modèles de langage auto-supervisés en NLP (traitement automatique du langage naturel), les modèles pré-entraînés sur des séquences biologiques ont montré un fort pouvoir d’abstraction et de généralisation. Si les modèles de langage protéique (comme ESM) ont déjà permis des avancées majeures pour la prédiction structurale ou fonctionnelle des protéines, leur capacité reste confinée aux régions codantes, laissant de côté les régions non codantes et régulatrices. Les modèles de langage ADN offrent la possibilité de couvrir l’ensemble du génome, y compris les séquences non codantes et les éléments régulateurs.

Pourtant, les modèles de langage ADN sont confrontés à plusieurs difficultés propres aux génomes végétaux : (1) La complexité des séquences répétées peut amener le modèle à apprendre des motifs non significatifs, détournés de la biologie. (2) Les régions non codantes sont peu conservées et bruyantes, rendant le modèle sensible aux biais. (3) L’ADN est bicaténaire, et l’information sur les brins sens et antisens (symétrie reverse complement, RC) doit être prise en compte de façon symétrique.

Le développement d’un modèle de langage ADN végétal disposant d’une architecture adaptée, de riches représentations et d’une capacité de généralisation inter-espèces est dès lors un besoin « révolutionnaire » en génomique des plantes.

II. Origine de l’article et présentation des auteurs

L’article intitulé « Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model » a été élaboré par Jingjing Zhai, Aaron Gokaslan, Yair Schiff, Ana Berthel, Zong-Yan Liu, Wei-Yun Lai, Zachary R. Miller, Armin Scheben, Michelle C. Stitzer, M. Cinta Romay, Edward S. Buckler, Volodymyr Kuleshov et al. Les auteurs sont principalement affiliés à l’Institut de diversité génomique de l’Université Cornell, au département d’informatique, à la section de sélection végétale et de génétique, ainsi qu’à l’USDA (Département de l’Agriculture des États-Unis), avec le soutien de fonds NSF et NIH.

L’article a été publié le 9 juin 2025 dans la revue PNAS (« Proceedings of the National Academy of Sciences of the United States of America »), une revue scientifique internationale d’envergure. Les données, le modèle pré-entraîné et le code sont accessibles en open source, illustrant fortement l’esprit de science ouverte.

III. Détail du protocole de recherche

1. Objet d’étude et jeux de données

(1) Source et traitement des données de pré-entraînement
Le projet s’appuie sur seize génomes de plantes à fleurs (angiospermes), couvrant les familles des Poaceae (graminées) et Brassicales, soit 160 millions d’années d’évolution, et incluant Arabidopsis, riz, maïs, blé et autres plantes modèles ou cultivées. Ces génomes, très divers en taille et contenu répétitif, sont une base idéale pour l’analyse comparative inter-espèces.
Chaque génome est découpé en fenêtres de 512 pb puis tokenisé à l’échelle du nucléotide individuel, offrant une résolution proche du niveau d’une seule base. Contrairement à l’extraction intégrale du génome comme dans d’anciens projets, PlantCaduceus reprend la stratégie du projet GPN, réalisant un sous-échantillonnage pondéré des séquences non codantes répétées, afin que le modèle privilégie les régions utiles fonctionnellement et ne « soit pas piégé » par les séquences répétées.

(2) Jeux de données de validation et d’évaluation aval
Une fois pré-entraînés sans supervision, les modèles sont évalués pour leur généralisation et leur capacité fonctionnelle sur plusieurs tâches :
- Les quatre grandes tâches d’annotation génique (site d’initiation de la traduction [TIS], site de terminaison [TTS], site donneur/accepteur d’épissage)
- La conservation évolutive (alignement de 34 génomes d’Andropogoneae sur la canne, le sorgho, etc.)
- La prédiction d’effets de variants sans supervision (zero-shot), pour évaluer le potentiel impact fonctionnel des mutations.

2. Protocole expérimental et détails techniques

(1) Architecture innovante et pré-entraînement du modèle de langage ADN PlantCaduceus

Innovations d’architecture
Le présent travail utilise le modèle Caduceus reposant sur l’architecture Mamba (Selective State Space Model, SSM), optimisé pour l’ADN :
- Prise en charge de fenêtres de contexte ultra-longues (512 pb), offrant une capacité d’apprentissage accrue des dépendances à longue portée.
- Modélisation de l’équivariance RC (reverse complement) intégrée dans l’architecture, garantissant la symétrie d’information entre brins sens et antisens et évitant la redondance.
- Tokenisation à l’échelle du nucléotide, atteignant une résolution supérieure aux approches k-mer (p. ex. 6-mer), permettant la détection précise des effets mutationnels unitaires.
- Canaux inversés et moyennés pour rendre les embeddings effectivement RC-équivariants.

Stratégie de pré-entraînement
- Masquage aléatoire de 15 % des positions, suivant le protocole BERT : 80 % remplacé par un jeton spécial, 10 % par une base aléatoire, 10 % conservé.
- Optimisation par AdamW et décroissance cosinusoïdale du taux d’apprentissage ; le modèle optimal compte 225M de paramètres et fut entraîné durant 25 jours sur 8 GPU H100.
- Pour chaque fenêtre, la tâche consiste à prédire le nucléotide masqué, et l’ensemble des tâches aval s’appuie sur les embeddings du dernier état caché.

(2) Tâches aval et évaluation des modèles

a. Évaluation de l’annotation génique inter-espèces
- Utilisation d’annotations expertes de TIS, TTS et sites d’épissage d’Arabidopsis comme données d’entraînement. Sur la base des embeddings extraits, un classificateur XGBoost (modèle non linéaire) et une couche linéaire sont entraînés pour les tâches de classification.
- Les performances sont validées sur l’ensemble d’entraînement (Arabidopsis) et de test (incluant maïs, riz, coton, certains présents ou absents du pré-entraînement), afin d’évaluer la généralisation inter-espèces.
- Les résultats sont comparés à ceux des modèles GPN, AgroNT (ossature Transformer, 1B paramètres), NT-v2 (modèle animal) et à un modèle supervisé traditionnel CNN+LSTM (DanQ).

b. Prédiction de la conservation évolutive inter-espèces
- Alignement sur le sorgho de 34 génomes apparentés et du riz comme outgroup, étiquetant chaque base selon l’identité (conserved ≥ 34, neutral < 15), échantillon de 277M positions, jeu de données très déséquilibré.
- Entraînement sur neuf chromosomes du sorgho, validation sur le dixième et test sur le maïs.
- Embeddings extraits, puis classification binaire par XGBoost. Performance évaluée via AUROC et AUPRC.

c. Prédiction zero-shot des effets mutationnels – méthode innovante d’identification des mutations délétères
- Simulation massive de mutations par « in silico mutagenesis », évaluation de la différence de log-vraisemblance entre l’allèle de référence et l’alternative (zero-shot score) comme indice de l’effet.
- Données impliquées : maïs, sorgho, Arabidopsis, SNPs de populations séquencées (plus d’un million de mutations simulées/réelles).
- Comparaison avec les scores classiques MSA PhyloP, PhastCons, et les modèles GPN/AgroNT.

(3) Comparaisons, contrôles et analyses d’ablation

  • Pour garantir une comparaison équitable avec GPN, un modèle GPN surdimensionné a été entraîné, avec harmonisation des paramètres et du nombre de pas d’entraînement, afin d’analyser l’impact du nombre de génomes et de la taille du réseau neuronal.
  • Pour AgroNT, dont la taille empêche un nouveau pré-entraînement sur Brassicales, un fine-tuning LoRA sur les embeddings est utilisé pour compenser le déficit d’information.
  • L’analyse multi-niveaux du contraste XGBoost / couche linéaire permet de mesurer dans quelle mesure les embeddings nécessitent un modèle complexe afin d’être pleinement exploités.

IV. Principaux résultats et preuves à l’appui

1. Capacité de généralisation et de représentation du nouveau modèle PlantCaduceus

  • Pour les quatre tâches d’annotation (TIS, TTS, sites donneur/accepteur), PlantCaduceus dépasse ou rivalise avec l’état de l’art en interne sur Arabidopsis (AUPRC > 0,94, couches linéaires ou non).
  • La percée majeure réside dans la généralisation inter-espèces (ex : maïs, coton), où l’AUPRC ne chute que de 0,789 (sur Arabidopsis) à 0,764, alors qu’elle tombe à 0,509 pour GPN, 0,106 pour AgroNT et quasi-nulle pour DanQ.
  • Les analyses d’ablation montrent que l’accroissement du nombre de génomes et des capacités du modèle accroît la généralisation, mais que PlantCaduceus surpasse toujours les autres même dans sa version la plus compacte (20M paramètres).
  • Son efficacité paramétrique et la gestion native de l’équivariance RC sont des avantages clés de son architecture.

2. Puissance de migration inter-espèces pour la prédiction de la conservation évolutive

  • PlantCaduceus permet, avec le seul signal de séquence ADN (sans annotation), une prédiction hautement précise de la conservation évolutive : AUROC=0,896, AUPRC=0,876 sur sorgho, et toujours élevé après transfert sur maïs (AUROC=0,829, AUPRC=0,797), surpassant sensiblement tous les autres modèles comparés.
  • La prédiction dans les régions non codantes surpasse même celle dans les régions codantes, signe de la capacité du modèle à encoder des motifs régulateurs complexes.
  • Les modèles GPN customisés et AgroNT fine-tuné via LoRA approchent PlantCaduceus, sans toutefois l’atteindre pleinement.

3. Méthode innovante zero-shot pour l’identification des variantes délétères

  • Basé sur le score zero-shot (différence de log-vraisemblance), PlantCaduceus identifie mutations délétères simulées/réelles avec une sensibilité supérieure à GPN, AgroNT ou l’approche MSA historique (PhyloP, PhastCons), enrichissant de trois fois plus les allèles rares.
  • Lors de la validation externe sur les mutations EMS à phénotype connu chez Arabidopsis, 1519 mutations sont classées dans le top 1-10% via PlantCaduceus, beaucoup plus que tout autre modèle. Cela offre un paradigme nouveau pour l’identification causale des mutations/agronomiques majeures.
  • Dans la détection du signal GWAS au locus su1 du maïs doux, PlantCaduceus discrimine la mutation causale unique W578R, résolvant la convolution des signaux en contexte de fort déséquilibre de liaison (LD).

V. Conclusion, valeur académique et applicative

Cette étude propose pour la première fois un modèle de langage ADN pré-entraîné multi-espèces, PlantCaduceus, franchissant les barrières de la diversité génomique végétale, la complexité des séquences répétées, le manque d’annotations, et la gestion RC. Le modèle combine : haute précision (annotation, régulation), forte généralisation (transfert inter-espèces), efficacité (paramètres/computing réduits), compatibilité avec l’interprétation au niveau du nucléotide (zero-shot mutation effect).
L’équipe met à disposition en open-source l’ensemble du code, modèles et données, posant une assise puissante pour le projet « 1000 génomes végétaux », l’interprétation fonctionnelle d’espèces exotiques, le breeding ciblé et la sélection à haut débit.

PlantCaduceus inaugure surtout une approche de prédiction « zero-shot » des effets mutationnels, sans recourir au coûteux alignement évolutif, ni à une annotation spécifique à l’espèce, ouvrant la voie à une révolution pour la médecine génomique, la génomique des populations ou l’amélioration de la diversité des cultures.

VI. Points forts et innovations

  1. Innovation architecturale : combinaison SSM+Mamba+Caduceus, supérieure aux architectures Transformer ou CNN/LSTM classiques, et première intégration systématique de l’équivariance RC.
  2. Méthodologie exhaustive : traitement du jeu de données, pré-entraînement, design des tâches aval, expériences d’ablation et comparaisons multiples, assurant rigueur et applicabilité générale.
  3. Valeur d’usage multidimensionnelle : recherche fondamentale (évolution fonctionnelle, décodage régulateur), application agronomique (détection rapide de variantes bénéfiques/délétères), avancée méthodologique pour la bioinformatique.
  4. Ouverture et accessibilité : code, modèle et données largement accessibles, facilitant les développements secondaires et l’enseignement.

VII. Compléments et perspectives

  • Axes futurs : extension à des génomes plus diversifiés (incluant gymnospermes), pour élargir la généralisation ; allongement des fenêtres de contexte à plusieurs milliers/base pairs pour aborder la régulation à longue distance.
  • Détails techniques : modèles en multiples formats (32 couches/225M, 24 couches/40M, etc), pour s’adapter aux ressources diverses des laboratoires.
  • Utilité pour le breeding : sélection moléculaire accélérée, optimisation des croisements, réduction du fardeau mutationnel délétère, accroissement du rendement et de la résilience.

En tant que nouveau modèle de langage ADN pour plantes, PlantCaduceus ne fait pas que faire avancer la recherche fondamentale, il innove aussi dans l’ingénierie du breeding digitalisé, la médecine génomique et l’annotation inter-espèces – représentant une percée majeure dans l’analyse fonctionnelle des génomes végétaux.