Exploration de diverses approches pour prédire la libération d'interféron-gamma : utilisation des séquences de peptides et de la classe II du CMH

Contexte académique et signification de la recherche

Au cours des dernières décennies, les protéines thérapeutiques sont devenues un point focal de la recherche en biopharmacie, en raison de leur immense potentiel dans le domaine médical. Grâce à leur grande sélectivité, les médicaments à base de protéines thérapeutiques sont considérés comme une solution pour de nombreuses maladies aiguës ou chroniques auparavant difficiles à traiter, comme certaines maladies auto-immunes ou des cancers. Depuis la découverte de la thérapie sérique dans les années 1880 jusqu’au lancement en 1986 du premier anticorps monoclonal, le muromonab-CD3, le marché des protéines thérapeutiques n’a cessé de croître, et devrait atteindre environ 47,4 milliards de dollars américains d’ici 2032. Cependant, l’immunogénicité induite par les protéines thérapeutiques demeure un problème majeur pour les chercheurs. La réaction immunitaire peut non seulement engendrer des effets secondaires délétères, mais également activer des mécanismes thérapeutiques — à l’instar des vaccins qui stimulent la réponse immunitaire afin de conférer une protection.

Au niveau moléculaire, le mécanisme clé de l’immunogénicité des protéines thérapeutiques est la voie de présentation antigénique des molécules MHC (complexe majeur d’histocompatibilité) de classe II. Le MHC-II lie des peptides issus du clivage protéique, formant un complexe pMHC-II, qui est présenté aux cellules T et déclenche la réponse immunitaire. Les différentes allèles du MHC-II présentent une grande variabilité dans leur capacité à lier divers peptides, si bien que les différences génétiques individuelles ou populationnelles modulent fortement la réponse immunitaire. Comprendre les interactions entre les peptides médicamenteux et le MHC-II, et évaluer leur capacité à induire des cytokines clés comme l’IFNγ (interféron-gamma), est donc capital pour le développement de médicaments sûrs et efficaces.

Cependant, les méthodes expérimentales actuelles d’évaluation (comme les tests de libération de cytokine ou de prolifération des cellules T) demeurent coûteuses, longues, et peu adaptées au criblage à grande échelle des multiples combinaisons peptide/allèle. De ce fait, le développement de modèles informatiques efficaces, universels, et interprétables est devenu un défi crucial pour le domaine. C’est dans ce contexte scientifique que s’inscrit la présente étude, qui vise à établir un modèle de classification informatique fondé sur les séquences peptidiques et MHC-II, pour prédire efficacement la libération d’IFNγ et explorer l’interprétabilité et la généralisation du modèle.

Source de l’article et informations sur les auteurs

L’article, intitulé « exploring diverse approaches for predicting interferon-gamma release: utilizing mhc class ii and peptide sequences », a été rédigé conjointement par Abir Omran, Alexander Amberg et Gerhard F. Ecker, affiliés respectivement au département des sciences pharmaceutiques de l’Université de Vienne et au département de sécurité préclinique de Sanofi. Publié en 2025 dans la revue « Briefings in Bioinformatics » (volume 26, numéro 2, DOI : https://doi.org/10.1093/bib/bbaf101) éditée par Oxford University Press, cet article en accès libre vise à faire progresser la bioinformatique et l’immunologie computationnelle.

Processus expérimental général et détails techniques

Collecte et prétraitement des données

L’équipe de recherche a d’abord collecté à partir de la base de données IEDB (Immune Epitope Database) des données expérimentales sur la libération d’IFNγ liées au MHC-II chez l’humain (tests positifs et négatifs inclus). Chaque paire pMHC-II (combinaison d’une séquence peptidique et d’un pseudo-séquence d’allèle MHC-II) est annotée en fonction de la majorité des résultats expérimentaux répertoriés. Par exemple, si une combinaison dispose de cinq mesures, dont trois négatives, elle est classée comme « inactive ».

De plus, la longueur des peptides a été limitée à 12–24 acides aminés, conformément à la littérature sur les régions de liaison du MHC-II. Les doublons ont été traités pour ne conserver qu’une seule instance strictement identique, alors que les autres types de doublons ont été supprimés. Après filtrage, l’ensemble final comprenait 7266 paires pMHC-II, dont 30 % étaient des échantillons inactifs, révélant un déséquilibre marqué des classes.

Division et gestion du jeu de données

Lors de la phase de modélisation, les auteurs ont utilisé une validation croisée à 10 plis. Pour limiter l’impact de l’inégalité des classes et des longueurs peptidiques, un échantillonnage stratifié a garanti une distribution équitable des classes et longueurs dans chaque set d’entraînement/test. L’analyse révèle que les peptides de 15 AA représentent 70 % du jeu de données.

Représentation des séquences et ingénierie des caractéristiques

Trois descripteurs de séquences ont été testés pour décrire les peptides et le MHC-II :

  1. LBE (encodage « letter-based ») : conversion numérique directe de la séquence, rembourrage avec des zéros pour les séquences plus courtes (jusqu’à 25 AA).
  2. Descripteurs d’embedding ProtBert : exploite ProtBert, un variant de BERT entraîné sur 217 millions de séquences protéiques, pour générer des vecteurs sémantiques riches en contexte.
  3. Descripteurs Z-scale : descripteurs physico-chimiques pour séquences de longueur fixe (ici uniquement pour les séquences de 15 AA), reflétant hydrophobicité, stérisme et propriétés électroniques des AA.

Pour chaque échantillon pMHC-II, les caractéristiques issues du peptide et du pseudo-séquence MHC-II sont concaténées pour servir d’entrée au modèle. Ce travail d’ingénierie des données fournit ainsi une base multidimensionnelle au processus d’apprentissage.

Construction et développement des modèles

Les modèles élaborés s’appuient principalement sur des algorithmes classiques de type arbre :

  • Forêt aléatoire (Random Forest, RF) : appréciée pour son interprétabilité, également utile pour l’analyse d’importance des variables.
  • Machine à vecteurs de support (SVM)
  • Machines à gradient boosting (GBM)

Afin de pallier le déséquilibre des classes, d’une part le seuil de décision a été optimisé (différents seuils testés pour équilibrer la sensibilité et la spécificité, le choix s’étant arrêté à 0,65), d’autre part, une stratégie d’apprentissage actif (Active Learning, AL) a été mise en œuvre, consistant à intégrer à chaque itération les 10 exemples les plus incertains dans l’ensemble d’entraînement, pour améliorer la capacité du modèle à reconnaître la classe minoritaire. Pour parfaire l’optimisation, une recherche aléatoire de paramètres (randomized search) a été exploitée pour chaque représentation, avec validation croisée dédiée.

Évaluation des performances et test de la capacité de généralisation

Les métriques d’évaluation principales étaient : l’exactitude équilibrée (balanced accuracy), le coefficient de corrélation de Matthews (MCC), la précision, la sensibilité et la spécificité. Afin de tester la capacité de généralisation, les auteurs ont collecté depuis l’IEDB un jeu de données d’expériences de prolifération des cellules T, en excluant tout recouvrement avec l’ensemble IFNγ (711 échantillons : 600 actifs, 111 inactifs). Cet ensemble, fortement déséquilibré aussi, a été utilisé pour tester le modèle phare sur une tâche externe régie par une dynamique immunitaire apparentée.

Analyses d’interprétabilité et exploration du modèle

Pour décrypter les mécanismes internes du modèle, plusieurs analyses interprétatives ont été conduites :

  • Analyse d’importance des caractéristiques : basée sur le modèle RF, identification des 5 positions peptidiques les plus déterminantes dans la séquence 15 AA, et analyse de la fréquence des AA à ces positions entre classes actives/inactives.
  • Test de mutations virtuelles mono-acide aminé : à chaque position du peptide, remplacement successif par chacun des 20 AA, observation de la variation de prédiction (via l’évolution du taux d’erreur), identification des mutations les plus influentes (ou neutres). L’effet de ces mutations sous différents contextes alléliques MHC est également étudié.

Principaux résultats et analyses de données

Évaluation comparative des modèles

Au total, 11 modèles combinant différentes représentations et algorithmes ont été élaborés. Sur tous les types de caractéristiques et d’algorithmes, la forêt aléatoire (RF) s’est démarquée. Le modèle LBE (encodage simple) a affiché les meilleures performances en CV 10 plis :

  • Exactitude équilibrée : 0,78
  • MCC : 0,53
  • Précision : 0,88
  • Sensibilité : 0,78
  • Spécificité : 0,77

Les modèles Z-scale et LBE-15mer sont presque équivalents ; le modèle ProtBert atteint la meilleure spécificité mais la plus faible sensibilité ; l’apprentissage actif améliore marginalement LBE (MCC maximal : 0,51), mais n’apporte plus de gain après 350 itérations (effet de plateau). Les descripteurs riches en information n’apportent pas ici d’amélioration, probablement à cause de la hausse de la dimensionnalité et de la dilution de l’information.

Test externe sur la prolifération des cellules T

Sur le jeu de données de prolifération des cellules T, le meilleur modèle LBE donne :

  • Exactitude équilibrée : 0,61
  • MCC : 0,21
  • Précision : 0,88
  • Sensibilité : 0,87
  • Spécificité : 0,35

Malgré des performances modestes pour la reconnaissance des inactifs, le modèle conserve une excellente capacité à détecter les actifs. Étant donnée la forte dominance des positifs sur ce set externe, ces résultats attestent d’une certaine généralisation du modèle.

Analyses d’interprétabilité du modèle

Dans le modèle RF sur peptides 15 AA, les 5 positions les plus importantes sont p3, p14, p2, p8 et p13. Alors que p2, p3, et p8 sont connus pour constituer le noyau de liaison du TCR, p13 et p14, bien que n’intervenant pas directement dans la liaison, jouent un rôle dans la stabilité du complexe pMHC-II.

L’analyse de fréquence des AA à ces positions montre peu d’écarts notables entre classes (la leucine, par exemple, est dominante dans les deux). Cela indique que le modèle ne base pas ses décisions sur la simple présence d’un AA, mais s’appuie plutôt sur des motifs multi-sites.

Les tests de mutation virtuelle soulignent que p2, p3, p8, p13 et p14 sont les plus sensibles : muter l’AA en tyrosine (Y) en p2 ou p14 peut entraîner des changements notables de l’erreur de prédiction (ΔER max de 0,017). Certains effets mutationnels peuvent s’inverser suivant le contexte allélle du MHC (par exemple, G→Y sur HLA-DRB10901 inverse la prédiction d’activité). Ainsi, le modèle a saisi l’interaction complexe entre fond génétique MHC, séquence peptidique et résultat immunitaire.

Conclusion de l’étude et valeur scientifique/applicative

Ce travail compare systématiquement plusieurs stratégies de prédiction basées sur la séquence, et démontre qu’un simple encodage des acides aminés, combiné à un RF, suffit pour prédire efficacement la capacité d’un complexe pMHC-II à induire la libération d’IFNγ. Grâce à l’apprentissage actif et aux outils d’interprétabilité, les auteurs obtiennent à la fois de bonnes performances prédictives et des éclaircissements sur les mécanismes décisionnels moléculaires. Le modèle montre également une extension possible vers d’autres fonctions des lymphocytes T, ce qui ouvre la voie à des évaluations de risque immunogénique haute performance et universelles.

Points forts de l’étude

  1. Comparaison de divers descripteurs de séquence : pondérant descripteurs physicochimiques, NLP (ProtBert), et encodages numériques classiques, pour inspirer les pratiques de modélisation.
  2. Tentative d’apprentissage actif : stratégie originale pour mieux reconnaître la classe minoritaire via l’intégration dirigée d’exemples informatifs.
  3. Expérimentation approfondie sur l’interprétabilité : importance des caractéristiques et mutations virtuelles révèlent la pertinence biologique de l’information modélisée.
  4. Validation sur des données externes (généralisation) : application inédite du modèle pour prédire une fonction cellulaire apparentée, renforçant la fiabilité pour les scénarios réels de R&D.
  5. Open data/code : données et code ouverts sur GitHub, offrant un cadre reproductible pour la communauté.

Défis et perspectives

  • Hétérogénéité des formats, cinétiques et méthodes expérimentales dans le jeu de données, non incluses à ce stade dans les caractéristiques du modèle.
  • Déséquilibres extrêmes des classes et disparité de la distribution allèlique, pouvant affecter la pertinence pour les génotypes rares.
  • Les grands modèles de type BERT pré-entraînés, s’ils sont ajustés spécifiquement à la tâche, pourraient encore augmenter les performances à l’avenir.

Résumé

Cette étude explore et intègre de façon efficace des voies de prédiction haute performance du risque immunitaire des protéines médicamenteuses, et pose une base méthodologique et conceptuelle solide pour la prévision personnalisée de l’immunogénicité, l’optimisation de la conception de médicaments, et les workflows de présélection préclinique. L’innovation algorithmique, tout autant que l’accent porté sur l’interprétabilité et l’opérationnalité, en font une référence scientifique et technique notable. À l’avenir, des données de plus grande échelle et une intégration multi-modale devraient permettre d’affiner ces résultats. Ce travail délivre enfin des enseignements importants pour la bioinformatique, l’immunologie computationnelle, et toute l’industrie biopharmaceutique.