HSSPPI : Modélisation hiérarchique et spatiale-séquentielle pour la prédiction des sites d'interaction protéine-protéine

Introduction générale : Révéler les goulets d’étranglement et les opportunités de la prédiction des interactions protéiques

Les protéines, en tant que molécules centrales de l’activité vitale, participent à presque tous les processus biologiques et fonctions cellulaires, y compris l’expression des gènes, la transcription de l’ARN, la synthèse de l’ADN et la réaction immunitaire. Les interactions entre protéines (Protein-Protein Interactions, PPI) ainsi que les sites spécifiques d’interaction (Protein-Protein Interaction Sites, PPIS), déterminent la diversité et la précision des activités physiologiques. Par exemple, la conception de médicaments, l’annotation fonctionnelle des protéines, l’exploration des mécanismes moléculaires des maladies, ainsi que la construction de réseaux globaux d’interactions protéiques, reposent toutes sur des informations PPIs et PPIS de haute qualité.

Cependant, les méthodes traditionnelles basées sur l’expérimentation biologique (telles que la cristallographie aux rayons X, la spectrométrie de masse, etc.) pour détecter les sites PPIs sont coûteuses en temps et en ressources, et font face à de grandes complexités d’échantillons et à un manque d’évolutivité. Avec l’expansion rapide des bases de données protéiques et le besoin croissant de prévention et de traitement des maladies, des méthodes computationnelles pour la prédiction des PPIS connaissent un fort essor. Ces méthodes se divisent principalement en deux grandes catégories : celles basées sur la séquence (Sequence-based) et celles sur la structure (Structure-based), s’appuyant largement sur le machine learning ou le deep learning pour exploiter le potentiel caché des protéines en matière d’interactions.

Malgré certains progrès, des limitations majeures subsistent : (1) la plupart des méthodes ne considèrent qu’une seule forme de représentation de la protéine — soit la conformation spatiale, soit la séquence primaire — négligeant une intégration simultanée des informations de séquence et d’espace et ne pouvant ainsi saisir à la fois la proximité séquentielle et spatiale des résidus voisins, ce qui limite les performances de prédiction ; (2) nombre de modèles existants négligent la structure hiérarchique naturelle des molécules protéiques (hierarchical structure), par exemple, chaque protéine étant constituée de résidus (Residue), eux-mêmes assemblés à partir d’atomes (Atom), alors que la reconnaissance fonctionnelle nécessite souvent de prendre en compte les informations atomiques. Les approches traditionnelles extraient les caractéristiques principalement au niveau des résidus, capturant rarement de façon précise l’information atomique complexe, telle que le chaînage latéral des acides aminés, ce qui limite la capacité descriptive du modèle.

Dès lors, l’intégration approfondie de la structure hiérarchique des protéines et l’utilisation conjointe des informations séquentielles et spatiales s’imposent comme le défi clé pour améliorer la prédiction des PPIS.

Source de l’article et présentation des auteurs

Cet article de recherche intitulé « hssppi : hierarchical and spatial-sequential modeling for ppis prediction » est le fruit du travail de Yuguang Li, Zhen Tian, Xiaofei Nan, Shoutao Zhang, Qinglei Zhou et Shuai Lu. Les auteurs sont affiliés à l’École d’informatique et d’intelligence artificielle de l’Université de Zhengzhou, à l’Institut de la région du delta du Yangtsé (Université des sciences et technologies électroniques de Chine, Quzhou), à l’École des sciences de la vie de l’Université de Zhengzhou, au Laboratoire d’intelligence médicale du Zhongyuan et au Centre national de calcul intensif de Zhengzhou. L’article a été publié en 2025 dans la revue internationale de référence « Briefings in Bioinformatics » et édité par Oxford University Press.

Processus de recherche et analyse des innovations technologiques

Architecture générale de l’étude

Pour satisfaire le besoin de prédiction précise des sites d’interactions protéines-protéines, cette étude propose une toute nouvelle architecture de réseau profond — HSSPPI (« Hierarchical and Spatial-Sequential Protein-Protein Interaction predictor »). Ce modèle représente pour la première fois la protéine sous la forme d’un graphe hiérarchique exhaustif, modélisant conjointement la disposition spatiale et l’agencement séquentiel, et introduit de façon innovante un module de fusion spatial-séquentiel (spatial-sequential, ou s-s), permettant d’intégrer multidimensionnellement, à plusieurs échelles et en profondeur, l’information intrinsèque de la protéine.

L’architecture générale de HSSPPI comprend quatre modules principaux : génération du graphe hiérarchique de la protéine, extraction des caractéristiques au niveau atomique, extraction des caractéristiques au niveau résiduel, et classification finale des caractéristiques.

Étape 1 : génération du graphe hiérarchique de la protéine

  • Représentation hiérarchique : Les auteurs modélisent la protéine comme une structure imbriquée à deux niveaux, « résidus-atomes ». Les nœuds macroscopiques du graphe sont les résidus, chacun étant raffiné par un sous-graphe de niveau atomique.
  • Relations de connexion : Les arêtes sont définies par des seuils de distance entre atomes ou résidus, déterminés à partir des distances euclidiennes entre atomes lourds (heavy atom).
  • Exploration des paramètres : Les seuils pour les arêtes atomiques varient de 1,3 à 2,5Å, pour les résidus de 4,0 à 7,0Å, établissant ainsi la base pour les expériences de fusion ultérieures.

Étape 2 : extraction des caractéristiques au niveau atomique

  • Encodage des caractéristiques : Un one-hot encoding est appliqué aux 37 types d’atomes, produisant ainsi la matrice de caractéristiques atomiques.
  • Bloc spatial-séquentiel (s-s block) : Un module clé, combinant un réseau de convolutions sur graphes (GCN, Graph Convolutional Network) et une unité récurrente bidirectionnelle à portes (Bi-GRU), agrège pour chaque atome à la fois les informations des voisins spatiaux et des voisins séquentiels.
    • Le GCN capture la corrélation spatiale et la topologie locale des atomes ;
    • Le Bi-GRU modélise la sémantique et la « syntaxe locale » de la séquence protéique — flux d’information avant et arrière.

Étape 3 : extraction des caractéristiques au niveau des résidus

  • Obtention des caractéristiques : Le modèle linguistique pré-entraîné des protéines, ProtT5, est utilisé pour extraire un vecteur d’embedding de dimension 1024 pour chaque résidu.
  • Construction de la matrice d’adjacence : Basée sur la distance moyenne entre atomes de deux résidus.
  • Fusion spatial-séquentiel et intégration hiérarchique : Comme pour le niveau atomique, les modules GCN/Bi-GRU sont enchaînés ; un bloc de fusion de caractéristiques (Feature-Fusion block, f-f block) concatène et projette les caractéristiques atomiques et résiduelles selon leur appartenance, assurant un couplage inter-niveaux profond.

Étape 4 : classification des caractéristiques

  • Connexions par saut et double couche entièrement connectée : Les caractéristiques fusionnées finales sont envoyées via des connexions résiduelles et deux couches fully connected, afin de prédire les sites d’interaction de chaque résidu.
  • Activation et fonction de perte : ReLU est utilisé comme fonction d’activation, la perte est une cross-entropy pondérée pour maximiser la précision.

Implémentation algorithmique

  • Environnement matériel et logiciel : Implémentation sous PyTorch, entraînement sur une carte NVIDIA RTX4090, durée d’un epoch : 20-30 minutes.
  • Recherche d’hyperparamètres : Taux d’apprentissage, taux de dropout et seuils de distance sont optimisés conjointement via validation croisée.
  • Configuration des jeux de données : Expérimentation intensive sur deux tâches PPIS majeures (DeepPPISP task et GraphPPIS task), avec des jeux de données publics de référence, comprenant plusieurs milliers d’exemples, chacun subdivisé en ensembles d’entraînement, de test et de validation indépendante.

Résultats et découvertes

Comparaison avec les modèles sur la tâche DeepPPISP

  • Groupes de comparaison : Huit modèles de référence : Sppider, Scriber, DeepPPISP, Attention-CNN, Delphi, HN-PPIS, EGRET, EnsemPPIS.
  • Avantage de précision : HSSPPI excelle particulièrement sur les jeux de données déséquilibrés : F1, MCC (coefficient de corrélation de Matthews), AUPRC (précision moyenne) progressent nettement au-dessus des modèles baseline, avec une hausse de 50,23 % sur F1, 15,16 % sur MCC, 7,16 % sur AUPRC par rapport au meilleur concurrent.
  • Généralisation : Non seulement la moyenne est élevée, mais aussi la précision (Precision, +68% vs EnsemPPIS) et le rappel (Recall, +30,83%), indiquant une réduction substantielle des faux positifs et une meilleure identification des sites pertinents.

Comparaison sur la tâche GraphPPIS

  • Comparateurs élargis : S’ajoutent PSIVER, PRONA2020, DLPred, MaSIF-Site, GraphPPIS, RGN, Prob-Site, AGAT-PPIS, DeepProSite, GHGPR-PPIS, GACT-PPIS — soit 11 méthodes complémentaires.
  • Supériorité sur de multiples indicateurs : Face aux modèles structuraux et séquentiels, HSSPPI réalise de nouveaux records sur les indices Precision, Recall et F1 — par exemple, face à GACT-PPIS, hausse de 9,9 %, 1,1 % et 7 % respectivement.
  • Résumé : Bien qu’inférieur à certains modèles sur Accuracy, il s’impose sur les critères AUPRC, AUC et F1 — davantage adaptés aux jeux déséquilibrés et aux exigences du nouvel âge post-AlphaFold.

Généralisation et robustesse

  • Tests indépendants : Sur Test287, TestB25 et TestUB25, HSSPPI décroche la première place sur F1 ou progresse nettement sur les autres indices clés, démontrant adaptabilité, généralisation et sensibilité face aux changements de conformation des protéines.

Ablation et choix des modules

  • Analyses d’ablation hiérarchique : L’utilisation exclusive du graphe atomique ou du graphe de résidus conduit à des performances moindres, montrant que la fusion multi-niveaux est la clé de la précision. Trop de fusions provoquent un sur-lissage, alors qu’une fusion modérée (deux fois) est optimale.
  • Optimisation des seuils de distance : Les tests révèlent que des seuils de 5,5 Å pour les résidus et de 2,3 Å pour les atomes offrent les meilleurs scores AUC et AUPRC, validant la stratégie spatiale d’adjacence.
  • Comparaison des architectures GCN : Plusieurs GNN testés (GraphConv, SageConv, ChebConv, GATConv, GATV2Conv, GCNConv), avec SageConv finalement retenu pour son compromis entre précision et efficacité.

Visualisation et étude de cas

  • Validation sur des cas particuliers : Pour la protéine PDB 1B6C_A, la concordance entre l’annotation réelle des sites d’interaction et la prédiction HSSPPI est supérieure aux méthodes concurrentes ; la localisation précise reste robuste même après rotation particulière de la structure, avec un MCC majoré de 15,5% par rapport à EnsemPPIS.

Conclusions de l’étude et valeur ajoutée

Le modèle HSSPPI franchit un cap dans la prédiction des sites d’interaction protéine-protéine, obtenant les valeurs scientifiques et applicatives suivantes :

  • Contributions scientifiques
    • Première description systématique de la protéine en graphe hiérarchique, intégrant atome et résidu, ce qui enrichit la représentation protéique.
    • Conception innovante d’un module d’extraction conjointe spatial-séquentiel, permettant l’agrégation simultanée des informations de voisinage séquentiel et spatial, et révélant ainsi les liens structure-fonction.
    • Adapté à l’entraînement massif et aux tâches déséquilibrées, avec forte généralisation.
  • Valeur pratique
    • Offre une solution plus précise et plus interprétable pour la découverte de nouveaux médicaments, l’annotation fonctionnelle et la compréhension des maladies.
    • Modèle prêt-à-l’emploi, en phase avec les tendances AlphaFold-Multimer, RoseTTAFold All-Atom, etc., totalement compatible et interopérable.
    • Code open source, favorisant la reproductibilité et les extensions futures.
  • Points forts méthodologiques
    • Structure de graphe hiérarchique et stratégie de fusion de caractéristiques : modèle phare pour l’intégration multi-échelle de l’information structurelle.
    • Le s-s block associant GCN et Bi-GRU : première modélisation parallèle de l’espace et de la séquence via réseaux de neurones pour les protéines.
    • Comparaisons soignées sur divers jeux de données et scénarios, analyses d’ablation rigoureuses, conclusions crédibles.

Autres informations pertinentes

  • Financement : Travail soutenu par la Fondation nationale des sciences naturelles de Chine, la Fondation provinciale du Henan et divers projets scientifiques majeurs.
  • Code open source : Le code du projet HSSPPI est hébergé sur GitHub, facilitant le partage et la réutilisation.
  • Perspectives : Il est prévu d’intégrer dans le futur les caractéristiques des partenaires d’interaction, afin de relever le défi de la prédiction précise des complexes protéines-protéines.

Conclusion

Cette recherche analyse en profondeur les propriétés fondamentales des protéines et les limites actuelles de leur analyse bioinformatique, fusionne les idées les plus récentes en deep learning et biologie structurale, et établit un nouvel écosystème méthodologique pour la prédiction des interactions protéine-protéine, doté d’une précision et d’une généralisation supérieures. HSSPPI marque une avancée majeure dans l’analyse intelligente du protéome et offre un paradigme précieux pour le développement futur d’algorithmes intelligents dans ce domaine.