DockEM : Une méthode améliorée pour le raffinement de l'amarrage protéine-ligand à l'échelle atomique exploitant les cartes de densité Cryo-EM de résolution faible à moyenne

Contexte académique et motivations de la recherche

Ces dernières années, le docking protéine–ligand s’est imposé comme une technologie clé pour le criblage virtuel de médicaments et le développement de nouveaux médicaments basés sur la structure. L’application à grande échelle des technologies de criblage à haut débit a certes amélioré l’efficacité de la découverte de médicaments, mais celle-ci fait toujours face à des coûts élevés, des cycles de développement longs et une faible taux de conversion. Les méthodes traditionnelles de docking des petites molécules reposent principalement sur l’évaluation de la structure tridimensionnelle de la protéine et du ligand ainsi que sur des fonctions énergétiques, mais comment améliorer davantage la précision du docking reste un enjeu technologique clé dans ce domaine.

Parallèlement, la cryo-microscopie électronique (cryo-EM), avec ses avantages comme la non nécessité de cristallisation et la possibilité de résoudre la structure de protéines membranaires et de complexes macromoléculaires, est devenue un outil fondamental en biologie structurale. Bien que certaines cartes de densité obtenues par cryo-EM atteignent une résolution atomique, la plupart des données déposées dans les bases publiques, telles que l’Electron Microscopy Data Bank (EMDB), présentent une résolution moyenne à faible (3–10 Å), ce qui constitue un nouveau défi pour améliorer la précision du docking à l’aide de ces cartes. Comment intégrer efficacement l’information des cartes de densité cryo-EM à résolution limitée dans le processus de docking virtuel, et ainsi pallier le manque d’exploitation optimale des informations structurales par les méthodes traditionnelles, est devenu un obstacle urgent à surmonter dans la découverte de médicaments.

C’est dans ce contexte que cette étude se concentre sur la question de savoir « comment améliorer le docking précis des petites molécules sur les protéines à l’aide de cartes de densité cryo-EM de moyenne à faible résolution (3–15 Å) ». L’équipe auteur a conçu et développé de façon autonome DockEM, une méthode intégrant extraction locale de la carte de densité, optimisation énergétique physique et algorithme d’échantillonnage avancé, pour répondre aux limites de précision des méthodes de docking traditionnelles et à la capacité insuffisante des approches actuelles utilisant le cryo-EM à résolution restreinte.

Source de la publication et présentation des auteurs

Cet article, intitulé « DockEM: an enhanced method for atomic-scale protein–ligand docking refinement leveraging low-to-medium resolution cryo-EM density maps », a été publié dans la revue internationale Briefings in Bioinformatics (2025, vol. 26, n°2, bbaf091), par Jing Zou, Wenyi Zhang, Jun Hu, Xiaogen Zhou et Biao Zhang. Jing Zou et Wenyi Zhang sont premiers auteurs conjoints ; Biao Zhang, Xiaogen Zhou et Jun Hu sont auteurs correspondants.

Les auteurs viennent essentiellement des institutions suivantes : Collège d’ingénierie de l’information de l’Université de technologie du Zhejiang, Westlake AI Therapeutics Lab et Chinese Academy of Medical Sciences Suzhou Institute of Systems Medicine. L’article a été soumis le 15 novembre 2024 et accepté pour publication le 18 février 2025.

Plan général de recherche et processus de travail

Cette étude relève d’une recherche méthodologique de nature innovante, centrée sur la conception, l’évaluation expérimentale et la validation comparative de DockEM. Le processus peut être synthétisé comme suit :

1. Construction du jeu de données et simulation des cartes de densité

  • Sélection des objets : le jeu de données comprend 121 cibles de docking protéine–ligand, avec des structures protéiques principalement issues des bases DUD-E et COACH. Afin d’assurer diversité structurale et couverture des cibles médicamenteuses, toutes les protéines sont prédites par AlphaFold2, avec un TM-score moyen de 0,983, indiquant une fiabilité structurelle élevée.
  • Génération de cartes de densité simulées : Les complexes sont utilisés pour générer, via EMAN2 et UCSF Chimera, des cartes de densité cryo-EM simulées de 3–15 Å de résolution, couvrant l’ensemble de la plage expérimentale courante.

2. Système de fonction énergétique DockEM et conception algorithmique clé

  • Innovation de la fonction énergétique : L’énergie totale (Etot) de DockEM est une somme pondérée de quatre termes : (1) énergie de correspondance carte de densité (ecc), (2) énergie de van der Waals et électrostatique protéine–ligand (eintra), (3) énergie de van der Waals intra-ligand (einter), (4) contrainte de distance à la carte locale (edis). Le terme ecc introduit de façon innovante le coefficient de corrélation entre la carte locale et le ligand, tandis que edis assure un positionnement précis au sein de la région optimale locale.
  • Stratégie d’échantillonnage : Les processus de recherche et d’alignement s’appuient sur une simulation Replica Exchange Monte Carlo (REMC), élargissant l’espace d’échantillonnage conformationnel et évitant les minima locaux.
  • Deux étapes : docking rigide puis flexible : D’abord, un docking rigide (translation + rotation globale du ligand) localise rapidement l’emplacement de liaison, puis les 20 conformations d’énergie la plus basse sont raffinées via docking flexible (rotations autour des liaisons rotulables du ligand).

3. Extraction adaptative de la carte de densité locale et positionnement du docking

  • Le modèle global de la protéine est aligné sur la carte de densité totale via ecc ; en s’appuyant sur le site de liaison connu ou prédit, un cube de côté double de la plus grande distance inter-atomique du ligand est extrait, formant la carte de densité locale pour un ajustement précis initial.
  • Un ajustement par 500 pas de Monte Carlo sélectionne la conformation de meilleure adéquation énergétique, met à jour le centre de la carte locale, et resserre ainsi l’espace de recherche.

4. Raffinement flexible protéine–ligand et évaluation de la précision

  • Au stade du docking flexible, la REMC explore des rotations atomiques autour des liaisons du ligand, à la recherche des conformations énergétiquement les plus favorables.
  • Pour chaque résultat candidat, l’ordre atomique est harmonisé par l’outil DockRMSD pour calculer précisément la RMSD (déviation quadratique moyenne).

5. Comparaison de performance et analyse approfondie

  • Comparaison systématique à grande échelle avec quatre méthodes majeures internationales de docking protéine–ligand : ChemEM, Emerald, CB-Dock2, EDock.
  • RDKit et autres outils professionnels servent à évaluer l’énergie électrostatique, van der Waals, la solvatation, le nombre de liaisons hydrogène et autres indicateurs, analysant ainsi la supériorité structurelle et énergétique de DockEM.

6. Validation par cas pratiques et application aux cartes de densité expérimentales

  • Visualisation détaillée de complexes représentatifs pour une comparaison approfondie des résultats entre méthodes ;
  • Validation sur deux ensembles réels de cartes de densité cryo-EM expérimentales pour tester la robustesse et la valeur pratique de la méthode.

Principaux résultats et découvertes

1. Performance globale nettement améliorée

  • Précision du docking : DockEM atteint une RMSD moyenne de 1.87 Å, nettement meilleure que Emerald (2.06 Å), ChemEM (3.75 Å), CB-Dock2 (2.88 Å), et EDock (3.99 Å), avec un gain de 10–53 %.
  • Taux de succès : En prenant pour critère RMSD Å (flexible), DockEM réussit 110 dockings sur 121, soit un taux de 90.9 %, très supérieur à Emerald (78.5 %), CB-Dock2 (58.7 %), etc.
  • Significativité statistique : Des tests t appariés montrent que la précision de DockEM est très significativement supérieure à celle des autres méthodes (valeurs de p de 1,2×10⁻² à 2,3×10⁻²³).

2. Avantage de l’extraction adaptative et de l’alignement via la carte locale

  • Après docking rigide, la distance moyenne entre le centre du ligand et la structure native n’est que de 1,75 Å, soit une réduction de 65,4 % par rapport au centre du site de liaison prédit (5,06 Å).
  • Après raffinage flexible, la distance moyenne du centre du ligand à la structure native avec DockEM n’est plus que de 0,94 Å, sensiblement meilleure (14–65 %) que les méthodes traditionnelles.

3. Optimisation multi-énergie, réalisme physique accru

  • Sur l’énergie électrostatique, van der Waals, nombre de liaisons hydrogène, solvatation, les résultats de DockEM sont les meilleurs ou parmi les meilleurs, assurant cohérence structurale et réalisme physique.
  • L’équilibre entre nombre de liaisons hydrogène et énergie van der Waals évite le surajustement ou les conflits structurels.

4. Robustesse en résolution moyenne ou faible

  • DockEM est performant sur la plage 3–15 Å, et même en conditions extrêmes (10–15 Å), reste comparable à CB-Dock2 (RMSD moyenne ≈ 2,39 Å) et supérieur à ChemEM, Emerald et EDock.

5. Faisabilité sur cartes expérimentales

  • Sur deux cartes cryo-EM expérimentales réelles, DockEM obtient un docking du ligand à une RMSD de 0,90 Å (résolution 7,0 Å) et 0,40 Å (résolution 3,14 Å), validant ainsi la faisabilité pour la conception de médicaments basés sur la structure.

Conclusions et valeur scientifique

Cette étude intègre efficacement l’information des cartes de densité cryo-EM dans le process de docking protéine–ligand, proposant DockEM : une méthode dotée de focalisation adaptative sur la carte locale, d’optimisation énergétique multi-termes et d’un échantillonnage REM global. Les évaluations systématiques démontrent que DockEM surpasse les méthodes conventionnelles à la fois sur la précision et la cohérence physique des dockings en résolution 3–15 Å, et montre une excellente adaptabilité sur données expérimentales.

Sur le plan scientifique, DockEM dresse un pont inédit entre biologie structurale et chimie médicinale computationnelle, favorisant pour la première fois la valorisation efficace des jeux de données cryo-EM moyennes/faibles résolutions en drug discovery. Ceci ouvre la voie au docking précis dans des contextes complexes : ligands de grande taille, erreurs de prédiction du site de liaison, résolution limitée… De plus, la fonction énergétique, les techniques de découpage et caractérisation de la carte locale, ainsi que le cadre REM, constituent des paradigmes pour l’optimisation de l’espace conformationnel de biomolécules complexes et le screening computationnel à grande échelle.

Côté applicatif, DockEM est adapté au criblage traditionnel de petites molécules et s’étend également au docking complexe de protéines et peptides, posant les bases pour intégrer à terme apprentissage profond, optimisation des paramètres et screening automatisé. L’outil est intégralement open-source, facilitant la vérification croisée et le développement dans la communauté.

Points forts et innovations de la recherche

  1. Intégration innovante d’analyse locale de la carte de densité, d’échantillonnage flexible et d’optimisation multi-énergie, optimisant la précision globale du docking ;
  2. Positionnement de leader sur l’application aux cartes de densité à résolution moyenne/faible, fournissant un exemple pour la valorisation des ressources cryo-EM en chimie médicinale ;
  3. Introduction d’une stratégie de découpage local des sites de liaison et du terme énergétique de corrélation (ecc), augmentant la cohérence entre conformation dockée et structure réelle ;
  4. Stratégies d’échantillonnage et d’optimisation exploitant pleinement les REM, réduisant les risques de minima locaux et améliorant l’exploration de l’espace de conformation polarisé ;
  5. Code source ouvert et ensembles complets de données de benchmark, promouvant la reproductibilité et l’innovation collaborative dans le secteur.

Informations complémentaires

  • DockEM fonctionne sans GPU et le docking d’un modèle standard dure environ 60 minutes, convenant aux besoins de la recherche et de l’industrie ;
  • Toutes les données, le code et la documentation sont open source sur GitHub, facilitant expériences personnalisées et comparaisons croisées ;
  • L’équipe suggère d’intégrer à l’avenir des frameworks d’apprentissage profond pour le réglage des paramètres et des fonctions énergétiques, accroissant l’automatisation et la portabilité de DockEM pour divers cibles et ligands.

Conclusion

Ce travail élargit de façon significative les frontières du docking protéine–ligand en contexte cryo-EM basse à moyenne résolution, introduisant à la fois innovations théoriques et méthodologiques. Son écosystème ouvert et sa validation expérimentale exhaustive bâtissent une base solide pour la conception médicamenteuse basée sur la structure, la compréhension des interactions protéiques et le criblage virtuel à haut débit. L’avènement de DockEM accélérera l’évolution intelligente et automatisée du processus de développement pharmaceutique, et renforcera la position de la Chine dans la biologie structurale et la découverte de médicaments par l’IA à l’échelle internationale.