Ensembles de référence régulièrement mis à jour pour des évaluations statistiquement correctes des applications d'AlphaFold
Un nouveau chapitre académique dans la prédiction des structures protéiques
La résolution de la structure des protéines reste l’un des défis fondamentaux de la biologie moléculaire et des sciences de la vie. Les méthodes expérimentales traditionnelles telles que la cristallographie aux rayons X, la résonance magnétique nucléaire (RMN) et la cryo-microscopie électronique ont jeté des bases solides pour l’étude des structures tridimensionnelles des protéines. Cependant, la préparation complexe des échantillons, le coût temporel élevé et les limitations d’adaptabilité à l’ensemble du protéome rendent difficile une couverture systématique de toutes les protéines. Depuis le lancement en 2020 du système AlphaFold2 (AF2) développé par DeepMind, le domaine de la prédiction structurale connaît une avancée révolutionnaire. En s’appuyant sur l’apprentissage profond, AlphaFold2 permet de prédire avec haute fiabilité la structure de pratiquement toutes les protéines connues, élargissant considérablement le champ couvert et transformant profondément la biomédecine, les sciences fondamentales et même la conception de médicaments.
Il convient de signaler que peu après sa sortie, une base de données de structures prédites par AlphaFold2 a été rapidement mise en place puis rendue accessible au public, ce qui a déclenché dans la communauté académique une vague d’applications et de redéveloppements sur la base des structures AF2. Des milliers d’articles scientifiques utilisent ces structures pour étudier la stabilité protéique, l’hétérogénéité conformationnelle, la fonction des protéines, les interfaces de complexes, la définition des domaines structuraux ou encore les segments désordonnés. AlphaFold3 (AF3), encore plus avancé, va plus loin dans la prédiction des interactions complexes (protéine-ligand, protéine-ADN/ARN, protéine-petites molécules), ce qui laisse présager un approfondissement continu des applications biologiques grâce à l’intelligence artificielle.
Toutefois, ce mouvement technique s’accompagne d’un problème sous-estimé et souvent ignoré dans la littérature : la “fuite de données” (data leakage). Il s’agit de situations où, lors de l’évaluation d’approches de type machine learning, les ensembles de test présentent des homologies ou un recouvrement excessif avec l’ensemble d’entraînement, ce qui biaise significativement l’évaluation statistique et accorde des capacités artificiellement élevées au modèle. Avec l’explosion des applications avales basées sur AF2, de nombreuses étapes critiques supposées éliminer la fuite de données sont de plus en plus négligées. Maintenir une barrière claire entre “apprentissage” et “test”, en bannissant la contamination par des structures homologues, est le fondement pour garantir la scientificité des évaluations.
Origine de l’article et affiliations des auteurs
L’article « Regularly updated benchmark sets for statistically correct evaluations of AlphaFold applications », rédigé par Laszlo Dobson (auteur correspondant), Gábor E. Tusnády et Peter Tompa, provient d’équipes affiliées à l’Institut de recherche en sciences moléculaires de la vie du Centre des sciences naturelles (Hongrie), au Département de bioinformatique de l’Université Semmelweis (Hongrie), au VIB-VUB Center for Structural Biology (Belgique), et à l’Institut national d’oncologie de Hongrie. L’étude est publiée dans le volume 26, numéro 2 du journal Briefings in Bioinformatics en 2025 (DOI : 10.1093/bib/bbaf104), au sein de la rubrique Problem Solving Protocol, en libre accès via Oxford University Press (licence Creative Commons Attribution Non-Commercial).
Détail du protocole : la construction d’un jeu de données de référence sans fuite pour AlphaFold
1. Objectifs et innovations de l’étude
Le but central de cette étude est de fournir un ensemble de jeux de données de référence régulièrement mis à jour, garantissant la fiabilité statistique des résultats dans la diversité croissante des applications d’AlphaFold2 et AlphaFold3. À cette fin, les auteurs visent le problème crucial mais souvent négligé de la “fuite d’homologues”, en concevant un processus rigoureux de filtrage et de sélection, conduisant à la création du jeu de données de référence “beta”. Cette ressource couvre plusieurs contextes structuraux et séquentiels, et répond aux exigences des différents scénarios d’application d’AlphaFold pour permettre des tests indépendants de haute qualité.
2. Construction du jeu de données beta
(1) Collecte des bases de données et choix des dates charnières
Les auteurs ont d’abord téléchargé, le 21 mai 2024, les versions les plus récentes des bases PDB (Protein Data Bank), SwissProt (de UniProt), et BioGRID (interactions protéiques). En se conformant strictement aux dates de coupure d’entraînement et de modèles historiques d’AlphaFold2/3, ils définissent plusieurs seuils : 30 avril 2018, 31 mai 2020, 15 février 2021, 30 septembre 2021, 15 juillet 2022, 1er novembre 2022, 1er janvier 2023 et 1er janvier 2024. Chaque jalon utilise comme frontière le premier jour du mois, afin de distinguer “connu” de “nouveau”, et d’assurer que tous les exemples de test soient de véritables inconnus pour l’apprentissage automatique.
(2) Recherche d’homologues et algorithmes de filtrage
Pour garantir l’indépendance maximale du jeu de référence et minimiser la fuite d’homologues, plusieurs étapes de recherche ont été utilisées :
- Recherche d’homologues de séquence : PSI-BLAST (e-value à 0,0001, trois itérations, 50 000 cibles max.) compare les structures apparues après chaque date clé aux structures plus anciennes. Tout alignement de plus de 10 acides aminés avec une identité de séquence >20 % est considéré comme homologue et retiré.
- Recherche d’homologues structuraux : Foldseek (max. 50 000 cibles) élimine toute structure présentant un alignement >10 résidus et TM-score >0,25.
- Analyse croisée SwissProt–PDB : PSI-BLAST applique la même logique en comparant les séquences SwissProt à la base structurale.
À noter : pour les dates d’entraînement critique (30 avril 2018, 30 septembre 2021), les structures NMR ont été exclues, car AlphaFold ne les a pas utilisées comme modèles directs.
(3) Détection des interactions protéiques et analyse des états structuraux
L’outil Voronota automatise la détection des interactions inter-chaînes dans la PDB (en se basant sur le premier état d’oligomérisation de PDBe), tandis que BioGRID (interactions “directes” uniquement) sert de source annexe pour les relations d’interactions SwissProt, préparant ainsi le terrain aux analyses de complexes.
(4) Intégration multibase et génération du jeu beta
Grâce à ce pipeline strict, le jeu “beta” comprend :
- Des chaînes de PDB monomériques sans aucun homologue historique
- Des paires de chaînes interagissantes dans la PDB sans aucune homologie dans le passé
- Des séquences complètes SwissProt non couvertes par la PDB préexistante
- Des paires d’interactions SwissProt sans antécédents homologues
Les flux de données, les relations entre bases, et toutes les étapes du pipeline sont schématiquement présentés dans la Figure 1. Codes sources et jeux de données sont accessibles pour téléchargement et réutilisation sur https://beta.pbrg.hu et https://github.com/brgenzim/beta.
3. Application pratique : prédiction des segments désordonnés (IDRs)
Pour valider la pertinence et la valeur anti-fuite du jeu beta, l’équipe a choisi la prédiction des segments désordonnés des protéines basée sur la structure AlphaFold comme étude de cas.
(1) Définition des IDRs et intégration des jeux de données
Tous les monomères PDB ont été recensés, les séquences identiques à plus de 40 % exclues via CD-HIT. La présence de “résidus sans coordonnées latérales” a été la définition opérationnelle des résidus désordonnés, en conformité avec DisProt et MobiDB. Les segments de moins de 10 acides aminés ont été ignorés pour éviter les biais statistiques.
Le mapping structure-séquence utilise SIFTS afin de relier identifiants UniProt, chaînes PDB et numéros de résidus. Tous les résidus étudiés sont annotés : ordonné/désordonné, score plDDT dans AF2, appartenance à un sous-ensemble “homologue” ou “beta”.
(2) Distribution du score plDDT et évaluation du pouvoir prédictif
Le plDDT a déjà démontré son utilité pour la prédiction des IDRs. Ici, la distribution du plDDT pour tous les résidus analysés, dans l’ensemble complet et dans l’ensemble “beta”, est comparée via le test de Kolmogorov-Smirnov. En variant les seuils de plDDT, l’équipe détermine le cutoff assurant la “balanced accuracy” maximale. Il apparaît que l’exclusion stricte des homologues modifie fortement à la fois le seuil et l’exactitude prédictive.
(3) Taille de l’échantillon, stratégie expérimentale et principaux résultats
Par filtrage strict, le jeu beta ne comprend que 1 062 résidus désordonnés, bien moins que dans la collection complète – les auteurs l’expliquent par le biais des dépôts récents de grandes structures complexes et la rareté des monomères récents. Pour prévenir toute distorsion statistique, ils procèdent à cinq échantillonnages aléatoires de 50 %, estiment l’erreur standard, et obtiennent ainsi des estimations robustes du seuil plDDT et des performances.
(4) Conclusion essentielle
Sans élimination des homologues, le cutoff optimal de plDDT pour prédire les IDRs est 0,89 ; avec beta, il tombe à 0,69, et la justesse globale s’abaisse. Les auteurs montrent ainsi que des tests vraiment indépendants conduisent à une évaluation plus réaliste et plus exigeante : la “fuite de données” mène systématiquement à une surestimation des performances avales.
Conclusions académiques majeures et portée du travail
Alerte sur les fuites de données et établissement de nouvelles normes
Cette étude examine systématiquement un point aveugle du système AlphaFold : la “fuite de données”, et propose un ensemble cohérent et évolutif de jeux de données indépendants (beta), servant de “gold standard” pour tous les futurs développements et évaluations scientifiques ou industriels utilisant AlphaFold. Cette démarche garantit la validité scientifique des résultats et prépare le terrain à des applications telles que l’identification d’épitopes, la prédiction de régions à séparation de phase, l’évaluation de l’effet pathogène des mutations, ou la détection de complexes médiés par des SLiMs.
Ressource ouverte pour la correction communautaire
Tous les jeux de données, scripts et critères sont mis en ligne pour l’ensemble de la communauté. Applications par base de données officielle (AlphaFold DB), ColabFold, ou instance locale : toutes peuvent utiliser beta selon leur version, sélectionnant la date appropriée pour assurer la stricte indépendance. Même les algorithmes nouveaux non-AlphaFold (ex. Boltz-1, ESMFold) peuvent directement s’approprier la logique de beta pour une évaluation extérieure rigoureuse.
Directives pour la recherche et les applications futures
- Signification scientifique : pour apprécier la performance réelle de nouvelles méthodes, des jeux indépendants sans fuite sont indispensables ; cette étude pose un jalon pour la bioinformatique structurale.
- Innovation d’usage : un protocole de benchmarking standardisé et la mise à disposition ouverte de ressources permettent à tous les biologistes, même sans expertise informatique, de s’approprier des données de référence de haute qualité.
- Appel à l’auto-discipline communautaire : les auteurs rappellent que, malgré l’euphorie de l’IA, la rigueur scientifique et le respect des fondements de la science des données restent inaliénables. La “fuite de données” ne doit jamais être la cause d’illusions statistiques.
Points saillants de l’article et spécificités du travail
- Proposition d’un jeu de référence indépendant, flexible et mis à jour régulièrement, qui établit de nouveaux standards pour le machine learning appliqué à la biologie structurale.
- Pipeline d’élimination des homologues hautement automatisé (intégrant PSI-BLAST, Foldseek, Voronota, avec dates de coupure manuelles successives), garantissant une indépendance stricte des données.
- Exemple concret et parlant (prédiction des IDRs) exposant l’impact du “data leakage” sur les évaluations.
- Ouverture totale des données et codes sources pour une construction communautaire et une réutilisation aisée.
Autres informations utiles
- L’étude est soutenue par plusieurs fonds de recherche nationaux hongrois et du ministère de la culture et de l’innovation.
- Les auteurs remercient Rita Pancsa et Zsofia E. Kalman pour leur contribution à la rédaction et à la conception du site web.
- Données, codes et suppléments sont en ligne (ex. https://zenodo.org/records/14711867).
- L’équipe s’engage à affiner et enrichir le jeu beta à mesure que les modèles AlphaFold et les bases évoluent, consolidant ainsi le standard communautaire.
En résumé : un “nouveau point de référence” en bioinformatique structurale
Face à la déferlante de l’IA déclenchée par AlphaFold, Dobson et ses collègues rappellent que seule la rigueur scientifique permet de transformer la technologie en véritable progrès biomédical. L’établissement du point de référence “beta” trace une ligne rouge éthique et méthodologique pour tous les usages du deep learning en prédiction structurale, et insuffle une nouvelle dynamique à la standardisation sectorielle. Désormais, le choix d’un jeu de données vraiment indépendant et sans fuite devient une étape incontournable pour toute nouvelle méthode. Ce travail, à la fois avant-gardiste et méthodologiquement exemplaire, offre un nouveau paradigme intégrant transversalité disciplinaire et ouverture communautaire.