Sul-BERTGRU : Une méthode d'apprentissage profond intégrant BERT amélioré par l'entropie de l'information et GRU multidirectionnel pour la prédiction des sites de S-sulfhydration

Contexte

Les modifications post-traductionnelles des protéines (Post-Translational Modifications, PTMs) sont des mécanismes clés dans la régulation des activités cellulaires, incluant la transcription génique, la réparation de l’ADN et les interactions protéiques. Parmi ces modifications, la cystéine (Cysteine), un acide aminé rare, participe à diverses PTMs via son groupe thiol (Thiol Group), jouant un rôle crucial dans l’équilibre redox et la transmission de signaux. La S-sulfhydration (S-Sulfhydration) est une PTM importante, étroitement liée au développement de maladies cardiovasculaires et neurologiques. Cependant, les mécanismes précis de la S-sulfhydration restent mal compris, notamment en ce qui concerne l’identification des sites.

Les méthodes traditionnelles d’identification des sites de S-sulfhydration, comme la méthode de conversion à la biotine (Biotin Conversion Method) et la méthode de fluorescence à la maléimide (Maleimide Fluorescence Method), bien que précises, dépendent souvent de réactifs chimiques et souffrent de problèmes de spécificité et de sensibilité insuffisantes. Ces dernières années, avec l’essor des techniques d’apprentissage profond, les chercheurs ont commencé à utiliser ces technologies pour prédire les sites de modifications protéiques. Cependant, les recherches sur la prédiction des sites de S-sulfhydration restent limitées, et les modèles existants, comme PCysMod, ne répondent pas encore aux besoins des applications réelles.

Pour résoudre ces problèmes, une équipe de recherche de l’Université Maritime de Dalian, de l’Université de Jiangnan et d’autres institutions a proposé un nouveau cadre d’apprentissage profond appelé Sul-BERTGRU, visant à améliorer la précision et l’efficacité de la prédiction des sites de S-sulfhydration en intégrant une unité récurrente à portes (GRU) multidirectionnelle et un BERT amélioré par l’entropie informationnelle (IE-BERT).

Source de l’article

Cette recherche a été menée par Xirun Wei, Qiao Ning, Kuiyang Che, Zhaowei Liu, Hui Li et Shikai Guo, issus de l’École des Sciences et Technologies de l’Information de l’Université Maritime de Dalian, de l’École d’Intelligence Artificielle et d’Informatique de l’Université de Jiangnan, du Laboratoire Clé de Calcul Symbolique et d’Ingénierie des Connaissances du Ministère de l’Éducation de l’Université de Jilin, entre autres. L’article a été publié le 20 février 2025 dans la revue Bioinformatics, sous le titre Sul-BERTGRU: An Ensemble Deep Learning Method Integrating Information Entropy-Enhanced BERT and Directional Multi-GRU for S-Sulfhydration Sites Prediction.

Contenu de la recherche

Processus de recherche

Le cadre Sul-BERTGRU est composé de quatre modules : le module de traitement des données, le module IE-BERT, le module d’apprentissage de confiance et le module d’extraction de caractéristiques directionnelles.

  1. Module de traitement des données : Tout d’abord, la séquence protéique est divisée en deux sous-séquences gauche et droite, centrées sur la cystéine. Chaque site est encadré par une fenêtre de 31 acides aminés (-15C+15), générant des échantillons positifs (contenant des sites de S-sulfhydration) et négatifs (ne contenant pas de sites de S-sulfhydration). L’ensemble de données comprend 2705 échantillons positifs et 16697 échantillons négatifs, dont 20 % sont utilisés pour un ensemble de test indépendant, et 80 % pour les ensembles d’entraînement et de validation.

  2. Module IE-BERT : Ce module utilise un BERT amélioré par l’entropie informationnelle (IE-BERT) pour prétraiter les séquences protéiques et en extraire les caractéristiques initiales. Le modèle BERT traite la séquence protéique via 12 couches d’encodeurs Transformer, et les sorties de chaque couche sont agrégées par pondération d’entropie informationnelle pour renforcer l’expressivité des caractéristiques.

  3. Module d’apprentissage de confiance : En raison des limitations des expériences biologiques, des échantillons négatifs peuvent contenir des sites de S-sulfhydration mal étiquetés. Pour réduire l’impact de ces bruits sur l’entraînement du modèle, les chercheurs utilisent une méthode d’apprentissage de confiance (Confident Learning) pour éliminer les échantillons potentiellement mal étiquetés, assurant ainsi la fiabilité des échantillons négatifs.

  4. Module d’extraction de caractéristiques directionnelles : Ce module utilise un modèle GRU multidirectionnel pour extraire les caractéristiques directionnelles des séquences protéiques. Considérant la directionnalité des réactions enzymatiques, la séquence protéique est divisée en séquences gauche, droite et complète, traitées séparément par le modèle GRU. Ensuite, un mécanisme d’auto-attention multi-têtes (Multi-Head Self-Attention) et un réseau de neurones convolutifs (CNN) sont utilisés pour analyser davantage les caractéristiques de la séquence, capturant les détails locaux potentiellement négligés.

Résultats principaux

Sul-BERTGRU a obtenu des performances remarquables sur plusieurs indicateurs : sensibilité (Sensitivity) de 85,82 %, spécificité (Specificity) de 68,24 %, précision (Precision) de 74,80 %, exactitude (Accuracy) de 77,44 %, coefficient de corrélation de Matthews (Matthews Correlation Coefficient, MCC) de 55,13 % et aire sous la courbe (Area Under Curve, AUC) de 77,03 %. Par rapport au modèle PCysMod existant, Sul-BERTGRU a montré une performance supérieure sur la plupart des indicateurs, en particulier une amélioration significative de la sensibilité.

Conclusion et signification

La proposition de Sul-BERTGRU offre un nouveau cadre d’apprentissage profond pour la prédiction des sites de S-sulfhydration, améliorant significativement la précision et l’efficacité de la prédiction. L’innovation de ce cadre réside dans l’introduction d’un BERT amélioré par l’entropie informationnelle et d’un GRU multidirectionnel, permettant de mieux capturer les caractéristiques directionnelles et les détails locaux des séquences protéiques. De plus, l’application du module d’apprentissage de confiance a permis de réduire efficacement les bruits dans les échantillons négatifs, améliorant ainsi les performances du modèle.

Cette recherche a non seulement une valeur scientifique importante, mais fournit également de nouveaux outils pour comprendre le rôle de la S-sulfhydration dans les maladies cardiovasculaires et neurologiques. À l’avenir, les chercheurs prévoient d’intégrer davantage d’informations structurelles pour améliorer encore l’extraction des caractéristiques et la précision des prédictions.

Points forts de la recherche
  1. BERT amélioré par l’entropie informationnelle : L’agrégation pondérée par l’entropie informationnelle des sorties des 12 couches d’encodeurs BERT a significativement amélioré l’efficacité et la précision de l’extraction des caractéristiques.
  2. Algorithme GRU multidirectionnel : L’introduction d’un modèle GRU multidirectionnel permet de mieux capturer les caractéristiques directionnelles de la S-sulfhydration.
  3. Module d’apprentissage de confiance : La méthode d’apprentissage de confiance a permis d’éliminer les bruits dans les échantillons négatifs, améliorant la capacité de généralisation du modèle.
  4. Cadre intégré multi-modules : Le cadre Sul-BERTGRU intègre plusieurs modules d’apprentissage profond, surpassant significativement les méthodes existantes de prédiction des sites de S-sulfhydration.

Autres informations pertinentes

Le code source et les données de cette recherche sont disponibles sur GitHub (https://github.com/severus0902/sul-bertgru/), permettant à la communauté académique et industrielle de les exploiter pour des recherches et applications ultérieures. De plus, les chercheurs ont réalisé une analyse ontologique des gènes (Gene Ontology, GO) et une analyse des voies métaboliques de la Kyoto Encyclopedia of Genes and Genomes (KEGG) sur les protéines S-sulfhydrées, révélant que la S-sulfhydration est étroitement liée à diverses maladies (comme la maladie de Parkinson et la maladie d’Alzheimer), ouvrant ainsi de nouvelles perspectives pour la recherche sur ces maladies.

Grâce à cette étude, nous avons non seulement approfondi notre compréhension des mécanismes de la S-sulfhydration, mais nous avons également fourni de nouvelles techniques pour la prédiction des sites de modifications protéiques, ouvrant des perspectives d’application vastes et variées.