Cox-SAGE : Amélioration du modèle de risques proportionnels de Cox avec des réseaux de neurones graphiques interprétables pour le pronostic du cancer
I. Contexte de la recherche et avancées disciplinaires
L’analyse du pronostic du cancer a toujours constitué un axe central de recherche dans le domaine médical. Ces dernières années, grâce à la large diffusion des technologies de séquençage à haut débit (high-throughput sequencing technologies), les scientifiques ont pu explorer en profondeur les biomarqueurs moléculaires (biomarker) et les caractéristiques cliniques des patients atteints de cancer, permettant ainsi aux cliniciens d’évaluer plus précisément le risque de survie des patients et d’élaborer des stratégies thérapeutiques individualisées. Le modèle classique des risques proportionnels de Cox (Cox proportional hazards model), en tant qu’outil standard d’analyse de survie, est largement utilisé dans la recherche sur le pronostic du cancer en raison de ses bases statistiques solides et de sa grande adaptabilité.
Cependant, avec l’introduction de l’apprentissage profond (Deep Learning, DL) et des données multi-omiques (omics), les scientifiques ont progressivement pris conscience des limites du modèle de Cox traditionnel en matière d’extraction de caractéristiques et de modélisation de relations complexes. De nombreuses méthodes basées sur le deep learning tendent à se concentrer sur l’extraction de caractéristiques ou n’utilisent que de simples couches entièrement connectées pour le scoring du risque, et ces méthodes présentent en général un problème d’interprétabilité des caractéristiques (le « problème de la boîte noire »). En outre, la majorité des méthodes existantes n’exploitent pas pleinement les relations de similarité entre patients, négligeant ainsi les régularités potentielles liées à l’hétérogénéité individuelle, ce qui limite la valeur clinique et le pouvoir explicatif scientifique des modèles.
Pour remédier à ces difficultés, l’exploration pionnière des réseaux de neurones graphiques (Graph Neural Networks, GNNs) dans l’analyse du pronostic du cancer a émergé ces dernières années. Les GNN peuvent intégrer les structures complexes de relations entre patients, conférant ainsi aux modèles de pronostic une capacité de traitement de l’information structurée, naturellement compatible avec les données de réseaux biologiques ou de similarité de patients. Cependant, la plupart des recherches existantes sur les GNN souffrent encore d’une capacité limitée d’interprétation, d’un mécanisme de scoring peu transparent voire assimilable à une « boîte noire », et d’opacité des facteurs de risque, ce qui empêche la mise en œuvre effective d’outils de stratification du risque qui conjuguent précision et interprétabilité pour la clinique.
Face à ce point de blocage disciplinaire, l’équipe de cet article présente un nouvel algorithme de GNN interprétable pour l’analyse du pronostic — Cox-SAGE. Cette méthode, partant d’informations cliniques hétérogènes multi-sources, construit de manière innovante un graphe de similarité patient, intègre les fonctions de risque du modèle de Cox via la convolution sur graphe, et propose un mécanisme d’explication des paramètres ainsi qu’un double indicateur pour la mesure de l’importance des gènes, ouvrant ainsi la voie d’une transformation de la « boîte noire » vers la « boîte blanche » dans l’analyse de survie des cancers.
II. Source de la publication et équipe de recherche
L’article s’intitule “Cox-SAGE: enhancing Cox proportional hazards model with interpretable graph neural networks for cancer prognosis”. Les auteurs — Ruijun Mao, Li Wan, Minghao Zhou, Dongxi Li, et al. — sont affiliés au College of Artificial Intelligence et au College of Computer Science and Technology de la Taiyuan University of Technology, à Taiyuan, province du Shanxi, Chine. Cette recherche a été publiée en 2025 dans la revue internationale de renom “Briefings in Bioinformatics” et est éditée par Oxford University Press, représentant une avancée majeure à l’intersection de l’analyse de survie en cancérologie et de l’intelligence artificielle. Le code source, les données ainsi que les scripts de reproduction sont accessibles sur GitHub (https://github.com/beeeginner/cox-sage).
III. Décryptage détaillé du processus de recherche
1. Conception générale de l’étude
Le dispositif complet de Cox-SAGE comprend trois modules principaux : ① construction du graphe de similarité des patients et extraction des caractéristiques ; ② construction et entraînement du modèle de pronostic basé sur un GNN interprétable ; ③ identification et analyse des gènes pronostiques. Les auteurs se concentrent non seulement sur le carcinome hépatocellulaire (LIHC), mais testent aussi systématiquement leur méthode sur sept grands cohortes TCGA (The Cancer Genome Atlas), incluant, entre autres, le cancer du poumon et du côlon.
1.1 Intégration des informations cliniques hétérogènes et construction du graphe de similarité
Les données cliniques des différentes cohortes cancéreuses comprennent l’âge, le sexe, la race, le stade tumoral, le sous-type histologique, etc. Les données cliniques étant composées de variables ordinales, nominales, numériques ou binaires, les auteurs ont conçu un algorithme de mesure de distance à attributs mixtes (Algorithm 1) appliquant une normalisation et un pondération unifiées pour chaque type de caractéristique afin de calculer les distances/similarités multivariées entre paires de patients. Enfin, sur la base d’un seuil statistique (médiane combinée aux quartiles), seuls les patients hautement similaires sont reliés par une arête, composant ainsi un graphe non orienté de similarité entre patients (Patients’ Similarity Graph).
1.2 Sélection et intégration des caractéristiques d’expression génétique
Chaque nœud patient reçoit une intégration sous forme de vecteur d’expression des gènes codant les protéines issu de la transcriptomique (RNA-seq, transformée log2 des comptes bruts). Seuls les gènes codant des protéines (au nombre de 19938) sont conservés, constituant ainsi un vecteur de dimension très élevée (environ 20 000 dimensions par patient). La gestion des données manquantes se fait par imputation (modale ou random forest pour les valeurs manquantes mineures), avec exclusion stricte des échantillons pourvus de valeurs manquantes importantes.
1.3 Construction du modèle de pronostic Cox-SAGE par GNN
Les auteurs reposent leur conception sur l’opération de convolution GraphSAGE (de Hamilton et al.), chaque couche du modèle assurant une agrégation linéaire pondérée des caractéristiques propres du nœud et des informations de voisinage. Tous les paramètres sont apprenants et le modèle reste sans fonction d’activation, assurant ainsi une structure de sortie strictement linéaire et conservant l’interprétabilité du modèle de Cox.
La structure à multiples couches s’organise comme suit : - Première couche : transformation linéaire des caractéristiques propres du nœud + moyenne des voisins + biais ; - Couches suivantes : transmission récursive des informations de voisinage via couches empilées ; - Enfin, transformation linéaire finale rendant le score de risque (« proportional hazards »), entraînée par minimisation de la perte du log-vraisemblance partielle négative, via l’optimiseur Adam et régularisation des poids pour éviter le surapprentissage.
1.4 Déduction explicative des paramètres et design des indicateurs de dangerosité des gènes
Pour résoudre le problème de la “boîte noire” en deep learning, les auteurs appliquent une analyse du gradient et la règle de la chaîne à chaque couche du modèle, démontrant rigoureusement comment toute variation d’expression d’un gène influence directement le score de risque : dans un modèle une couche, la sortie dépend linéairement des poids α (caractéristiques propres) et β (voisinage) du modèle ; dans un modèle multicouche, la combinaison linéaire des paramètres transmises en chaîne.
Ils proposent ensuite une double stratégie d’évaluation de l’importance : - MHZ (Mean Hazard Ratio, ratio moyen de risque) : simule la suppression d’un gène donné et mesure la hausse moyenne du score de risque, quantifiant ainsi la relation entre faible expression et haut risque pronostique ; - RMHZ (Reciprocal of Mean Hazard Ratio, inverse du MHZ) : quantifie le bénéfice/risque d’une forte expression d’un gène donné.
Par calcul croisé sur l’ensemble de la cohorte, le classement de ces indicateurs permet d’identifier sous deux angles complémentaires les gènes pronostiques clés dans différents contextes d’expression.
1.5 Évaluation empirique et expérimentation comparative
La démarche est validée sur sept cohortes de cancers extraites du TCGA (LIHC, LUAD, COAD, etc.), les tableaux 1 et 2 recensant précisément le nombre d’échantillons, la distribution des événements de survie et les caractéristiques cliniques utilisées. Les jeux de données sont rigoureusement répartis en ensembles d’entraînement, de validation et de test, avec validation croisée à cinq volets et essais par plusieurs graines aléatoires pour accroître la robustesse. En parallèle, la méthode Cox-SAGE est systématiquement comparée aux modèles de référence (GraphSurv, LAGPROG, GGNN, AutoSurv, Cox-KAN, Cox-EN, Cox-AE), tous reconsidérés avec reproduction complète et réglages minutieux, l’indicateur principal étant le C-index de Harrell.
2. Principaux résultats expérimentaux et lecture des données
2.1 Comparaison des performances entre cohortes
Le tableau 3 montre clairement que Cox-SAGE surpasse ou égale tous les modèles de pronostic de référence dans chacune des cohortes cancéreuses. Par exemple, pour l’hépatocarcinome (LIHC), le modèle Cox-SAGE à deux couches atteint un C-index de 0,782, nettement supérieur à Cox-AE (0,563) ou COX-KAN (0,627). De plus, les modèles multicouches (2 ou 4 couches) sont presque toujours plus performants que les modèles à une seule couche, confirmant l’intérêt des architectures innovantes proposées.
2.2 Stratification du risque pronostique et différences de survie
Pour la cohorte LIHC, les auteurs opèrent une segmentation par la médiane des sorties du modèle, divisant les patients en groupes à haut et bas risque, puis appliquent la courbe de survie de Kaplan-Meier et le test du log-rank. Les résultats montrent une séparation nette des courbes de survie entre les groupes, avec des valeurs p du log-rank toutes inférieures à 0,005, attestant du très fort pouvoir de stratification clinique du modèle.
2.3 Exploration et visualisation des gènes pronostiques
Sur la cohorte LIHC, les auteurs extraient pour chacun des trois modèles (profond 1, 2 et 4 couches) les paramètres et calculent pour chaque gène les valeurs MHZ et RMHZ, sélectionnant in fine via leur médiane les gènes les plus importants selon chaque critère. Ceci conduit à la sélection d’environ 2 450 gènes clés (2 456 pour faible expression à haut risque, 2 487 pour forte expression à haut risque) sur 19 938 gènes. Illustrant avec des gènes comme CD69 (à forte expression et haut risque), les auteurs fournissent des cartes de contours visualisant l’impact des variations d’expression sur le score de risque du modèle, renforçant l’interprétabilité des résultats.
Enfin, 20 gènes dont la corrélation avec le pronostic du carcinome hépatocellulaire (HCC) est la plus marquée ont été retenus (voir tableau 4). La revue de la littérature montre que 17 d’entre eux sont déjà associés à la pathogenèse hépatique, tandis que les 3 autres sont liés à d’autres cancers, ouvrant de nouvelles pistes pour la recherche fondamentale et la définition de cibles thérapeutiques potentielles.
3. Conclusion, intérêts scientifiques et applications
Le modèle Cox-SAGE proposé par les auteurs résout systématiquement l’« impasse de l’interprétabilité » en analyse de survie par deep learning, avec des innovations importantes en conception d’architecture, déduction des paramètres et formalisation des indicateurs de risque. Non seulement le modèle améliore notablement la précision et la stabilité de l’analyse de survie, mais il permet aussi, par déduction théorique, l’explication quantitative et détaillée des facteurs de risque critiques, alliant ainsi explicabilité scientifique et application clinique.
Il importe de souligner que la méthodologie Cox-SAGE est largement applicable à de multiples types de données omiques, à des variables cliniques hétérogènes et à des cancers variés. Elle couvre non seulement les cohortes actuelles et les données de génome tissulaire, mais offre aussi une base méthodologique précieuse pour la prédiction de risque et l’identification de biomarqueurs dans des scénarios pathologiques complexes.
IV. Points saillants et innovations de la recherche
- Méthode innovante de construction du graphe de similarité patient : un algorithme de mesure de distance pour données cliniques véritablement hétérogènes, qui améliore la capacité du réseau à capter les différences inter-individuelles.
- Architecture de réseau de neurones sur graphe hautement interprétable : abandon du fonctionnement en « boîte noire » typique, au profit d’une structure entièrement linéaire et sans activation, garantissant une correspondance bijective entre chaque paramètre et son effet sur le risque.
- Double indicateur MHZ/RMHZ pour la dangerosité génétique : une approche duale pour quantifier à la fois le risque lié à une faible expression et celui lié à une forte expression des gènes cibles.
- Intégration multi-niveaux des données omiques et cliniques : compatibilité totale avec de grandes échelles de données d’expression génique, généralisable à des informations omiques multiples et divers types de cancers.
- Open source et reproductibilité : mise à disposition complète des données, codes et protocoles expérimentaux, offrant à la communauté scientifique et industrielle un support solide pour l’expérimentation distribuée et l’itération collaborative.
V. Autres contenus utiles
- L’étude offre une comparaison détaillée avec de nombreux modèles classiques et de pointe, assurant la robustesse et la fiabilité statistique des résultats par une validation croisée et des essais multi-graines.
- Les données brutes et les paramètres modèles sont disponibles sur plusieurs plateformes (GitHub, Kaggle, Zenodo), favorisant la réutilisation et les innovations futures de la communauté scientifique.
- Cette recherche a reçu le soutien du programme de recherche fondamentale de la province du Shanxi, illustrant la solidité des capacités en intelligence artificielle médicale développées localement.
VI. Conclusion
Cox-SAGE préfigure la tendance dominante des temps à venir en matière de stratification des tumeurs et de pronostic individualisé à l’ère du “big data + IA”. Sa démarche méthodologique et ses résultats constituent non seulement une avancée importante en analyse de survie, mais aussi un exemple majeur d’application de l’interprétabilité en deep learning. Ce cadre méthodologique a vocation à accompagner le développement de la recherche fondamentale biomédicale, la pratique clinique et la prédiction du risque dans de nombreux autres scénarios pathologiques.