Une comparaison des méthodes de sélection de variables de forêt aléatoire pour la modélisation de régression de résultats continus

Contexte : L’importance de la sélection de variables dans les modèles de régression par apprentissage automatique

Ces dernières années, l’application généralisée de l’apprentissage automatique dans les domaines de la bioinformatique et des sciences des données a grandement stimulé le développement de la modélisation prédictive. La régression par forêt aléatoire (Random Forest, RF), en tant qu’algorithme d’ensemble couramment utilisé, s’est imposée comme un outil essentiel pour construire des modèles de prédiction pour des issues continues, grâce à sa capacité à améliorer la précision des prédictions et la robustesse des modèles. Cependant, face à des données de grande dimension, un plus grand nombre de variables prédictives dans le modèle ne signifie pas systématiquement une meilleure performance, et peut au contraire entraîner une redondance d’information, un surapprentissage, ou compliquer l’application pratique. Ainsi, la « sélection de variables » (Variable Selection/Feature Selection/Feature Reduction) devient une étape cruciale du processus de modélisation.

La sélection de variables permet non seulement de réduire la redondance, d’améliorer les performances prédictives et la capacité de généralisation du modèle, mais aussi de diminuer les coûts liés à la collecte de données et au déploiement, tout en accroissant l’interprétabilité et l’efficacité. Diverses méthodes utilisant les forêts aléatoires pour la sélection des variables ont été proposées par le passé, mais sur des données réelles à issues continues, les performances, l’adaptabilité et les meilleurs choix manquent encore de recommandations consensuelles. Par ailleurs, la sélection de variables poursuit plusieurs objectifs : rechercher à la fois la précision des prédictions, la simplicité du modèle (réduction du nombre de variables) et l’efficacité computationnelle.

Source de l’article et présentation des auteurs

Ce travail présente les résultats de l’article « A comparison of random forest variable selection methods for regression modeling of continuous outcomes », publié en 2025 dans Briefings in Bioinformatics (Volume 26, Issue 2, DOI : https://doi.org/10.1093/bib/bbaf096), réalisé par Nathaniel S. O’Connell, Byron C. Jaeger, Garrett S. Bullock et Jaime Lynn Speiser. Les auteurs sont affiliés au Département de biostatistique et science des données, au Département de chirurgie orthopédique et à la Division des sciences de la santé publique de la Wake Forest University School of Medicine (États-Unis).

Description détaillée du protocole d’évaluation comparative

1. Objectifs et conception globale de l’étude

L’étude vise à évaluer et comparer de façon systématique 13 méthodes de sélection de variables par régression forêt aléatoire, implémentées sous R, pour des issues continues, et à clarifier leurs performances sur divers jeux de données réelles et publiques. Les critères d’évaluation couvrent trois aspects majeurs : la précision prédictive du modèle (principalement via R^2), la compacité du modèle (proportion de réduction du nombre de variables) et l’efficacité computationnelle (temps requis). L’étude promeut un esprit de science ouverte : tous les codes et données sont en libre accès, garantissant la reproductibilité et la transparence.

2. Origine et traitement des jeux de données

Tous les jeux de données utilisés proviennent d’openml (https://www.openml.org/) et du paquet R modeldata. Les critères d’inclusion sont stricts : uniquement des jeux de données pour tâches de régression supervisée, moins de 50 % de valeurs manquantes, un nombre de variables compris entre 10 et 1000, une taille d’échantillon entre 100 et 10 000, et la variable d’issue doit être continue avec au moins 10 valeurs distinctes. Au final, 59 jeux de données sont retenus (53 d’openml, 6 de modeldata), couvrant un large éventail de domaines : médecine, fabrication, météorologie, économie, éducation, etc., assurant une excellente représentativité.

3. Implémentation et classification des méthodes de sélection de variables

Les 13 méthodes évaluées sont toutes issues de l’écosystème R, comprenant des paquets classiques comme caret, boruta, vsurf, rrf, mais aussi de récentes variantes des forêts aléatoires « obliques » (oblique random forest), telles que la série aorsf. Chaque méthode est implémentée selon la description de la publication d’origine, sauf mention contraire, et les hyperparamètres utilisés sont par défaut. Les auteurs distinguent deux grandes catégories de méthodes : - Méthodes basées sur des tests : sélection via tests statistiques ou permutation afin d’identifier la significativité des variables (ex. boruta, altman, aorsf-permutation). - Méthodes basées sur les performances : sélection récursive selon l’impact sur la performance du modèle lorsqu’on ajoute ou retire une variable (ex. caret, jiang, rrf, aorsf-menze).

4. Procédure expérimentale et évaluation

Les auteurs appliquent 20 validations croisées de type Monte Carlo (split-sample validation). Chaque jeu de données est divisé aléatoirement en un ensemble d’entraînement et un ensemble test (50 %:50 %; pour les grands jeux de données, un maximum de 1000 observations pour l’entraînement). La sélection de variables s’effectue toujours sur l’ensemble d’entraînement. Pour les jeux très larges (>150 variables), un sous-ensemble aléatoire de 150 variables est sélectionné à chaque itération, pour limiter les temps de calcul. Les variables finalistes servent ensuite à entraîner un modèle forêt aléatoire « classique » (axis-based RF, paquet ranger) et un modèle forêt aléatoire oblique (oblique RF, paquet aorsf). Les performances sont évaluées sur l’ensemble test via le R^2. En complément, pour chaque méthode, sont consignés le temps de sélection, la proportion de réduction de variables, et une standardisation par z-score permet de comparer les performances entre méthodes et jeux de données.

Principaux résultats de l’étude

1. Performance globale des méthodes de sélection

Efficacité computationnelle

Les méthodes les plus rapides sont axis-sfe, rrf, aorsf-menze, aorsf-negation et aorsf-permutation, avec un temps médian inférieur à 5 secondes sur l’essentiel des jeux de données. Les méthodes les plus lentes sont rfvimptest, caret et svetnik, certaines itérations pouvant nécessiter plusieurs milliers de secondes.

Capacité de réduction de variables

rfvimptest offre la compression la plus forte (>90%), suivie de vsurf, altman et svetnik (environ 80%), tandis que rrf conserve quasiment toutes les variables. Il est à noter que pour certaines méthodes (telles que caret et boruta), la proportion de variables retenues varie largement entre jeux de données, traduisant une adaptabilité à diverses complexités.

Performance prédictive (R^2)

À l’exception de rfvimptest, toutes les méthodes évaluées présentent une médiane de R^2 test comprise entre 0,61 et 0,67 (pour l’axis-RF) et entre 0,62 et 0,73 (pour l’oblique-RF), indiquant que, bien que la stratégie diffère, la capacité de prédiction finale des principales méthodes converge. Les meilleures valeurs de R^2 sont observées pour aorsf-menze et aorsf-permutation (en oblique RF), tandis que caret, jiang, boruta et aorsf-permutation se démarquent en axis-RF.

2. Analyses de sensibilité et analyses stratifiées

Parce que certaines méthodes occasionnellement n’identifient aucune variable (par exemple rfvimptest sur de nombreux jeux de données, boruta sur quelques-uns, altman et vsurf dans des cas isolés), une analyse de sensibilité a été réalisée, ne conservant que les réplicats où toutes les méthodes sélectionnent au moins une variable. Les classements restent identiques à l’analyse principale, soulignant la robustesse des conclusions.

En outre, une stratification selon le rapport nombre d’observations/nombre de variables (n:p) montre que : - Pour un faible ratio n:p (<10, situations de grande dimension, faible échantillon), l’oblique RF s’avère nettement supérieur à l’axis-RF. - Pour un ratio n:p élevé, les performances entre axis et oblique RF tendent à converger pour les principales méthodes.

3. Comparaisons des caractéristiques et des catégories de méthodes

L’article compare aussi les implémentations algorithmiques (axis-RF, conditional RF, oblique RF) et les catégories (test vs performance). Les méthodes « conditional RF » sont pénalisées par leur lourde charge computationnelle ; à l’inverse, les méthodes obliques type aorsf allient rapidité et précision, se plaçant largement en tête ; aucune supériorité nette n’est observée entre les familles test-based ou performance-based, le détail de l’algorithme restant principalement déterminant.

4. Transparence et reproductibilité des données et du code

L’ensemble du code source et des données de l’étude sont publiés sur GitHub (https://github.com/nateoconnellphd/rfvs_regression), promouvant la transparence, la reproductibilité scientifique et encourageant la réutilisation ou l’extension par la communauté.

Conclusions principales et portée

Les auteurs en tirent plusieurs conclusions essentielles : pour la régression forêt aléatoire sur issues continues en implémentation R par défaut, - Pour les modèles axis-RF, boruta et aorsf-permutation sont recommandés ; - Pour les modèles oblique-RF, aorsf-permutation et aorsf-menze sont à privilégier.

Ces approches conjuguent haute précision prédictive, réduction efficace de la dimension et efficacité de calcul, répondant aux exigences des données de grande dimension et des applications pratiques. Les auteurs préconisent que les utilisateurs appliqués testent plusieurs des méthodes les plus performantes afin de déterminer l’option optimale selon la spécificité de leur jeu de données.

Points forts et valeur scientifique

  1. Évaluation de référence sur grande échelle de données réelles : L’étendue à 59 jeux de données publiques très hétérogènes confère aux conclusions une forte crédibilité et généralisation, offrant une base solide au développement futur de méthodes de sélection de variables.
  2. Introduction et évaluation systématique des forêts aléatoires obliques : Pour la première fois, la famille oblique RF est rigoureusement comparée au contexte des variables continues, venant compléter la littérature antérieure centrée sur les RF classiques.
  3. Système d’évaluation multidimensionnel et standardisé : L’intégration simultanée des critères de performance prédictive, parcimonie du modèle et temps de calcul propose un cadre d’évaluation plus complet et pragmatique.
  4. Valorisation de la science ouverte et de la reproductibilité : L’accès intégral au code et aux données facilite la vérification, l’amélioration et le partage des méthodologies, favorisant la transparence et la dynamique de la recherche.
  5. Référence pratique pour les applications réelles : La sélection de variables est replacée dans sa perspective opérationnelle — coût de collecte, interprétabilité, applicabilité directe — et l’étude offre un appui concret au monde académique et industriel.

Informations complémentaires

  • L’article s’inscrit dans des projets soutenus par les NIH (États-Unis), attestant de l’intérêt majeur porté à ce champ de recherche.
  • Toutes les données et codes utilisés sont en libre accès, favorisant l’adaptation locale ultérieure et les développements par la communauté scientifique internationale.

Conclusion et perspectives

Ce travail dresse un bilan structuré des principales méthodes de sélection de variables pour la régression forêt aléatoire actuellement disponibles dans l’écosystème R, incluant les approches émergentes, à travers une expérimentation empirique rigoureuse et une analyse quantitative approfondie. Il clarifie les forces, faiblesses et champs d’application de chaque méthode, apportant ainsi des bases solides tant sur le plan théorique que pratique pour le choix d’approches de sélection en bioinformatique, médecine, ingénierie et tout contexte de prédiction de variables continues. L’appel à la science ouverte et la prise en compte des contextes de données complexes et réelles donnent un exemple inspirant pour la recherche future sur la sélection et l’interprétabilité dans l’apprentissage automatique.