随机森林变量选择方法在连续结果回归建模中的比较

背景介绍:变量选择在机器学习回归模型中的重要性

近年来,机器学习在生物信息学与数据科学领域的广泛应用极大推动了预测建模的发展。随机森林(Random Forest, RF)回归作为常用的集成学习算法,因其能有效提升预测准确性和模型稳健性,成为建构连续型结局预测模型的重要工具。然而,面对高维数据,模型中的预测变量越多,并不一定意味着预测性能的提升,反而可能导致信息冗余、模型过拟合,或影响实际应用的便利性。因此,“变量选择(Variable Selection/Feature Selection/Feature Reduction)”成为极为关键的建模步骤。

变量选择不仅能够减少变量冗余、提升预测性能和模型泛化能力,还能降低后续数据收集及模型部署的成本,提高模型的解释性与应用效率。以往学者提出了多种将随机森林用于变量选择的方法,但在真实、连续型结局变量数据上,各方法表现差异、适应性及最佳选择尚无一致经验指导。此外,变量选择还涉及多维目标:既要兼顾预测准确性,也要追求模型简明(变量最小化)和计算效率。

论文来源与作者介绍

本研究成果为《A comparison of random forest variable selection methods for regression modeling of continuous outcomes》,发表于2025年《Briefings in Bioinformatics》(Volume 26, Issue 2,DOI:https://doi.org/10.1093/bib/bbaf096),由Nathaniel S. O’Connell、Byron C. Jaeger、Garrett S. Bullock 以及 Jaime Lynn Speiser 等学者联合完成。作者均来自美国Wake Forest University School of Medicine(威克森林大学医学院)生物统计及数据科学系、骨科外科系与公共卫生科学分部。

研究流程详述:全面基准评测设计

1. 研究目的及总体设计

该研究旨在系统评估和比较13种基于R语言实现的随机森林回归变量选择方法,针对连续性结局变量,厘清在不同类型真实公开数据集上的性能差异,为实际操作提供方法学依据。评估指标涵盖三大方面:模型预测准确性(以R^2为主)、模型简约性(变量数量减少比例)及计算效率(消耗时间)。本研究采用开放科学理念,所有代码与数据均可公开获取,强调可复现性与透明性。

2. 数据集来源与处理流程

本研究纳入的数据集全部来自openml(https://www.openml.org/)及R包`modeldata`。纳入标准严格:仅采纳作为有监督回归任务的数据,缺失值比例须低于50%,变量数在10至1000间,样本量在100至10,000之间,结局变量需为连续型且值至少有10个不同取值。最终,作者共筛选得到59个数据集(53个来自openml,6个来自modeldata)。这些数据集广泛覆盖医疗、制造、气象、经济、教育等多个领域,具有良好的代表性。

3. 变量选择方法的实现与分类

此次评测的13种变量选择方法,全部基于R生态系统,包括常见包如caret、boruta、vsurf、rrf等,也涵盖近年来新兴的oblique随机森林(斜对随机森林)实现,如aorsf系列。每种方法的具体实现基于原始文献规定,除特殊说明外,超参数均采用默认设置。作者强调方法类型分为“基于测试(Test-based)”与“基于性能(Performance-based)”两大类:
- 基于测试方法:通过变量的统计或置换检测显著性筛选(如boruta、altman、aorsf-permutation)。 - 基于性能方法:以模型新增/删除变量后性能的变化为依据递归筛选(如caret、jiang、rrf、aorsf-menze等)。

4. 实验流程与评估手段

作者采用20次Monte Carlo交叉验证(split-sample validation),每个数据集均随机分为训练集与测试集(50%:50%,超大数据集训练集上限不超过1000条),所有的变量选择均在训练集完成。对于变量数>150的大型数据集,每次仅随机抽取150个变量进行筛选,以确保可接受的计算量。变量选择结果形成特征子集,分别用于训练轴向(axis-based RF, ranger包实现)与斜对(oblique RF, aorsf包实现)随机森林,再在测试集上评估R^2。
评估过程还记录每一方法的变量筛选所需时间、变量缩减比例,并通过标准化z-score方式横向衡量不同指标、不同数据集下的表现差异。

主要研究结果详述

1. 变量选择方法的整体表现

计算效率

最快的变量选择方法为axis-sfe、rrf、aorsf-menze、aorsf-negation和aorsf-permutation,这些方法在大多数数据集上中位消耗小于5秒。最慢的为rfvimptest、caret和svetnik,计算量大幅增加,部分数据集甚至需上千秒。

变量缩减能力

rfvimptest取得最大变量压缩(>90%),vsurf、altman、svetnik约为80%左右,rrf则几乎不压缩变量。值得注意的是,一些方法如caret和boruta在不同数据集间变量缩减比例波动较大,显示在应对不同数据复杂度时的灵活性。

预测性能(R^2)

绝大多数方法(除rfvimptest外)在连续型结局的随机森林回归上,测试集介值R^2分布区间为0.61至0.67(轴向RF)和0.62至0.73(斜对RF),说明主流筛选方法虽策略不同,但最终预测能力已相当接近。最佳R^2表现出现在aorsf-menze与aorsf-permutation(oblique RF),在轴向RF中,以caret、jiang、boruta、aorsf-permutation为优。

2. 敏感性及分层分析

由于部分方法偶有未选出任何变量的情况(如rfvimptest、boruta在少量数据集、altman及vsurf在个别场景),作者还进行了敏感性分析,仅分析所有方法都选出变量的样本,发现整体方法排序与主分析一致,表明核心结论稳健。

进一步,针对高(n:p≥10)/低(n:p<10)样本规模与变量数比的子组,结果显示:
- 在低n:p比(高维、样本较少)场景,斜对RF优势更明显,其预测准确性远超传统轴向RF。 - 在高n:p比场景,主流方法间轴向与斜对模型性能趋于接近。

3. 方法特性及分类对比

论文还对方法的算法实现(轴向RF、条件推断RF、斜对RF)与类别(基于测试或性能)进行了横向分析。条件推断型RF方法表现一般,主要因为计算资源占用高;斜对RF相关方法(如aorsf系列)既高效又精确,显著领先;基于测试/性能的分类未见明确优劣分界,表现主要由具体算法结构和实现细节主导。

4. 数据及代码可复现性

本研究代码与数据全部托管于GitHub(https://github.com/nateoconnellphd/rfvs_regression),承诺科学研究的高度透明、可复现性,并鼓励同行复用及扩展。

主要结论与意义

作者提出了重要结论:在默认R实现下,针对连续型结局变量的随机森林回归模型,
- 如采用轴向RF,推荐boruta与aorsf-permutation;
- 如采用斜对RF,则以aorsf-permutation和aorsf-menze为佳。

这两类实现兼具高预测准确性、强变量压缩能力及优越计算效率,适合高维数据和实际部署场景。作者进一步建议,应用研究者可尝试多种高性能方法,根据自身数据特性做出最终选择。

研究亮点与科学价值

  1. 大规模真实数据集基准评价:用59个高异质性公开数据集,极大提升结果的可信度与普适性,为后续变量选择方法的开发与应用奠定坚实基础。
  2. 斜对随机森林的引入与系统评估:首次充分比较oblique RF系列方法在连续变量预测中的独特价值,补全以往只聚焦经典RF方法的缺陷。
  3. 多维度指标、标准化评测体系:集成预测性能、模型简约性及计算效率三方面,提供更为科学、实用的评价参照。
  4. 强调开放科学与可复现性:提供全套源代码和数据来源,便于学界持续验证与优化,推动学科透明度和方法交流。
  5. 为实际应用场景提供参考:明确指出变量选择在数据收集成本、模型解释性和实际应用中的重要性,切实助力科研及工业界相关需求。

附加信息

  • 论文系美国NIH等基金支持项目,显示该方向的研究获得高度重视。
  • 本文所用数据与代码全面公开,便利国内外学者对方法进一步本地化和二次开发。

结语与展望

本研究系统梳理了当前R生态系统中主流和新兴的随机森林回归变量选择方法,通过严谨的大样本实证与全面的量化分析,明确评价了各方法的长短与适用场景,为生物信息、医学、工程等多领域连续变量预测任务选择合适的变量筛选方案提供了重要理论和实操基础。其开放科学理念与对高维复杂真实数据场景的重视,也为后续机器学习变量选择与解释性方法研究树立了良好范例。