用于正则化非线性回归的随机树集成方法

分享自：
用于正则化非线性回归的随机树集成方法

期刊:Journal of the American Statistical AssociationDOI:10.1080/01621459.2021.1942012
本文档报告了一项名为“加速贝叶斯加性回归树”（Stochastic Tree Ensembles for Regularized Nonlinear Regression）的原创性研究。以下是关于该研究的学术报告。
一、 研究作者、机构及发表信息 本研究由两位作者合作完成：第一作者及通讯作者是香港城市大学管理科学系的 Jingyu He，第二作者是亚利桑那州立大学数学与统计科学学院的 P. Richard Hahn。该研究成果以论文形式发表于 Journal of the American Statistical Association 期刊2023年第118卷第541期上，具体在线发表日期为2021年8月17日，论文最终版本页码为551至570。
二、 学术背景与研究目标 本研究的科学领域属于统计学与机器学习交叉领域，具体聚焦于非线性回归的监督学习方法。研究的核心动机是解决现有主流树集成方法（Tree Ensemble Methods）在性能与应用上的局限性。在监督学习领域，决策树及其集成模型（如分类与回归树 CART、随机森林 RF、梯度提升树如 XGBoost）因其速度快、可解释性强、能处理混合数据类型等优点而广受欢迎，特别是在数据挖掘竞赛中（如Kaggle）表现卓越。然而，这些方法存在两方面潜在的改进空间：第一，缺乏一个能在高信噪比和低信噪比数据集上都表现优异的通用方法。例如，XGBoost 通常在信号清晰、模式复杂时表现优异，但容易过拟合，而随机森林则在噪声较大时更稳健，但两种方法难以通过单一工具自适应。第二，这些方法大多只提供点预测，缺乏可靠的、附带计算成本可接受的预测不确定性（区间）估计。 与此同时，基于贝叶斯模型的“贝叶斯加性回归树”（Bayesian Additive Regression Trees, BART）方法能够通过先验实现自适应正则化，并提供后验不确定性量化，在预测和函数估计上达到了业界领先的准确性。然而，BART 依赖传统的马尔可夫链蒙特卡洛（MCMC）算法进行拟合，其随机游走的 Metropolis-Hastings 步骤导致计算速度非常缓慢，限制了其在大数据集上的应用。 因此，本研究旨在开发一种新的、快速的随机树集成方法，以兼顾 BART 的预测准确性和不确定性量化能力，同时大幅提升计算效率。该新方法被命名为“加速贝叶斯加性回归树”（XBART）。其核心目标是在保持乃至超越 BART 等现有最先进方法预测精度的前提下，显著缩短模型拟合时间，并探索其在加速全贝叶斯推断中的潜力。
三、 详细研究流程与方法 研究主要包括三个核心部分：XBART 算法的设计开发、大规模的模拟研究验证、以及真实数据集上的实证检验。算法本身构成了研究流程的基础。
1. XBART 算法的设计与开发 研究首先提出了一个通用的、递归的、随机的树拟合算法框架，然后将其具体应用于高斯回归模型。
算法框架（通用形式）：XBART 的核心是一个名为 growfromroot 的递归算法，用于“生长”单棵树。与传统 CART 算法基于某种准则（如平方误差减少）贪婪地选择最优分割点不同，XBART 采用随机抽样的方式决定分割点。其抽样概率基于一个“分裂准则”，该准则源自 BART 模型中用于评估分割点边际似然的“贝叶斯边际似然”（Bayesian marginal likelihood）。具体而言，对于当前节点中的数据，算法计算每个候选分割点（以及一个“不分裂”的选项）所对应的边际似然值。然后，按照这些值的比例随机抽取一个分割点。如果抽到“不分裂”，则当前节点成为叶节点，其参数（如均值）从一个由数据决定的局部贝叶斯后验分布中抽取。这种将贝叶斯先验和随机搜索策略融入递归划分过程的结合，是 XBART 的创新精髓。
应用于高斯回归模型：作者将上述通用框架具体化到具有高斯加性误差的回归模型 y = f(x) + ε, ε ~ N(0, σ^2)，其中 f(x) 被表示为多棵回归树之和。在此设定下，研究推导出了分裂准则的具体解析表达式（命题1），该表达式仅依赖于每个节点内响应的总和（一个充分统计量），因此计算高效。同时，还给出了叶节点参数 μ（给定当前部分森林拟合的残差后，服从高斯分布）和全局参数（残差方差 σ^2 和叶节点参数先验方差 τ）的抽样分布。对于树集成（森林），算法采用类似于 BART “贝叶斯反向拟合”（Bayesian backfitting）的策略：在拟合第 h 棵树时，将当前响应值减去其他所有树（f_{-h}）的预测值得到残差，然后基于此残差应用 growfromroot 算法来更新第 h 棵树。这个过程对森林中的所有树循环进行，称为一次“扫描”（sweep）。算法会进行多轮扫描，取后若干轮扫描结果的平均值作为最终的点预测函数。
2. 模拟研究验证 为了系统评估 XBART 的性能，研究设计了大规模的模拟实验，旨在考察其在不同数据生成过程（DGP）下的表现。 * 研究对象与处理：研究设定了四个具有不同特性的真实均值函数 f(x)，涵盖线性、单指标、三角+多项式交互项以及最大值函数，以代表各种函数复杂度。通过改变误差分布（高斯、学生t）、信噪比（κ = 1 低噪声，κ = 10 高噪声）、预测变量矩阵（独立生成、具有因子结构的相关生成）、样本量（n 从 300 到 250,000 不等）和特征数量（p 从 30 到 1000 不等）来生成多样化的合成数据集。每个配置下进行多次重复实验。 * 实验与比较方法：对于每个生成的训练集，研究使用默认超参数运行 XBART（研究者强调 XBART 的超参数设置相对自动化，这是一个实践优势）。同时，将 XBART 与两个主流竞争对手进行比较：随机森林（RF）和 XGBoost。对于 XGBoost，报告了其默认参数和交叉验证调优后的结果。此外，还在部分实验中与使用 Keras 实现的神经网络进行了比较。性能评估指标是在独立测试集上计算的预测根均方误差（RMSE）。 * 数据分析流程：通过计算并比较不同方法在数百个不同模拟场景下的 RMSE，研究绘制了性能对比图。图中以 RF 的 RMSE 为基准（设为1），展示 XBART 和 XGBoost 的相对 RMSE。通过分析点在坐标图中的分布，总结各方法的性能模式。
3. 真实数据集实证 为了检验算法在现实问题中的表现，研究选取了七个来自 UCI 机器学习数据库的公开真实数据集。 * 研究对象与处理：对每个数据集，随机进行 20 次训练/测试分割（训练集占 5/6，测试集占 1/6），共产生 140 个独立的实验场景。 * 实验方法：在所有数据分割上，使用相同的默认参数运行 XBART、RF 和 XGBoost（含交叉验证和不含交叉验证）。计算每种方法在每个测试集上的 RMSE。 * 数据分析流程：为了跨数据集比较，计算了每个方法在每个数据分割上的“相对 RMSE”（即该方法 RMSE 除以该数据分割上所有方法中的最小 RMSE）。通过绘制所有方法在所有数据分割上的相对 RMSE 箱线图，直观比较其性能分布和稳定性。
4. 暖启动（Warm-start）BART MCMC 研究 作为 XBART 的一个重要应用延伸，研究探索了使用 XBART 的输出（即一系列森林样本）来初始化标准 BART MCMC 算法的效果。 * 研究流程：在模拟数据集上，首先运行 XBART 并获得 25 个森林样本（丢弃前期燃烧期样本）。然后，将这 25 个样本分别作为 25 条独立 MCMC 链的初始值，运行标准的 BART MCMC 算法（每链仅 100 次迭代，无燃烧期）。将此“暖启动 BART”的结果与从零开始（即所有树初始化为根节点）运行长链的标准 BART MCMC，以及单独的 XBART 点估计进行比较。 * 评估指标：比较三种方法在点估计上的 RMSE，以及它们为均值函数 f(x) 构建的 95% 后验可信区间的频率主义覆盖率和区间长度。
四、 主要研究结果 1. 模拟研究结果：性能对比图清晰地揭示了不同方法的适用场景。在低噪声（κ=1）设置下，XGBoost 通常表现最佳（许多点位于代表其表现优于 RF 的水平虚线下方），但 XBART 紧随其后，且整体上 XBART 的表现优于 XGBoost（更多点位于对角线上方）。在高噪声（κ=10）设置下，RF 的相对表现提升（更多点位于水平虚线上方），而 XBART 的表现与 RF 更为接近，且明显优于 XGBoost（许多点位于垂直虚线右侧）。这表明 XBART 能够自适应数据质量，在强信号和弱信号场景下均表现稳健，综合性能优于单一的 XGBoost 或 RF。此外，研究结果还显示，对于不同函数形式，各方法表现不同，例如对于“最大值”函数，XGBoost 略有优势，而对于线性函数，所有方法表现相似。关于计算时间，XBART 通常与交叉验证的 XGBoost 一样快或更快，并且很少比 RF 慢一倍以上。
2. 真实数据集结果：箱线图显示，XBART 的预测性能（相对 RMSE）总体上优于 XGBoost（无论是否交叉验证），且其表现与 RF 相当或更好。交叉验证的 XGBoost 表现有时反而不如默认设置的 XGBoost，暗示了过拟合风险。这些结果与模拟研究结论一致，表明 XBART 在未知数据特性的实际应用中是一个有吸引力的默认选择。
3. 暖启动 BART 结果：这是一个关键且积极的结果。使用 XBART 初始化 BART MCMC 带来了显著改善。在多个测试函数和噪声水平下，“暖启动 BART”产生的后验可信区间对真实均值函数的频率主义覆盖率（例如达到 95% 甚至更高）远高于标准 BART MCMC 和单独的 XBART 点估计所衍生的区间。同时，其点估计的 RMSE 也通常是最低的。更重要的是，在计算时间上，即使保守地按顺序运行所有链，暖启动策略的总耗时（XBART 拟合时间 + 25条短链时间）也通常少于运行一条长链的标准 BART。若并行运行短链，则总时间优势将更明显。这证明 XBART 不仅能作为独立的快速预测工具，还能极大地加速和改善全贝叶斯推断。
4. 理论结果：研究还提供了两项初步的理论分析，为算法的合理性提供支撑。第一，证明了单棵树版本的 XBART 在满足一定条件下是 L2 一致的。论证的关键在于，通过“扰动-最大化”（Perturb-max）引理，将 XBART 随机的分割点抽样策略等价于优化一个随机的目标函数，并证明该目标函数的渐近形式与 CART 的准则等价，从而可以借鉴近期关于 CART 一致性的证明框架。第二，证明了森林（多棵树）版本的算法定义了一个具有唯一平稳分布的有限状态马尔可夫链。这确保了算法的迭代过程不会无目标地漂移，为其稳定性提供了理论保证。
五、 研究结论与价值 本研究成功开发并验证了 XBART，一种新颖的、快速的、基于随机树集成的非线性回归方法。其核心结论是：XBART 通过将 BART 的正则化和参数抽样策略与递归树生长算法的高效计算技术相结合，实现了计算速度的飞跃，同时保持了顶级的预测精度。它不仅可作为独立的、性能优异的机器学习算法，在广泛的数据信噪比范围内提供稳健的点预测，还能作为“暖启动器”，极大地加速标准 BART MCMC 的收敛，并产生覆盖更准确的后验可信区间。
研究的科学价值在于提出了一种融合贝叶斯思想和高效计算的新型算法框架，为理解和发展树集成方法提供了新的思路。其应用价值极高，使得原先因计算成本而难以应用的、具备不确定性量化能力的 BART 类模型能够应用于更大规模的数据集，为需要可靠预测区间（如金融风险评估、医疗预后）的领域提供了强有力的新工具。
六、 研究亮点 1. 算法创新性：首创了“递归随机拟合”范式，将贝叶斯边际似然作为分裂准则进行随机抽样，而非传统优化，巧妙融合了贝叶斯模型的自适应正则化和递归划分的计算效率。 2. 卓越的综合性能：通过详尽的模拟和实证，证明了 XBART 在预测精度上能够媲美甚至超越 XGBoost 和随机森林，且在高低信噪比场景下表现稳健，具备了作为通用默认算法的潜力。 3. 重要的应用拓展：提出的“暖启动 BART”策略，被证明能显著提升后验推断的质量（更好的区间覆盖）并减少总计算时间，为贝叶斯计算与实际应用的结合提供了高效途径。 4. 初步的理论支撑：提供了关于算法一致性和平稳性的初步理论结果，增强了该启发式方法的理论可信度。 5. 实践友好性：强调相对自动化的超参数设置和高效实现（如利用预排序和充分统计量），提升了其易用性。
七、 其他有价值内容 论文还详细介绍了实现 XBART 的若干计算优化策略（在附录中），包括自适应分割点网格、基于狄利克雷先验的自适应变量重要性权重、以及高效处理分类变量的数据结构等。这些工程细节是 XBART 能够实现高效运行的重要组成部分，对后续实现者具有参考价值。此外，研究公开了 XBART 的软件包（R 和 Python 版本），促进了方法的可重复性和广泛应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问