分享自:

FLAML:一个快速轻量级的AutoML库

期刊:Proceedings of the 4th MLSys Conference

FLAML:一个快速轻量级的自动化机器学习库

作者及机构 本文由Microsoft Research的Chi Wang、Qingyun Wu、Markus Weimer和Erkang Zhu合作完成,发表于2021年第4届MLSys Conference。四位作者均来自微软公司雷德蒙德研究院,其中Chi Wang和Qingyun Wu为共同第一作者。

学术背景 本研究的科学领域属于机器学习中的自动化机器学习(AutoML)。近年来,随着机器学习应用的普及,各领域的小型团队需要快速构建大量机器学习模型,但传统AutoML解决方案通常需要大量计算资源和专家干预,这限制了其在资源受限场景中的应用。特别是在数据库系统等实时性要求高的应用中,传统方案难以满足频繁模型更新的需求。基于此,作者团队致力于开发一个能在有限计算资源下快速产生优质模型的轻量级AutoML系统。

研究方法 研究分为理论分析、系统设计和实验验证三个阶段:

  1. 理论分析阶段: 研究人员首先识别了影响AutoML效率和效果的四个关键因素:学习器选择(learner)、超参数配置(hyperparameter)、训练数据规模(sample size)和重采样策略(resampling)。通过对这些因素相互关系的系统分析,提出了四条设计准则:
  • 适合样本量准则(SuitableSampleSize):小样本适合评估低复杂度配置
  • 重采样策略准则(Resample):小数据集优先使用交叉验证
  • 公平机会准则(FairChance):各学习器应有持续搜索机会
  • 最优试验准则(OptimalTrial):搜索路径应近似最优
  1. 系统设计阶段: 基于上述准则开发了FLAML系统,其核心创新在于fit()方法。系统架构包含两层:
  • ML层:包含候选学习器(如XGBoost、LightGBM等)
  • AutoML层:
    • 学习器提议器:基于ECI(Estimated Cost for Improvement)概率采样
    • 超参数和样本量提议器:采用随机直接搜索法(randomized direct search)
    • 重采样策略选择器:基于简单阈值规则
    • 控制器:协调各组件并记录试验结果

ECI的计算公式(见式1)综合考虑了历史改进成本、样本量增加成本和跨学习器的相对表现,能动态调整各学习器的搜索优先级。

  1. 实验验证: 研究人员构建了包含53个数据集(39分类+14回归)的测试集,比较了FLAML与多个主流AutoML工具(auto-sklearn、H2O AutoML、TPOT等)在不同时间预算(1分钟到1小时)下的表现。特别针对数据库选择率预估(selectivity estimation)这一应用场景进行了专门评估。

主要结果 1. 基准测试: - 在相同时间预算下,FLAML在大多数任务上显著优于其他方法(图5) - 在更小时间预算下,FLAML的1分钟结果可媲美其他方法10分钟到1小时的结果(图6) - 对数据库选择率预估任务,FLAML的95%分位数q-error最低(表4)

  1. 消融实验(图7):
  • 移除任意组件(轮询策略、全数据训练或固定交叉验证)都会导致性能下降
  • 特别是ECI策略在早期显著减少了低效搜索
  1. 应用实例: 在10维森林数据集上,FLAML是唯一优于人工配置(manual)的AutoML方法(表4)

结论与价值 本研究提出了一个专为低计算资源场景优化的AutoML系统FLAML,其科学价值主要体现在: 1. 理论层面:首次系统分析了样本量、重采样策略等因素在AutoML中的联合影响,提出了定量化的设计准则。 2. 方法层面:开发的ECI指标和整体架构,为资源受限的AutoML提供了新思路。 3. 应用层面:在保持轻量级的同时,性能显著优于现有方案。

实际应用价值包括: - 使小型团队也能高效开发定制化ML模型 - 特别适合需要频繁更新模型的场景(如数据库系统) - 开源性(GitHub公开)促进了技术普及

研究亮点 1. 创新性地将样本量和重采样策略纳入AutoML的优化维度。 2. 提出的ECI机制实现了搜索过程的自适应调整。 3. 不依赖元学习(meta-learning)或集成(ensemble)就能获得优异性能,降低了使用门槛。 4. 在1-CPU-core的严格限制下验证了有效性,适用性广泛。

其他有价值的内容 1. 研究详细记录了FLAML的默认搜索空间(表5),包括各学习器的超参数范围,具有实用参考价值。 2. 对计算成本与模型误差的权衡进行了量化分析(图1),为后续研究提供了理论基础。 3. 讨论了将FLAML扩展到并行环境的可能性,展现了系统的可扩展性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com