分享自:

处理零膨胀数据:通过双重机器学习方法实现最先进性能

期刊:engineering applications of artificial intelligenceDOI:10.1016/j.engappai.2025.110339

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


一、研究团队与发表信息
本研究由Jože M. Rožanec(通讯作者)、Gašper Petelin、João Costa等来自斯洛文尼亚Jožef Stefan研究所及国际研究生院的多位学者合作完成,发表于2025年的期刊*Engineering Applications of Artificial Intelligence*(卷149,文章编号110339)。研究聚焦于零膨胀数据(zero-inflated data)的机器学习建模问题,提出了基于两阶段机器学习(two-fold machine learning approach)的创新方法,并在家庭电器分类和机场班车需求预测两个实际场景中验证了其性能。


二、学术背景与研究目标
科学领域:研究属于人工智能工程应用领域,涉及零膨胀数据的建模挑战。零膨胀数据指目标变量中零值占比极高的数据集(如间歇性需求、电器开关状态等),传统模型因零值干扰易出现预测偏差。

研究动机
1. 问题重要性:零膨胀数据在电力消耗、物流需求等领域普遍存在,但现有统计方法(如零截断模型、 hurdle模型)在机器学习中应用不足,且性能评估指标易受零值扭曲。
2. 技术瓶颈:传统回归或分类模型难以同时处理零值和非零值的动态差异,导致预测精度下降。
3. 目标:提出两阶段模型框架,通过分离事件发生预测(零/非零分类)与数值预测(非零值回归或分类),提升零膨胀数据下的模型性能与能效。


三、研究流程与方法
研究分为数据准备、模型构建、实验验证三阶段,具体流程如下:

1. 数据准备与特征工程
- 家庭电器分类
- 数据集:采用UK-DALE数据集(5个英国家庭、54种电器、655天功耗数据,采样间隔6秒)。
- 预处理:合并相似电器(如冰箱/冰柜、烤面包机/水壶),剔除样本不足类别,最终保留12类电器,共1,275,508个样本(25%为非零活动时段)。
- 特征提取:将功耗时间序列转换为递归图(recurrence plots),仅保留活动时段图像以增强特征区分度(图3-4)。

  • 机场班车需求
    • 数据集:4年间的每小时需求数据,聚合为3小时窗口(因需求稀疏)。
    • 特征工程:构建14维特征,包括节假日标志、时间周期特征(小时、星期等)和行程路线(A→B/C/D)。

2. 两阶段模型设计
- 第一阶段(分类器):预测零/非零事件。
- 家庭电器:XGBoost分类器(默认超参数)判断电器是否活动,AUC-ROC达99.9%。
- 班车需求:直方图梯度提升树(HGB)分类器预测需求发生。
- 第二阶段(回归/分类器):仅对非零数据建模。
- 家庭电器:VGG11深度学习模型(Adam优化器,学习率0.001)基于递归图分类电器类型。
- 班车需求:支持向量回归(SVR)、多层感知机(MLP)等预测乘客数量。

3. 实验与评估
- 对比基准:传统回归模型(如HGB、线性回归)和零预测基线。
- 评估指标
- 分类性能:AUC-ROC、F1分数、精确率、召回率。
- 回归性能:MASE(平均绝对缩放误差,仅非零数据计算)和MASE-II(含误报修正)。
- 能效分析:计算理论能耗(TEC),对比两阶段模型与端到端深度学习的资源消耗。


四、主要研究结果
1. 家庭电器分类
- 性能提升:两阶段模型在加权平均指标上显著优于传统方法(F1提高88%,AUC-ROC提高48%)。例如,烤面包机/水壶(heka)的召回率从8.4%提升至82.9%。
- 能效优势:因VGG11仅对活动数据推理,能耗降低至传统方法的25%(109.6 kJ vs. 437.2 kJ)。

2. 班车需求预测
- 事件预测:两阶段模型的AUC-ROC最高达0.788(路线A→C),显著优于传统回归(如HGB的0.739)。
- 数量预测:回归部分MASE值普遍>1,表明需更多特征优化乘客数预测,但分类阶段准确捕捉了需求发生时机。

逻辑关联:分类器的精准度直接决定第二阶段模型的输入质量,而两阶段分离避免了零值对回归/分类的干扰,形成协同优化。


五、结论与价值
1. 科学价值
- 提出两阶段机器学习框架,系统性解决零膨胀数据的建模偏差问题,为统计方法与机器学习的结合提供新思路。
- 验证了领域知识引导的特征工程(如递归图、时间周期编码)对零膨胀数据的关键作用。

  1. 应用价值

    • 智能电网:精准电器分类可优化需求响应策略,降低能耗。
    • 交通规划:班车需求预测助力动态定价与车辆调度,提升运营效率。
  2. 未来方向

    • 探索图神经网络(GNN)等通用特征表示方法,实现跨领域迁移;
    • 结合AutoML技术优化两阶段模型超参数。

六、研究亮点
1. 方法创新:首次将hurdle模型思想转化为机器学习的两阶段框架,并引入AUC-ROC和MASE等鲁棒评估指标。
2. 跨领域验证:在差异显著的场景(电器分类vs.交通预测)中均实现SOTA性能,证明方法普适性。
3. 能效设计:通过活动检测减少深度学习推理次数,契合边缘计算等低功耗场景需求。


七、其他价值
- 开源贡献:代码已公开于两个独立仓库,促进社区复现与应用。
- 数据隐私:班车数据因商业保密性未公开,但预处理流程详实,可适配其他类似数据集。


(报告字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com