分享自:

大规模传感器网络中缺失的亚小时降水数据插补:一种机器学习方法

期刊:journal of hydrologyDOI:10.1016/j.jhydrol.2020.125126

这篇文档属于类型a,是一篇关于利用机器学习方法填补亚小时级降水数据缺失的原创研究论文。以下为详细的学术报告:


主要作者与发表信息

本研究由Benedict D. Chivers(林肯大学计算机科学学院)、John WallbankSteven J. ColeOndrej SebekSimon StanleyMatthew Fry(英国生态与水文中心)及Georgios Leontidis(阿伯丁大学计算科学系)合作完成,发表于Journal of Hydrology期刊,2020年5月30日上线,卷号588,文章编号125126。研究由英国自然环境研究理事会(NERC)资助,旨在解决高时间分辨率降水数据缺失的恢复问题。


学术背景

科学领域:研究属于环境水文气象学机器学习交叉领域,聚焦于降水数据的时空建模与缺失值填补。
研究动机:降水数据对天气预报、极端气候事件分析、水资源管理等至关重要,但传感器故障或传输问题常导致数据缺失。传统方法(如空间插值)在亚小时级分辨率(如30分钟采样)下表现不佳,因降水具有高度随机性、零膨胀(zero-inflated)特性(即数据中零值占比极高)及弱相关性。
研究目标:提出一种两阶段机器学习框架,结合分类(判断是否有降水)与回归(预测降水量),利用多源数据(气象站、土壤湿度传感器、邻近雨量计)提升填补精度,并对比传统表面拟合方法(surface fitting)的优劣。


研究流程与方法

1. 数据来源与预处理

  • 数据来源
    • COSMOS-UK网络:英国50个环境监测站,提供30分钟分辨率的土壤湿度、气温、气压等86项参数。
    • 环境署(EA)雨量计:英格兰1200个15分钟采样雨量计,汇总为30分钟数据。
    • 研究样本:筛选37个COSMOS站点(数据缺失率0.01%-53.76%)及周边30公里内的EA雨量计(8-44个/站点)。
  • 数据清洗:剔除缺失率>10%的特征列,通过随机森林(random forest)插补测试集缺失值,并归一化至[0,1]区间。

2. 两阶段机器学习框架

第一阶段(分类)
- 任务:将降水数据二值化(0=无降水,1=有降水)。
- 算法比较:网格搜索(grid search)优化5种算法超参数:
- 梯度提升树(XGBoost):通过迭代决策树减少损失。
- 随机森林(Random Forest):并行构建多棵决策树并投票。
- 支持向量机(SVM):核函数映射至高维空间分类。
- K近邻(KNN):基于欧氏距离加权投票。
- 神经网络(NN):含2-20层隐藏层的全连接网络。
- 评估指标:准确率、F1分数(加权调和平均数)、召回率(recall)与精确率(precision)。

第二阶段(回归)
- 任务:对分类预测为“有降水”的样本,回归其降水量(mm)。
- 算法:同分类阶段,但输出为连续值,优化目标为R²与均方根误差(RMSE)。

3. 对比实验设计

  • 数据组合
    • 核心参数:仅用5项基础气象参数(气压、湿度、温度、风速、风向)。
    • 全参数:COSMOS-UK所有可用特征(23-76项/站点)。
    • EA雨量计:仅用邻近雨量计数据。
    • 混合数据:COSMOS参数+EA雨量计。
  • 时间依赖性控制:通过正弦/余弦变换编码日循环与年循环(Eqs. 1-2),以捕捉周期性规律。

4. 基准方法

  • 表面拟合(Multiquadric Surface Fitting):基于邻近雨量计的线性加权插值,等效于克里金法(kriging)。

主要结果

  1. 分类性能

    • 最佳算法:XGBoost与随机森林在多数站点表现最优(图7),加权F1平均达0.938±0.046(混合数据),优于表面拟合的0.901±0.044。
    • 关键局限:两类方法均低估降水事件(召回率0.648±0.092),因短时降水(如单次30分钟事件)与气象参数响应滞后(图4)。
  2. 回归性能

    • 最佳算法:神经网络(8层隐藏层)与支持向量回归(SVR)主导(图7),混合数据R²=0.66±0.131,RMSE=0.141±0.056 mm,优于表面拟合(R²=0.606±0.16)。
    • 空间依赖性:当目标站点7公里内有EA雨量计时,表面拟合更优(如站点hlacy),但机器学习在1公里内仍可胜出(如站点lizrd)。
  3. 数据组合影响

    • 混合数据提升显著:加入土壤湿度等参数后,R²提高42%(对比核心参数)。
    • 时间周期编码:对低维数据有效(如核心参数R²提升0.082),但对高维数据增益有限。
  4. 区域模型尝试

    • ** pooling多站点数据**未显著提升性能,因地理异质性导致局部气候差异。

结论与价值

科学价值
- 首次将两阶段机器学习应用于亚小时级降水数据填补,证实其优于传统空间插值,尤其在处理零膨胀数据时。
- 揭示了土壤湿度等弱相关参数的辅助价值,为多传感器网络设计提供依据。

应用价值
- 支持实时数据自动化填补,模型可离线训练并定期更新,适用于气象、水文业务系统。
- 开源框架(如XGBoost、PyTorch)易于部署,兼容现有监测网络。


研究亮点

  1. 方法创新:结合分类-回归的两阶段框架,有效解决零膨胀问题。
  2. 数据维度:整合86项气象与土壤参数,突破传统雨量计依赖。
  3. 可扩展性:算法选择自动化(网格搜索),适配不同站点特性。
  4. 开源实践:使用公开数据(EA雨量计)与工具(如XGBoost),增强可重复性。

其他发现

  • 短时降水事件:48.5%的降水事件仅持续单次采样(30分钟),凸显亚小时级分析的挑战。
  • 算法偏好:决策树类(XGBoost、RF)擅分类,神经网络擅回归,反映任务差异性。

(注:全文引用格式遵循Elsevier规范,具体参考文献见原文。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com