基于自适应合成采样方法提升有害藻华预警机器学习模型性能的研究报告
作者及发表信息
本研究由Jin Hwi Kim(韩国建国大学土木、环境与植物工程系)、Jae-Ki Shin(韩国水资源公社釜山洛东江管理办公室)、Hankyu Lee(建国大学)、Dong Hoon Lee(韩国东国大学土木与环境工程系)、Joo-Hyon Kang(东国大学)、Kyung Hwa Cho(韩国蔚山国立科学技术研究院城市与环境工程学院)、Yong-Gu Lee(韩国江原国立大学环境工程系)、Kangmin Chon(江原国立大学综合能源与基础设施系统系)、Sang-Soo Baek(蔚山国立科学技术研究院,通讯作者)及Yongeun Park(建国大学,通讯作者)共同完成。论文发表于Water Research期刊(2021年,第207卷,文章编号117821),在线发布于2021年10月30日。
学术背景
研究领域:本研究属于环境科学与机器学习交叉领域,聚焦于淡水水体中有害藻华(Harmful Algal Blooms, HABs)的早期预警系统开发。
研究动机:藻华对水生生态系统和公共健康构成严重威胁,包括鱼类死亡、饮用水污染(如异味、消毒副产物)及藻毒素引发的疾病(如巴西“卡鲁阿鲁综合征”)。韩国自2012年四大河流堰坝建设后,藻华频率与强度显著增加,威胁饮用水安全。现有藻华预警系统基于细胞密度采样,但数据分布不平衡(高浓度事件稀少)导致机器学习模型对少数类(如预警级别L-1/L-2)预测性能下降。
研究目标:开发一种结合自适应合成采样(ADASYN)的机器学习模型,提升对藻华警报级别(L-0正常、L-1警惕、L-2警告)的预测精度,为管理决策提供支持。
研究流程与方法
1. 数据采集与预处理
- 研究对象:韩国洛东江江亭-高灵水库(GGR),该水库为160万人口提供饮用水,夏季频发蓝藻水华。
- 数据来源:
- 水质数据(2013–2020年):包括叶绿素a(Chl-a)、蓝藻细胞密度、溶解性总氮(DTN)、氨氮(NH4–N)、磷酸盐(PO4-P)等14项参数,由韩国环境部监测。
- 气象与水文数据:气温、降水、风速、水位、流入流量等,来自韩国气象厅和水资源公社。
- 样本量:共390组数据,其中L-0(正常级)210组(53.8%)、L-1(警惕级)87组(22.4%)、L-2(警告级)93组(23.8%)。
2. 数据平衡处理
- 问题:原始数据中L-0占比过高,导致模型对L-1/L-2预测偏差。
- 方法:采用ADASYN算法生成合成数据,步骤如下:
- 计算需生成的少数类样本量(公式1:( G = (m_L - m_S) \times \beta ),β=1以实现完全平衡)。
- 对每个少数类样本( x_i ),计算其k近邻(k=5)中少数类占比( r_i ),并归一化(公式2–3)。
- 按比例生成合成样本(公式4–5),最终新增87组L-1和85组L-2数据。
3. 模型构建与优化
- 模型选择:人工神经网络(ANN)与支持向量机(SVM),对比逻辑回归(LRM)验证非线性模型的必要性。
- 输入变量:13项参数(如NH4–N、PO4-P、气温等),经统计依赖性检验筛选(p<0.05)。
- 超参数优化:
- ANN:隐藏层激活函数为Log-Sigmoid,隐藏神经元数优化为20(原始数据)和13(合成数据)。
- SVM:核函数为高斯径向基(RBF),通过模式搜索算法优化Box约束和核尺度。
- 数据划分:60%训练集、20%验证集、20%测试集,合成数据仅用于训练与验证阶段。
4. 性能评估
- 指标:准确率(Accuracy)、召回率(Recall)、精确率(Precision)。
- 混淆矩阵分析:对比原始数据与合成数据下模型的分类表现,重点关注L-1(警惕级)的误判率。
主要结果
数据平衡效果:合成数据使L-1/L-2的召回率与精确率显著提升。
- ANN模型:L-1/L-2平均召回率从48.1%升至79.1%,精确率从48.2%升至77.1%。
- SVM模型:L-1召回率从5.0%提升至67.6%,但L-0召回率略有下降(94.4%→66.2%)。
关键级别(L-1)预测改进:
- ANN:L-1误判为L-0的比例从50%降至13.3%(优化后降至0%)。
- SVM:L-1误判率从100%降至16.7%(优化后7.14%)。
模型对比:
- ANN综合性能最优,测试集准确率达94.8%(合成数据),优于SVM(75.3%)和LRM。
- 非线性模型(ANN/SVM)显著优于线性LRM,验证了机器学习在复杂分类问题中的优势。
结论与价值
科学价值:
- 首次将ADASYN算法应用于藻华预警领域,解决了数据不平衡导致的模型偏差问题。
- 验证了合成数据可通过增强少数类学习,提升对关键过渡阶段(L-1)的预测灵敏度。
应用价值:
- 为水库管理提供可靠的早期预警工具,支持藻华爆发前的预控措施(如污染物管控、水源屏障设置)。
- 方法可推广至其他淡水生态系统的水质监测,尤其适用于数据分布不均的场景。
研究亮点
- 创新方法:结合ADASYN与机器学习,显著提升对稀有高浓度藻华事件的预测能力。
- 工程意义:模型预测结果可直接集成至韩国藻华警报系统,优化管理响应流程。
- 跨学科贡献:为环境科学与人工智能的交叉研究提供了实证案例。
其他发现
- 营养盐限制分析:江亭-高灵水库总氮磷比(TN:TP)>29,表明其为磷限制性水体,与蓝藻优势种(微囊藻、长孢藻)的生态特性一致。
- 季节性规律:藻华主要集中于5–11月(占全年事件的91%),与水温升高和营养盐输入增加相关。
本研究通过数据驱动方法填补了传统数值模型计算资源高、实时性差的短板,为全球藻华治理提供了新思路。