分享自:

基于人工智能模型的淮河流域水质预测研究

期刊:environmental science and pollution researchDOI:10.1007/s11356-024-32061-2

淮河流域水质预测的人工智能模型研究:基于LSTM-多头注意力机制的创新方法

作者及发表信息
本研究由Jing Chen(安徽理工大学电气与信息工程学院;利物浦大学电气工程与电子学系)、Haiyang Li(安徽理工大学电气与信息工程学院)、Manirankunda Felix(安徽理工大学)、Yudi Chen(曼彻斯特大学科学与工程学院)、Keqiang Zheng(安徽理工大学)合作完成,发表于2024年1月的《Environmental Science and Pollution Research》(卷31,页14610–14640)。研究得到中国国家自然科学基金(51874010)和安徽省教育厅自然科学项目(KJ2018A0087)的支持。


学术背景

科学领域与问题
研究聚焦于环境科学与人工智能交叉领域,针对河流水质预测的挑战:水质数据具有时序性、非线性、多指标耦合及数据缺失/异常等问题。传统模型(如物理模拟、时间序列分析)在非线性处理和并行计算上存在局限,而现有机器学习模型(如LSTM)未充分整合时序与特征提取能力。

研究动机
中国淮河流域(HRB)作为重要饮用水源地,面临水资源分布不均与工业化污染的双重压力。2022年数据显示,中国人均水资源仅为世界平均的1/4,且淮河流域水质受农业、工业排放影响显著。因此,开发高精度水质预测模型对水资源智能管理至关重要。

目标
提出一种融合线性插值(Linear Interpolation, LI)灰色关联分析(Gray Relational Analysis, GRA)LSTM-多头注意力(LSTM-Multihead Attention, LMA)的混合模型(GRA-LMA),以解决数据修复、特征筛选及并行计算问题,提升多指标预测精度。


研究流程与方法

1. 数据预处理

  • 研究对象:淮河流域王家坝站点2021年1月至2022年3月的水质数据,包括pH、溶解氧(DO)、化学需氧量(COD)、氨氮(NH3-N)等9项指标。
  • 缺失数据处理:采用线性插值修复缺失值(缺失率12.65%~12.79%),保留数据时序趋势。
  • 异常值处理:结合箱线图与直方图识别异常数据(如NH3-N异常率7.31%),剔除后再次线性插值修复。
  • 数据标准化:归一化至[0,1]区间以统一量纲。

2. 特征筛选

  • 灰色关联分析(GRA):计算各指标间非线性相关性,保留关联度>0.7的指标作为模型输入。例如,NH3-N与COD、TP高度相关,而温度(Temp)作为间接影响因素被排除。

3. 模型构建(GRA-LMA)

  • LSTM层:处理时序数据,通过遗忘门、输入门和输出门控制信息流,避免梯度消失。
  • 多头注意力层(Multihead Attention):并行计算各时间步权重,提取关键特征。将LSTM隐藏层输出作为Query/Key/Value矩阵,通过缩放点积注意力机制加权融合。
  • 全连接层:非线性映射输出预测结果。
  • 滑动窗口:窗口大小优化为12~18,构建时间序列输入(如NH3-N窗口=12)。

4. 模型训练与验证

  • 数据集划分:2021年1月–2022年1月为训练集,2022年2–3月为测试集。
  • 参数优化:通过网格搜索确定隐藏层神经元数(20~55)、批次大小(1~6组)、学习率(0.0001)等。
  • 对照模型:对比BP神经网络、RNN、LSTM、GRU及未整合GRA的LMA模型。

主要结果

  1. 数据修复效果

    • 线性插值修复后,数据趋势与原始分布一致(图10),异常值处理使数据离散度降低(如COD标准差从0.99降至0.46)。
  2. 模型预测性能

    • 误差指标:GRA-LMA的均方误差(RMSE)显著低于对照模型,如pH(0.05890)、DO(0.40196)、NH3-N(0.04368)。
    • 拟合优度:R²普遍优于0.85,其中pH预测R²达0.98497(表7)。
    • 消融实验:多头注意力机制使LMA的NH3-N预测RMSE比LSTM降低19.9%;GRA进一步将误差降低8.0%(表10)。
  3. 对比实验

    • GRA-LMA在泰勒图(图15)和散点图(图14)中均最接近观测值,且Kruskal-Wallis检验显示其预测结果与真实值无显著差异(p>0.05,表9)。

结论与价值

科学价值
1. 方法创新:首次将多头注意力机制与LSTM结合用于水质预测,解决了传统模型无法并行处理时序特征的瓶颈。
2. 数据修复:提出基于线性插值的缺失/异常数据修复框架,优于均值、中位数及KNN方法(图18)。

应用价值
- 为淮河流域水质管理提供高精度预测工具,支持污染物早期预警。例如,NH3-N预测误差较现有模型降低35%,有助于精准控制农业面源污染。
- 模型可扩展至其他流域,仅需调整滑动窗口和GRA阈值。


研究亮点

  1. 多技术融合:整合GRA特征筛选、LSTM时序处理、多头注意力并行计算,提升模型鲁棒性。
  2. 全流程验证:从数据修复、特征工程到模型优化,系统性验证各环节对预测精度的影响。
  3. 实际数据集:基于真实监测数据(2736组样本),结论更具实践指导意义。

局限与展望
当前模型参数需手动优化,未来可引入元学习算法自动化调参;研究仅针对单一站点,需在流域多站点验证泛化能力。

(注:文中图表编号引用自原文献,部分细节因篇幅限制略有简化。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com