淮河流域水质预测的人工智能模型研究:基于LSTM-多头注意力机制的创新方法
作者及发表信息
本研究由Jing Chen(安徽理工大学电气与信息工程学院;利物浦大学电气工程与电子学系)、Haiyang Li(安徽理工大学电气与信息工程学院)、Manirankunda Felix(安徽理工大学)、Yudi Chen(曼彻斯特大学科学与工程学院)、Keqiang Zheng(安徽理工大学)合作完成,发表于2024年1月的《Environmental Science and Pollution Research》(卷31,页14610–14640)。研究得到中国国家自然科学基金(51874010)和安徽省教育厅自然科学项目(KJ2018A0087)的支持。
学术背景
科学领域与问题
研究聚焦于环境科学与人工智能交叉领域,针对河流水质预测的挑战:水质数据具有时序性、非线性、多指标耦合及数据缺失/异常等问题。传统模型(如物理模拟、时间序列分析)在非线性处理和并行计算上存在局限,而现有机器学习模型(如LSTM)未充分整合时序与特征提取能力。
研究动机
中国淮河流域(HRB)作为重要饮用水源地,面临水资源分布不均与工业化污染的双重压力。2022年数据显示,中国人均水资源仅为世界平均的1/4,且淮河流域水质受农业、工业排放影响显著。因此,开发高精度水质预测模型对水资源智能管理至关重要。
目标
提出一种融合线性插值(Linear Interpolation, LI)、灰色关联分析(Gray Relational Analysis, GRA)和LSTM-多头注意力(LSTM-Multihead Attention, LMA)的混合模型(GRA-LMA),以解决数据修复、特征筛选及并行计算问题,提升多指标预测精度。
研究流程与方法
1. 数据预处理
- 研究对象:淮河流域王家坝站点2021年1月至2022年3月的水质数据,包括pH、溶解氧(DO)、化学需氧量(COD)、氨氮(NH3-N)等9项指标。
- 缺失数据处理:采用线性插值修复缺失值(缺失率12.65%~12.79%),保留数据时序趋势。
- 异常值处理:结合箱线图与直方图识别异常数据(如NH3-N异常率7.31%),剔除后再次线性插值修复。
- 数据标准化:归一化至[0,1]区间以统一量纲。
2. 特征筛选
- 灰色关联分析(GRA):计算各指标间非线性相关性,保留关联度>0.7的指标作为模型输入。例如,NH3-N与COD、TP高度相关,而温度(Temp)作为间接影响因素被排除。
3. 模型构建(GRA-LMA)
- LSTM层:处理时序数据,通过遗忘门、输入门和输出门控制信息流,避免梯度消失。
- 多头注意力层(Multihead Attention):并行计算各时间步权重,提取关键特征。将LSTM隐藏层输出作为Query/Key/Value矩阵,通过缩放点积注意力机制加权融合。
- 全连接层:非线性映射输出预测结果。
- 滑动窗口:窗口大小优化为12~18,构建时间序列输入(如NH3-N窗口=12)。
4. 模型训练与验证
- 数据集划分:2021年1月–2022年1月为训练集,2022年2–3月为测试集。
- 参数优化:通过网格搜索确定隐藏层神经元数(20~55)、批次大小(1~6组)、学习率(0.0001)等。
- 对照模型:对比BP神经网络、RNN、LSTM、GRU及未整合GRA的LMA模型。
主要结果
数据修复效果
- 线性插值修复后,数据趋势与原始分布一致(图10),异常值处理使数据离散度降低(如COD标准差从0.99降至0.46)。
模型预测性能
- 误差指标:GRA-LMA的均方误差(RMSE)显著低于对照模型,如pH(0.05890)、DO(0.40196)、NH3-N(0.04368)。
- 拟合优度:R²普遍优于0.85,其中pH预测R²达0.98497(表7)。
- 消融实验:多头注意力机制使LMA的NH3-N预测RMSE比LSTM降低19.9%;GRA进一步将误差降低8.0%(表10)。
对比实验
- GRA-LMA在泰勒图(图15)和散点图(图14)中均最接近观测值,且Kruskal-Wallis检验显示其预测结果与真实值无显著差异(p>0.05,表9)。
结论与价值
科学价值
1. 方法创新:首次将多头注意力机制与LSTM结合用于水质预测,解决了传统模型无法并行处理时序特征的瓶颈。
2. 数据修复:提出基于线性插值的缺失/异常数据修复框架,优于均值、中位数及KNN方法(图18)。
应用价值
- 为淮河流域水质管理提供高精度预测工具,支持污染物早期预警。例如,NH3-N预测误差较现有模型降低35%,有助于精准控制农业面源污染。
- 模型可扩展至其他流域,仅需调整滑动窗口和GRA阈值。
研究亮点
- 多技术融合:整合GRA特征筛选、LSTM时序处理、多头注意力并行计算,提升模型鲁棒性。
- 全流程验证:从数据修复、特征工程到模型优化,系统性验证各环节对预测精度的影响。
- 实际数据集:基于真实监测数据(2736组样本),结论更具实践指导意义。
局限与展望
当前模型参数需手动优化,未来可引入元学习算法自动化调参;研究仅针对单一站点,需在流域多站点验证泛化能力。
(注:文中图表编号引用自原文献,部分细节因篇幅限制略有简化。)