用于城市污水溢流和洪水深度预测的新型注意机制多层感知机架构

分享自：
用于城市污水溢流和洪水深度预测的新型注意机制多层感知机架构

期刊:Journal of Hydrology: Regional StudiesDOI:10.1016/j.ejrh.2025.103088
本文发表于 Journal of Hydrology: Regional Studies 期刊的第64卷（2026年），题为“Attention in MLP: A new architecture for urban sewer overflow and flood depth prediction”。主要作者包括：来自逢甲大学都市计划与空间信息学系的Song-Yue Yang和Rui-Wen Lin，来自台湾中山大学海洋环境及工程学系的通讯作者Bing-Chen Jhong，以及来自逢甲大学地理信息系统研究中心的Ming-Chang Tsai。该研究针对城市内涝预警这一关键问题，提出了一种创新的注意力多层感知机（Attentive Multilayer Perceptron, AM-MLP）模型架构，并系统性地比较了其在雨水管网水位与路面淹没深度预测方面的性能。
学术背景 本研究的科学领域属于水文学与城市水管理中的智能预测技术，具体聚焦于利用人工智能模型解决城市洪涝灾害问题。研究背景源于全球气候变化导致极端降雨事件频发，使得城市排水系统面临巨大压力，合流制溢流和内涝风险加剧。准确预测管网水位和路面淹水深度，对于城市防洪排涝的精准调度、提前预警以及韧性城市建设具有至关重要的意义。 近年来，以神经网络和机器学习为代表的人工智能模型已成为预测合流制溢流和水文事件的重要工具。其中，序列模型如长短期记忆网络（Long Short-Term Memory, LSTM）、门控循环单元（Gated Recurrent Unit, GRU）和双向长短期记忆网络（Bidirectional LSTM, BiLSTM）因其出色的序列数据处理能力而被广泛应用。同时，注意力机制（Attention Mechanism, AM）的引入，使得模型能够动态关注输入序列中的关键部分，进一步提升了对复杂水文过程的学习能力。然而，传统的多层感知机（Multilayer Perceptron, MLP）虽然结构简单、计算高效，但在处理具有时间依赖性的序列数据时存在明显短板，无法显式地捕获长期的时序依赖关系。 在此背景下，本研究旨在弥补这一研究空白。研究者提出一个核心科学问题：是否可以通过将注意力机制集成到MLP架构中，来弥补其在序列处理能力上的不足，从而提升对非序列或弱序列水文数据（如空间特征、事件特征）的预测性能？ 为此，研究设定了以下具体目标：1）提出一种新颖的AM-MLP模型架构；2）在相同的实验设置下，系统比较AM-MLP与传统序列模型（LSTM、GRU、BiLSTM）及其注意力增强版本在预测管网水位和路面淹水深度方面的性能；3）探究注意力机制对不同类型模型的增益效果；4）分析管网水位预测与路面淹水深度预测在准确性上的差异及其管理启示。
详细研究流程 本研究流程严谨，可概括为以下主要步骤：研究区域与数据准备、模型设计与构建、实验设置、模型训练与超参数调优、性能评估以及结果分析。
第一步：研究区域与数据准备。 研究区域选定为台湾桃园市龟山区A8地铁站周边区域。该区域是城市内涝频发区，具备雨水管网水位（H1测站）和路面淹水深度（D1测站）的同步观测数据。数据来源于2019年7月23日至2021年5月22日期间。研究者从连续数据中提取了310场独立的降雨事件，共包含12,684条记录。其中，仅18场降雨事件观测到了路面淹水变化，凸显了淹水数据的高度稀缺性和不连续性。 数据处理包括：使用线性插值法填补缺失的降雨、水位和淹水深度数据；剔除明显不合理的数据异常值（如淹水深度超过1.5米）；将每场降雨事件定义为从降雨开始至停止后三小时的时间段，以考虑流域汇流时间。此外，研究还进行了相关性分析，发现淹水深度和管网水位的滞后变量与未来值具有强相关性，证明了其显著的自回归特性，而降雨滞后变量的相关性为中等。最终，数据被划分为训练集（186场事件，7779条记录）、验证集（61场事件，2185条记录）和测试集（63场事件，2720条记录），以确保模型评估的公正性。
第二步：模型设计与构建。 研究设计并比较了多个人工智能模型。基准模型包括：用于水位预测的H-MLP、H-LSTM、H-GRU、H-BiLSTM，以及用于淹水深度预测的D-MLP、D-LSTM、D-GRU、D-BiLSTM。这些模型均未集成注意力机制。同时，研究者构建了对应的注意力增强版本：H-AM-MLP、H-AM-LSTM、H-AM-GRU、H-AM-BiLSTM，以及D-AM-MLP、D-AM-LSTM、D-AM-GRU、D-AM-BiLSTM。 其中，本研究提出的核心创新是AM-MLP架构。该架构针对MLP无法处理序列依赖性的弱点进行了重新设计。其工作流程如下：1）输入层和基础密集层：与传统MLP相同，接收多维输入特征（如降雨、历史水位/深度）。经过一个或多个密集层进行初始特征提取和非线性变换。2）注意力层：在一或多个密集层之后，插入一个注意力层。该层将输入特征向量视为“注意力对象”，通过可训练的权重矩阵，计算每个特征维度（或中间层神经元）的相对重要性，并生成一个权重向量。此机制类似于序列模型中对不同时间步分配权重，但在AM-MLP中，目标是实现对“特征维度”或“神经元单元”的选择性聚焦。3）输出层：加权后的特征向量被传递到最终的密集层，用于生成预测输出（例如，未来多个时间步的水位或淹水深度）。这种设计使模型能够在保持MLP计算效率的同时，实现对关键水文特征的选择性关注。
第三步：实验设置与模型开发。 为探究不同输入数据的影响，研究设计了四组对照实验： 实验1：比较四种AI模型（H-MLP, H-LSTM, H-GRU, H-BiLSTM）在预测管网水位时的准确性。输入为当前及过去6个时间步的管网水位和降雨量。 实验2：探究注意力机制对实验1中四个模型的改进效果（即H-AM-MLP等）。 实验3：比较四种AI模型（D-MLP, D-LSTM, D-GRU, D-BiLSTM）在预测路面淹水深度时的准确性。输入为当前及过去6个时间步的淹水深度和降雨量。 实验4：探究注意力机制对实验3中四个模型的改进效果（即D-AM-MLP等）。 所有模型的预测目标均为未来1到6个时间步（即未来10至60分钟）的值。模型采用Python 3.8和Keras库开发，数据使用最大-最小缩放器进行归一化。
第四步：超参数调优与评估。 为确保公平比较，所有模型采用相同的超参数配置：三个隐藏层，每层20个神经元，批量大小为15，Dropout率为0.2。损失函数为均方误差（MSE），激活函数为ReLU，使用Adam优化器，训练轮数为120轮。研究者还进行了敏感性分析，表明模型性能对不同隐藏层数和神经元数的变化不敏感，从而排除了超参数选择偏倚对结果的影响。 模型性能使用三个主要指标进行评估：均方根误差（RMSE）、决定系数（R²）和纳什效率系数（Nash-Sutcliffe Efficiency, NSE）。这些指标分别从误差大小、线性解释方差和整体预测效能三个方面全面评估模型的预测精度。
主要研究结果 研究结果清晰地揭示了不同模型架构和注意力机制在两类预测任务上的表现差异及其内在逻辑。
关于雨水管网水位预测（实验1 & 2）：在未加入注意力机制的基线模型中，H-LSTM在测试集上取得了最低的RMSE（0.095米），表现出色。而H-MLP的RMSE较高（0.099米），R²和NSE相对较低，证实了MLP在处理具有强时间依赖性的水位序列时存在劣势。这一结果符合序列模型在该类任务上通常优于前馈网络的预期。 然而，在集成注意力机制后，结果发生了有趣的分化。H-AM-MLP表现出了显著的性能提升：其RMSE从0.099米降至0.095米，R²从0.604提升至0.645，NSE从0.599提升至0.631。这表明注意力机制有效地补偿了MLP在序列特征捕捉能力上的不足，通过动态加权关键特征，使其预测精度达到了与优秀序列模型相当的水平。相反，对于H-LSTM、H-GRU和H-BiLSTM等序列模型，加入注意力机制后，性能并未提升，甚至略有下降（如H-AM-LSTM的RMSE升至0.101米）。这可能是因为这些模型本身已具备强大的内部时间依赖建模能力，额外的注意力层在有限数据下增加了模型复杂度，可能引发轻微过拟合，导致收益不显著甚至负收益。
关于路面淹水深度预测（实验3 & 4）：结果模式与水位预测相似，但改进幅度更大。在基线模型中，D-LSTM和D-BiLSTM的RMSE最低（0.055米）。而D-MLP的NSE仅为0.336，预测能力较弱。 集成注意力机制后，D-AM-MLP实现了巨大的飞跃：其RMSE从0.058米大幅降至0.047米（降幅约19%），R²从0.393飙升至0.688，NSE从0.336提升至0.645。这再次强力证明了注意力机制对MLP模型的“赋能”作用。相比之下，为D-LSTM、D-GRU、D-BiLSTM添加注意力机制同样未能带来一致性的性能提升，部分模型性能反而下降。这进一步支持了“注意力机制主要弥补MLP短板，而非普遍增强所有模型”的结论。
结果比较与逻辑延伸：研究进一步比较了两类预测任务的总体准确性。管网水位预测的R²和NSE值普遍高于路面淹水深度预测。这是因为水位数据在更多类型的降雨事件中均有变化，数据连续性和变异性更丰富，为模型学习提供了更全面的系统动态信息。而淹水深度仅在极端降雨事件中才发生显著变化，样本稀缺且不连续，导致模型学习更具挑战性。这一发现具有重要的管理启示：在实时预警系统中，可以优先利用响应更灵敏、预测更稳定的管网水位作为溢流风险的早期指示器；当水位超过临界阈值时，再激活对路面淹水的重点监测和预警，从而延长应急响应时间。 研究还通过一个具体案例（2019年8月8-9日的降雨事件）展示了H-AM-MLP和D-AM-MLP进行多步超前预测（t+1, t+2, t+3）的能力。两个模型均能有效再现水位和淹水深度的时序变化，包括二次峰值，尽管在更长的预见期存在轻微的低估和延迟。这证明了AM-MLP框架在短期城市内涝实时预报中的适用性和实用价值。
研究结论与价值 本研究得出以下主要结论： 1. 序列模型的优势：在具有强长期依赖性的连续降雨条件下，LSTM和BiLSTM在管网水位预测中表现最佳。 2. 淹水深度预测的挑战：由于样本稀缺且主要来自极端事件，所有模型在捕捉淹水深度细微变化方面都面临更大挑战，预测稳定性低于水位预测。 3. 注意力机制的影响：对于MLP，集成注意力机制能够显著弥补其缺乏时序处理能力的缺陷，大幅提升预测精度和可解释性，使AM-MLP成为处理弱序列或低频率数据条件下的有效替代方案。但对于已具备成熟时序结构的模型（如LSTM/GRU），添加注意力机制需谨慎，可能因增加复杂性而在数据有限时导致性能下降。 4. 应用与政策意义：AM-MLP特别适用于监测网络稀疏或样本有限的地区，展现了良好的跨区域适应潜力。从政策角度看，应加强路面淹水深度监测网络的建设，并推广集成类似AM-MLP的实时预测系统，以支持城市洪涝韧性规划。
研究的科学价值与应用价值： 科学上，本研究成功地将原本用于序列模型的注意力机制，创新性地迁移并重新概念化，应用于前馈网络MLP中，为解决非序列/弱序列水文数据的特征聚焦问题提供了新的架构思路。它丰富了水文预测的模型工具箱，特别是为数据不连续场景下的建模提供了新途径。 应用上，AM-MLP模型为城市防洪管理提供了有力的技术工具。其高精度的管网水位和淹水深度预测，能够帮助管理部门更早、更准地识别溢流和淹水风险，从而及时部署抽排作业、发布预警、调度资源，有效减少道路中断和财产损失。研究提出的“水位先行预警、深度重点跟进”的策略，对优化现有城市内涝预警系统的运作逻辑具有直接指导意义。
研究亮点 1. 方法创新性：提出了全新的AM-MLP架构，首次系统地将注意力机制与经典MLP结合用于水文预测，并验证了其在补偿MLP序列处理短板方面的卓越效果。 2. 对比系统性：在统一的实验设置下，全面比较了包括MLP、LSTM、GRU、BiLSTM及其注意力版本在内的多达16种模型组合，确保了结论的可靠性和公正性。 3. 问题导向性：紧密围绕城市内涝预警中的实际数据难题（如淹水数据稀缺、不连续），提出的模型具有明确的现实针对性和应用潜力。 4. 管理启示性：不仅停留在模型性能比较，还深入分析了管网水位与路面淹水深度预测差异的原因，并引申出具有可操作性的分级预警管理策略，实现了从技术到管理的贯通。
其他有价值内容 研究坦诚地指出了若干局限性并展望了未来研究方向，包括：数据量和覆盖范围不足，未来可结合SWMM等物理模型生成合成数据或采用交叉验证、迁移学习等方法；缺乏多样化的水文和空间数据（如土壤湿度、土地利用）；缺乏不确定性分析，未来可引入蒙特卡洛模拟等方法；目前主要关注短期预报，向中长期扩展需更多调整。这些思考为该领域的后续研究提供了清晰的路线图。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问