一种基于改进Transformer的交通流预测模型：IEEAFormer

分享自：
一种基于改进Transformer的交通流预测模型：IEEAFormer

期刊:Scientific ReportsDOI:10.1038/s41598-025-92425-7
学术研究报告：一种改进的基于Transformer的交通流预测模型IEEAFORMER
第一， 研究作者、机构及发表信息
本研究的主要作者为Shipeng Liu与Xingjian Wang（通讯作者）。作者单位为中国东北林业大学计算机与控制工程学院。该研究以题为“An improved transformer based traffic flow prediction model”的论文形式，发表于学术期刊《Scientific Reports》2025年第15卷，文章编号8284。
第二， 学术背景与研究目标
本研究属于智能交通系统（Intelligent Transportation Systems, ITS）与时空数据预测领域的交叉研究范畴，具体聚焦于交通流预测这一关键任务。准确预测未来交通流量对于优化城市交通资源管理、缓解拥堵、提升出行效率具有至关重要的实际应用价值。
研究的背景基于当前深度学习预测模型存在的若干局限性。首先，基于卷积神经网络（CNN）或循环神经网络（RNN）的模型受其架构所限，难以有效建模长序列依赖关系，且CNN的感受野有限，RNN则存在梯度消失问题。其次，大多数基于Transformer的方法在数据嵌入（Embedding）阶段仅关注流量数据本身，忽视了流量数据背后丰富的隐含信息，例如行为趋势、社区及周边交通模式、城市天气、语义信息和时间周期性等。第三，传统的多头自注意力（Multi-head Self-Attention）机制在时间维度上逐点计算注意力分数，未能利用序列数据内在的上下文环境信息，可能导致不准确的注意力匹配（例如，将因事故导致的零流量与深夜正常低流量错误关联）。第四，现有方法难以同时捕捉交通数据中的长程和短程空间依赖关系。
针对上述四个核心问题，本研究旨在提出一种新型的Transformer模型架构，以更全面、更精准地捕获交通流数据的时空特征与隐含信息，从而提升预测性能。具体目标包括：1）设计能够嵌入多维隐含信息的输入层；2）改进时间维度的注意力机制，使其能够感知上下文环境；3）创新空间注意力机制，以并行方式同时建模长程与短程空间依赖；4）在多个真实数据集上验证所提模型的有效性。
第三， 详细研究流程与方法
本研究提出的模型名为IEEAFORMER（Implicit-information Embedding and Enhanced spatial-temporal multi-head Attention Transformer）。其整体工作流程主要包括三个核心模块：嵌入层（Embedding Layer）、时空Transformer编码器层（Temporal-Spatial Transformer Encoder Layer）和回归层（Regression Layer）。研究使用四个公开的真实世界交通数据集（PEMS03, PEMS04, PEMS07, PEMS08）进行模型训练与验证。
1. 嵌入层： 此模块负责将原始输入数据转化为富含信息的嵌入表示，包含两部分： * 交通数据隐含信息嵌入： 将原始交通流张量 X ∈ R^(T×N×J)（T为时间步，N为节点数，J=1为特征维度）转换为高维特征嵌入 E_d ∈ R^(T×N×D)。同时，为了捕获交通流显著的日周期性和周周期性（如早晚高峰、工作日与周末差异），引入了周期性时间嵌入。通过函数将时间戳转换为星期索引和分钟索引，再映射为日嵌入和周嵌入，广播拼接后得到周期性时间嵌入 E_f ∈ R^(T×N×F)。此外，考虑到不同传感器（节点）因地理位置（如交叉口与单向街道）不同而捕获的交通模式差异（即时空语义信息），本研究使用Xavier初始化方法创建了一个可学习的语义信息嵌入 E_s ∈ R^(T×N×S)，该嵌入可在每个时间序列中共享。最终，将特征嵌入、时间嵌入和语义嵌入拼接，得到隐含信息嵌入的输出 E_i = E_d || E_f || E_s。 * 路网结构图拉普拉斯嵌入： 为了更精确地反映路网节点的全局结构关系，本研究采用图拉普拉斯特征向量进行嵌入。首先计算归一化拉普拉斯矩阵 L = I - D^(-1⁄2) A D^(-1⁄2)，其中A为邻接矩阵，D为度矩阵，I为单位矩阵。随后对L进行特征值分解，选取k个最小的非平凡特征向量，经线性投影后生成空间图拉普拉斯嵌入 X_lap ∈ R^(N×L)。相较于传统邻接矩阵，此方法能更好地保留节点间的结构距离信息。
2. 时空Transformer编码器层： 此层是模型的核心，针对原始Transformer的注意力机制进行了针对性改进，分别处理时间和空间维度。 * 时间环境感知自注意力（Temporal-Environment-Aware Self Attention）： 此机制旨在解决传统注意力忽视局部时间上下文、错误匹配数值相似但时间无关点的问题。具体做法是，在生成查询（Query）和键（Key）时，不使用简单的线性投影，而是采用一维因果卷积（1D Causal Convolution）进行操作。卷积核大小为k的1D因果卷积能从每个时间步及其前序步骤中提取上下文表示，从而使模型能够感知局部时间环境趋势。值（Value）仍通过1*1卷积生成。这种设计使得注意力机制能够动态适应输入数据的变化，灵活捕捉不同的时间模式。注意力分数的计算遵循标准方式，但基于卷积后的Q和K进行，最终输出 X_te ∈ R^(N×T×M) 包含了整合时间轴上下文信息后的表示。 * 空间Transformer编码器： 将时间环境感知自注意力的输出 X_te 与图拉普拉斯嵌入 X_lap（经广播后）相加，作为空间编码器的输入。为了同时捕捉复杂的短程（如相邻路口拥堵传导）和长程（如相距较远的学校和政府机构具有相似的早晚高峰模式）空间依赖，本研究创新性地采用了并行空间自注意力架构，并引入了两种独特的图掩码矩阵。 * 短程空间自注意力： 使用短程掩码矩阵 M_s。该矩阵基于节点间的地理距离，设定一个阈值λ，距离小于等于λ的节点对掩码值为1（允许注意力），否则为0（屏蔽）。这迫使注意力机制聚焦于地理上邻近的节点。 * 长程空间自注意力： 使用长程掩码矩阵 M_l。该矩阵不依赖于地理距离，而是基于历史交通流模式的相似性。利用动态时间规整（Dynamic Time Warping, DTW）算法计算每对节点历史时间序列的相似度，选择相似度最高的前K个节点作为“邻居”，将其对应掩码值设为1，其余为0。这使得模型能够发现并关注那些空间距离远但交通模式相似的节点。 两个并行的注意力模块分别计算其注意力分数，然后与相应的掩码矩阵进行哈达玛积（Hadamard product）以过滤无关连接。两个模块的输出经过残差连接和层归一化后拼接，再通过一个全连接层进行维度变换，最终得到空间编码器的输出 X_spa ∈ R^(T×N×M)，该输出被认为已准确学习了空间域的长短程关系。
3. 实验设计与分析流程： * 数据集与预处理： 使用PEMS03、04、07、08四个真实交通流数据集。数据已按5分钟间隔采集。预处理包括检测并移除缺失值，并进行标准化（减去均值，除以标准差）。按照6:2:2的比例划分为训练集、验证集和测试集。 * 实验设置： 预测任务为多步预测，使用过去1小时（12个时间步）的数据预测未来1小时（12个时间步）。模型在PyTorch框架下实现，使用Adam优化器，学习率0.001并衰减，批量大小为16，训练200个周期并采用早停策略。评估指标为平均绝对误差（MAE）、平均绝对百分比误差（MAPE）和均方根误差（RMSE）。 * 对比基准与消融实验： 将IEEAFORMER与多种基准模型比较，包括传统模型（HI）、图神经网络模型（DCRNN, AGCRN, STGCN, GTS, ASTGNN, MTGNN）、时序分解模型（STNorm）以及其他基于Transformer的预测模型（GMAN, PDFormer, DRFormer）和较新模型（MFSTN, SGRU）。此外，设计了消融实验以验证各组件有效性：1）移除时间嵌入E_f和语义嵌入E_s；2）用传统多头自注意力替换时间环境感知自注意力；3）在空间自注意力中移除长短程掩码。
第四， 主要研究结果
整体性能对比结果： 在四个数据集（PEMS03, 04, 07, 08）上，IEEAFORMER在绝大多数指标（MAE, MAPE, RMSE）上均优于所有对比的基准模型。例如，在PEMS08数据集上，IEEAFORMER的MAE、RMSE、MAPE分别为13.49、23.20、8.89%，显著优于其他优秀模型如PDFormer（13.63, 23.41, 9.11%）和ASTGNN（14.94, 23.55, 9.09%）。这证明了模型强大的预测性能和泛化能力。结果表明：a) 深度学习方法（包括IEEAFORMER）明显优于忽略空间依赖的传统时序模型（HI）；b) IEEAFORMER优于同样建模路网的STGCN，说明其独特的长短程掩码机制能更好地捕获地理关系；c) 在基于自注意力的模型中，IEEAFORMER凭借更简单的架构和更有效的隐含信息捕获能力，取得了领先的性能。
超参数与配置影响： 在PEMS08数据集上进行的超参数敏感性实验表明，IEEAFORMER对超参数设置不敏感。增加隐含信息嵌入维度、模型深度或注意力头数能轻微提升性能，但差异不显著。关键的发现是，残差连接和层归一化对模型训练和性能至关重要。当两者都被移除时，模型难以训练，损失无法收敛；同时使用两者时，模型达到最佳性能。
消融实验结果： 在PEMS04和PEMS08数据集上的消融实验清晰揭示了各模块的贡献。
移除时间嵌入和语义嵌入后，模型性能下降，这证实了交通流数据中确实存在周期性、语义模式等隐含信息，而本研究的嵌入层能有效捕获这些特征。
将时间环境感知自注意力替换为传统多头自注意力后，模型性能显著下降。这验证了所提的、结合卷积上下文感知的时间注意力机制，在建模时间关系上比传统机制更有效，能避免不合理的时间点匹配。
在空间自注意力中移除长短程掩码（即退化为全连接注意力）后，性能也出现下降。这说明引入的掩码机制能够突出重要的空间特征（地理邻近性与模式相似性），并有效抑制噪声干扰。
案例研究结果：
时间环境敏感性测试： 将输入数据沿时间轴打乱以破坏其时间顺序后，IEEAFORMER的性能显著下降。这表明模型确实对数据中隐含的时间环境信息敏感，并依赖于它进行准确预测。
注意力可视化： 对比原始自注意力分数与时间环境感知自注意力分数的热图发现，原始注意力倾向于关注时间上遥远但数值相似的点，而时间环境感知注意力则能正确聚焦于给定时间步及其周围上下文信息。
预测视野扩展测试： 随着预测时间步长（视野）的增加，所有模型的预测性能都呈下降趋势，但IEEAFORMER的性能下降幅度在大多数情况下最小。这表明即使在时间相关性减弱的情况下，IEEAFORMER仍能基于学习到的空间相关性信息做出相对准确的预测，体现了其强大的时空联合建模能力。
第五， 研究结论与价值
本研究成功提出并验证了IEEAFORMER模型，该模型通过三个关键方面的增强，有效提升了交通流预测的准确性：1）在输入中引入包含周期性时间和语义信息的隐含信息嵌入；2）使用时间环境感知自注意力机制建模时间依赖，感知局部上下文；3）采用结合长短程掩码矩阵的并行空间自注意力机制，同时捕捉长短程空间特征。
研究的科学价值在于，它系统性地识别并解决了现有Transformer类交通预测模型的几个关键缺陷，提出了一套整合多维隐含信息、改进时空注意力计算的具体方案，为时空序列预测领域，特别是交通预测，提供了新的模型设计思路和方法论参考。其应用价值直接体现在智能交通系统中，更准确的交通流预测能为动态交通诱导、信号灯配时优化、拥堵预警等应用提供更可靠的技术支撑，有助于提升城市交通管理效率和出行体验。
第六， 研究亮点
多维隐含信息嵌入： 创新性地将周期性时间嵌入和可学习的语义信息嵌入引入交通流预测模型，使模型能够学习数据背后丰富的上下文知识，而不仅仅是原始流量数值。
时间环境感知自注意力： 用一维因果卷积改造传统注意力中的Q、K生成过程，使模型能够感知时间序列的局部上下文环境，解决了数值相似但时间无关点的错误匹配问题，提升了时间维度建模的合理性。
并行长短程空间注意力机制： 提出了一种新颖的并行空间自注意力架构，并分别设计基于地理距离的短程掩码和基于DTW相似度的长程掩码。这种设计使模型能够同时、显式地建模两种不同性质的空间依赖关系，是对空间关系建模方法的重要创新。
综合性能优越： 在四个真实数据集上的全面实验表明，IEEAFORMER在预测精度上超越了众多现有先进模型，且通过详尽的消融实验和案例研究，扎实地验证了各组件设计的有效性和必要性。
第七， 其他有价值内容
本研究还对模型的时空复杂度进行了分析。在时间环境感知多头自注意力模块中，每个节点的多头自注意力和卷积操作的计算复杂度分别为 O(T^2/h * d_model) 和 O(k*T*h*d_model^2)，空间自注意力的时间复杂度也为 O(T^2/h * d_model)。空间复杂度约为 O(N^2*d + N*d)。这为后续研究者在不同规模数据集上应用或改进该模型提供了参考。
此外，论文在“相关工作”部分对基于CNN、GNN以及注意力/Transformer的各类交通预测模型进行了梳理和评述，清晰定位了本工作与前人研究的区别与联系，体现了研究的继承性与创新性。作者也公开了模型代码，便于学术同行复现和进一步研究。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问