本研究由华南师范大学的黄伯松、肖婧、谢汝中、黄锦,以及中国电信股份有限公司广州研究院的阮珂、余伟豪共同完成。研究成果以题为“ODFormer: Spatial–Temporal Transformers for Long Sequence Origin–Destination Matrix Forecasting Against Cross Application Scenario”的论文形式,发表于期刊 *Expert Systems with Applications*,第222卷(2023年),文章编号119835,于2023年3月9日在线发表。
本研究属于时空数据预测与人工智能交叉领域,具体聚焦于起源-目的地矩阵预测问题。起源-目的地矩阵是一种记录从多个起始区域到多个目的地区域之间定向流量(如交通流量、人群流动、网络数据流)的矩阵型时空数据。OD矩阵预测旨在根据历史序列,对未来多个时间步的OD矩阵进行预测,这对于交通规划、资源分配、网络管理和流行病传播分析等应用至关重要。
尽管已有不少针对特定应用场景(如交通流量、人群流动)的OD预测方法,但它们普遍存在两大局限:第一,场景局限性:现有方法大多针对单一应用场景设计,其模型深度依赖于特定场景的地理拓扑或数据特征(例如,交通场景强调道路网络的图结构,IP网络场景则可能忽略地理因素),导致模型难以迁移到其他应用场景,即缺乏“跨场景”的泛化能力。第二,预测长度局限:许多方法仅针对极短序列(如下一个或几个时间步)进行预测,而实际应用(如提前数小时或数天的资源调度)需要长序列时间序列预测。直接应用经典的循环神经网络(如LSTM)处理长序列会导致早期信息丢失,而使用标准的Transformer模型则会面临计算复杂度和内存消耗的严峻挑战。
因此,本研究旨在解决这两个核心问题,目标是开发一个能够跨多种应用场景,并有效进行长序列OD矩阵预测的通用模型。该研究提出了一个名为ODFormer的时空Transformer模型,其核心创新在于设计了专门捕捉OD数据独特空间依赖性的“OD注意力机制”,以及能够适应不同场景周期性特征、同时降低长序列计算复杂度的“周期稀疏自注意力机制”。
本研究的工作流程主要围绕ODFormer模型的构建、训练与验证展开,可分为以下几个关键步骤:
第一步:问题定义与数据准备 首先,研究明确定义了长序列OD矩阵预测任务:给定长度为 I 的历史OD矩阵序列 [M(τ-I+1), ..., M(τ)],目标是预测未来长度为 *O*(且 O 显著大于 *I*)的序列 [M(τ+1), ..., M(τ+O)]。每个OD矩阵 M(τ) ∈ R^(N×N′×F),其中 N 和 N′ 分别是起始区和目的地区的数量,F 是每个OD对的特征维度。
研究收集了涵盖三个不同应用场景的五个真实世界数据集,以验证模型的跨场景能力: 1. IP骨干网流量场景:使用Géant数据集(23个节点,15分钟间隔)和Abilene数据集(11个节点,5分钟间隔)。数据包括OD矩阵序列和节点间的网络拓扑图。 2. 人群流动场景:使用日本人类轨迹数据集(JHT,47个都道府县,1天间隔)。数据包括OD矩阵序列和行政区划邻接图。 3. 交通流量场景:使用纽约市出租车数据集(NYC,67个区域,15分钟间隔)和成都出租车数据集(CD,79个区域,30分钟间隔)。
数据处理包括:使用98%分位数截断极端值;基于拓扑邻居(使用聚合函数)填充缺失值;对OD矩阵元素取自然对数进行标准化。所有数据集按6:2:2的比例划分为训练集、验证集和测试集。
第二步:ODFormer模型架构设计 ODFormer是一个编码器-解码器结构的Transformer类模型,其核心创新模块体现在空间依赖捕捉和时间依赖捕捉上。
1. 空间依赖模块:该模块融合了两种不同的空间依赖性捕捉机制,通过一个可随场景调整的空间共享系数 α 进行加权融合。 * OD注意力机制:这是本研究提出的 novel 方法。传统方法只考虑区域之间的拓扑相关性,而OD注意力机制旨在捕捉共享相同起点或相同终点的OD对之间的内在依赖关系。例如,从A地出发前往B、C、D地的交通流之间可能存在竞争或互补关系。具体实现上,模型将OD矩阵分别表示为起点向量和终点向量。为了应对长序列中区域数量 N 带来的计算平方复杂度问题,研究者设计了一种空间稀疏自注意力机制。该机制基于香农熵动态选择最具信息量的主导查询向量(每 P_max 个时间步更新一次),仅对这些向量进行注意力计算,将时间复杂度降低至 *O(N ln N)*。最终,分别计算起点注意力矩阵 Ω 和终点注意力矩阵 *Δ*,并应用于OD矩阵得到 M^a = Ω M Δ。 * 二维图卷积网络:为了捕捉基于地理或网络拓扑的相邻区域间的依赖关系,研究采用了2D-GCN。该网络对OD矩阵的起点维和终点维同时进行图卷积操作(使用切比雪夫多项式近似),使得信息能在起点区域和终点区域的 K 跳邻居之间传播,输出结果为 M^g。
空间依赖模块的最终输出为 M^τ = (1-α) M^g_τ + α M^a_τ。
2. 时间依赖模块 - 周期稀疏自注意力:这是为长序列预测量身定制的核心模块。标准的全自注意力机制复杂度为 *O(L^2)*,无法用于长序列。本研究提出了 PeriodSparse Self-Attention。 * 周期性提取器:首先,一个周期性提取器自适应地从输入序列中提取出 k 个最主要的周期长度,构成周期集合 {P1, ..., Pk}。其原理是:先通过移动平均滤除趋势成分,得到周期性分量;然后计算序列与其自身不同滞后版本之间的时延相似度(通过快速傅里叶变换高效计算),选取相似度最高的 k 个滞后长度作为周期。 * 基于周期的稀疏注意力模式:每个注意力头对应一个提取出的周期 *P_k*。在该注意力头中,每个输出位置只关注与其时间索引满足 (i - j) mod P_k = 0 条件的输入位置。这意味着注意力以周期 P_k 为间隔的“条带”形式进行。这种设计可以同时捕捉不同时间尺度(如日周期、周周期)的长期依赖,并将层的内存使用复杂度控制在 *O(L ln L)*。
模型的工作流程是:历史OD矩阵序列首先经过空间依赖模块,聚合空间信息;然后,序列被送入编码器,在时间维度上应用周期稀疏自注意力,捕捉长期时间模式;解码器则结合编码器的输出和已知的部分未来信息(在训练时)进行交叉注意力计算,最终输出预测的未来长序列OD矩阵。
第三步:实验设置与评估 研究实施了详尽的实验来评估ODFormer。 * 基线模型:选择了来自两个视角的10个基线模型进行对比。从OD预测视角,包括STGCN、GEML、MPGCN、ODCRN等针对特定场景的先进模型;从长序列预测视角,包括LSTM、ARIMA、N-BEATS、DeepAR以及先进的Informer和Autoformer。 * 超参数与训练:使用网格搜索优化超参数(如学习率、批大小、GCN聚合阶数)。对于模型特有的超参数(如Autoformer的采样因子、STGCN的卷积核大小),均按原论文或调优至最佳设置。所有实验在单GPU上重复5次,使用PyTorch实现,采用早停策略,训练周期最多为18个。评估指标为均方误差(MSE)和平均绝对误差(MAE)。
第四步:消融实验与参数分析 为了验证所提出模块的有效性,研究进行了系统的消融实验: * 将周期稀疏自注意力替换为全自注意力,对比性能和内存消耗。 * 从ODFormer中分别移除OD注意力模块或2D-GCN模块,观察模型性能变化。 此外,还对关键参数进行了敏感性分析: * 空间共享系数 *α*:分析其在各数据集上对性能的影响,验证融合两种空间依赖的必要性。 * 稀疏控制因子 *c*:分析其对周期稀疏自注意力稀疏度和预测精度的影响。
1. 整体性能结果:在五个数据集、三种场景下的长序列预测任务中,ODFormer在绝大多数预测长度设置下均取得了最优(MSE和MAE最低)或次优的性能。结果表明: * 跨场景优越性:ODFormer在IP网络、人群流动和交通流量场景下均表现优异,而其他基线模型通常只在特定场景下表现良好(例如,GEML在部分交通数据上表现好,但在其他场景不佳)。这证明了ODFormer设计的通用性成功解决了跨场景预测的难题。 * 长序列预测鲁棒性:随着预测长度 O 的增加,ODFormer的误差增长曲线最为平缓,显著优于其他模型(包括专门为长序列设计的Informer和Autoformer)。这直接证明了其周期稀疏自注意力机制在捕捉长期时间依赖方面的有效性。
2. 消融实验结果: * 周期稀疏自注意力 vs. 全自注意力:在相同设置下,周期稀疏自注意力在各项指标上均优于全自注意力,同时其内存消耗远低于全自注意力(在长序列设置下,全自注意力会出现内存溢出)。这证实了该机制在保持高性能的同时,显著提升了计算效率。 * OD注意力与2D-GCN的贡献:移除任一模组都会导致性能下降。具体而言,在IP网络流量和人群流动场景中,OD注意力的贡献更为主导;而在与地理信息强相关的交通场景中,2D-GCN的贡献更大。这恰恰说明了不同场景空间依赖模式的差异性,以及ODFormer融合机制的自适应性。
3. 参数敏感性分析结果: * 空间共享系数 α 在不同数据集上的最优值不同。对于地理相关性强的数据集(如NYC, CD),较小的 *α*(即更依赖2D-GCN)效果更好;对于其他数据集,则需要更大的 *α*(即更依赖OD注意力)。当 α 接近极端值(0或1)时,MSE会显著上升,这从实验上证明了结合两种空间依赖机制的必要性。 * 稀疏控制因子 c 的实验表明,适度的稀疏性(c=2)能在保证预测精度的同时有效控制计算复杂度。
4. 效率分析结果:通过对比运行时间和内存占用,ODFormer在时间复杂度和内存复杂度上的优势得以可视化呈现。与结合了全空间注意力的Informer/Autoformer相比,ODFormer在长序列预测任务中表现出更高的效率。
本研究得出结论:所提出的ODFormer模型是首个成功应用于长序列、跨场景OD矩阵预测问题的Transformer类模型。其主要价值体现在: * 科学价值:首次将改进的Transformer架构系统性地引入ODMF领域,并针对该问题的两大核心挑战(复杂空间依赖和长序列计算)提出了原创性的解决方案——OD注意力机制和周期稀疏自注意力机制。这些机制为时空图数据的建模提供了新的思路。 * 应用价值:模型在交通、人群流动、IP网络三个差异巨大的真实场景中均取得了优越性能,证明了其强大的泛化能力和实用性。这使其有望成为一个通用的OD预测工具,为城市规划、交通管理、网络运维和公共卫生等领域的决策提供更长期、更准确的流量预测支持。
研究在最后指出了未来工作的挑战与方向:例如,在某些工程场景中,获取连续长时序OD矩阵成本高昂,因此小样本情况下的OD预测是一个新挑战;此外,OD矩阵元素的缺失值补全也是实际应用中常见的问题,未来工作可以探索如何利用其时空邻域关系来完成缺失元素。这为后续研究指明了具有实际意义的切入点。