本文题为 “OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction”,由 Zhonghang Li、Long Xia、Lei Shi、Yong Xu、Dawei Yin 和 Chao Huang 等学者合作完成。作者所属机构包括 The University of Hong Kong、South China University of Technology 以及 Baidu Inc.。文章计划发表于 ACM 期刊,预计于 2024 年正式发表。这篇论文专注于一种新型的开放时空基础模型——OpenCity,以解决传统交通预测模型在泛化能力上的局限性。
交通预测是城市规划和交通管理领域中的一个核心问题。准确的交通预测不仅可以提升交通资源的分配效率,还能改善出行体验,为建设智能交通系统奠定基础。然而,目前的交通预测模型存在两个主要问题: 1. 空间泛化能力不足:现有模型通常基于单一城市或区域训练,其预测性能在未曾见过的区域显著下降。 2. 长期泛化能力欠缺:虽然许多模型在短期交通预测(如一小时内)中表现突出,但在涉及数天或数周的长期预测场景中,其准确性随时序分布的变化显著减弱。
这些局限性主要源于交通数据的空间和时间异质性,以及训练数据与测试数据之间的显著分布偏移。鉴于此,研究团队提出了一种新型的时空基础模型 OpenCity,旨在开发具备通用性、鲁棒性和自适应性的预测框架,以应对交通领域中的多样化挑战。
本研究旨在通过基于 Transformer 和图神经网络(Graph Neural Networks, GNN)的新型模型架构,有效捕捉交通数据的复杂时空依赖关系,并通过大规模异构数据的预训练提升模型的泛化能力。研究的目标包括:开创一种具备零样本(zero-shot)学习能力的交通预测模型,实现跨区域、跨城市和跨任务的高效迁移和适应。
研究团队设计了一个融合 Transformer 和 GNN 的混合式模型架构。该模型的核心组件包括零样本时空嵌入层(Zero-shot Spatio-Temporal Embedding Layer)、时空上下文编码器(Spatio-Temporal Context Encoder)和时空相关性建模模块(Spatio-Temporal Dependencies Modeling)。通过对大规模异构交通数据进行预训练,模型能够学习到丰富且可迁移的时空特征表示。
1. 数据嵌入与分布偏移的泛化处理
- 实例标准化(Instance Normalization)
模型采用实例标准化(Instance Normalization, IN)技术,对每个实例数据进行归一化,而非依赖整体数据集的统计值。具体公式如下:
[ \bar{x}{r,t} = \frac{x{r,t} - \mu_r}{\sigma_r} ]
其中,(\mu_r) 和 (\sigma_r) 分别为单个区域实例数据的均值与标准差。通过这种方法,模型能够更有效应对分布偏移,实现零样本学习能力。
2. 时空上下文编码
- 时间维度
模型捕捉了时间数据中的周期性特征(如每日或每周的模式)。通过线性变换生成时间片段嵌入(对应一天中的时间与星期几)并将其整合到模型中。
3. 时空依赖关系建模
- 周期性与动态模式结合
在时间相关性建模中,模型从两个方向捕捉时空模式:
1. 周期性转变:通过多头注意力机制(Multi-Head Attention)显式建模历史与未来的对应关系。
2. 动态变化:预测突发时间段(如交通事故)对交通动态的影响。
4. 模型规模与训练
研究团队设计了三类模型版本(OpenCityMini、OpenCityBase 和 OpenCityPlus),分别包含 2百万、5百万和 26百万的参数量,并使用超过 1.5 亿条交通数据进行预训练,涉及 352,796 个时间节点和 10,110 个区域。
研究使用了多个大型交通数据集,包括交通流量(CAD系列数据)、出租车需求(NYC-Taxi、CHI-Taxi)、共享单车轨迹(NYC-Bike)以及交通速度等数据。这些数据覆盖美国与中国的多个主要城市,并按照零样本评估、监督学习评估等场景进行了划分。
在无任何目标域训练的零样本评估中,OpenCity 模型在跨区域、跨城市、跨任务的场景中表现出色。实验结果表明,OpenCity 的预测性能在大多数指标上超越其他基线模型(如 GWN、ASTGCN 等),其误差范围较小,在 MAE 和 RMSE 指标上接近甚至优于这些模型的完全训练(full-shot)版本。
跨任务预测能力
在交通流量、交通速度、出租车需求和共享单车轨迹等四种任务数据类别上,OpenCity 均展示了稳定的高性能,尤其在新数据类型(如 NYC-Bike 数据集)上的预测也非常精准。
长期预测能力
实验验证了 OpenCity 在长期预测中的鲁棒性。模型通过学习历史数据与未来模式间的精细对应关系,在数天或数周的时间跨度上仍能提供准确的交通流量预测。
在快速适应实验中,OpenCity 仅通过更新预测头部(即最后一层线性层),在 2%-32% 的训练时间内便超过了全量训练的基线模型,大幅降低了额外训练成本。该特性使其在新场景中的快速部署价值显而易见。
研究表明,OpenCity 的性能随数据量和参数规模的增加而不断提升,展现出良好的可扩展性。这为未来构建更大规模的时空基础模型提供了明确方向。
OpenCity 模型通过预训练实现了卓越的零样本学习能力,并在跨区域、跨任务、跨时间场景中表现出了强大的泛化能力。其显著优点包括: 1. 科学价值
提供了一种一致的时空基础模型架构,能够高效解决数据分布差异问题,同时丰富了交通预测模型的理论框架,为智能交通系统的部署带来了巨大启示。
这个研究的结论指出了 OpenCity 在交通预测任务中的广泛适应性和高效性能,为未来交通管理和智能城市建设提供了深远意义和启示。