分享自:

开放城市:用于交通预测的开放时空基础模型

期刊:ACM (Proceedings of ACM Conference)DOI:10.1145/nnnnnnn

学术报告:基于交通预测的开放时空基础模型研究——OpenCity

作者信息与发表背景

本文题为 “OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction”,由 Zhonghang Li、Long Xia、Lei Shi、Yong Xu、Dawei Yin 和 Chao Huang 等学者合作完成。作者所属机构包括 The University of Hong Kong、South China University of Technology 以及 Baidu Inc.。文章计划发表于 ACM 期刊,预计于 2024 年正式发表。这篇论文专注于一种新型的开放时空基础模型——OpenCity,以解决传统交通预测模型在泛化能力上的局限性。


学术背景

研究领域与研究背景

交通预测是城市规划和交通管理领域中的一个核心问题。准确的交通预测不仅可以提升交通资源的分配效率,还能改善出行体验,为建设智能交通系统奠定基础。然而,目前的交通预测模型存在两个主要问题: 1. 空间泛化能力不足:现有模型通常基于单一城市或区域训练,其预测性能在未曾见过的区域显著下降。 2. 长期泛化能力欠缺:虽然许多模型在短期交通预测(如一小时内)中表现突出,但在涉及数天或数周的长期预测场景中,其准确性随时序分布的变化显著减弱。

这些局限性主要源于交通数据的空间和时间异质性,以及训练数据与测试数据之间的显著分布偏移。鉴于此,研究团队提出了一种新型的时空基础模型 OpenCity,旨在开发具备通用性、鲁棒性和自适应性的预测框架,以应对交通领域中的多样化挑战。

研究目标

本研究旨在通过基于 Transformer 和图神经网络(Graph Neural Networks, GNN)的新型模型架构,有效捕捉交通数据的复杂时空依赖关系,并通过大规模异构数据的预训练提升模型的泛化能力。研究的目标包括:开创一种具备零样本(zero-shot)学习能力的交通预测模型,实现跨区域、跨城市和跨任务的高效迁移和适应。


研究方法与详细流程

研究整体方法概述

研究团队设计了一个融合 Transformer 和 GNN 的混合式模型架构。该模型的核心组件包括零样本时空嵌入层(Zero-shot Spatio-Temporal Embedding Layer)、时空上下文编码器(Spatio-Temporal Context Encoder)和时空相关性建模模块(Spatio-Temporal Dependencies Modeling)。通过对大规模异构交通数据进行预训练,模型能够学习到丰富且可迁移的时空特征表示。

具体研究流程

1. 数据嵌入与分布偏移的泛化处理
- 实例标准化(Instance Normalization)
模型采用实例标准化(Instance Normalization, IN)技术,对每个实例数据进行归一化,而非依赖整体数据集的统计值。具体公式如下:
[ \bar{x}{r,t} = \frac{x{r,t} - \mu_r}{\sigma_r} ]
其中,(\mu_r) 和 (\sigma_r) 分别为单个区域实例数据的均值与标准差。通过这种方法,模型能够更有效应对分布偏移,实现零样本学习能力。

  • 时间片段嵌入(Patch Embedding)
    针对长期预测任务,模型将原始时序数据划分为多个固定长度的时间片段(Patch)以降低计算与内存开销。后续利用线性变换与位置编码生成时空嵌入向量,输入到模型中。

2. 时空上下文编码
- 时间维度
模型捕捉了时间数据中的周期性特征(如每日或每周的模式)。通过线性变换生成时间片段嵌入(对应一天中的时间与星期几)并将其整合到模型中。

  • 空间维度
    模型利用图的归一化拉普拉斯矩阵(Normalized Laplacian Matrix)及其特征向量分解,提取交通网络的空间结构信息,并生成区域嵌入表示(Region Embedding)。

3. 时空依赖关系建模
- 周期性与动态模式结合
在时间相关性建模中,模型从两个方向捕捉时空模式:
1. 周期性转变:通过多头注意力机制(Multi-Head Attention)显式建模历史与未来的对应关系。
2. 动态变化:预测突发时间段(如交通事故)对交通动态的影响。

  • 空间相关性建模
    使用图卷积网络(Graph Convolutional Network, GCN)描述区域间的空间依赖关系。模型通过残差连接与线性变换整合空间特性,进一步提高对动态交通特征的捕捉能力。

4. 模型规模与训练
研究团队设计了三类模型版本(OpenCityMini、OpenCityBase 和 OpenCityPlus),分别包含 2百万、5百万和 26百万的参数量,并使用超过 1.5 亿条交通数据进行预训练,涉及 352,796 个时间节点和 10,110 个区域。


实验数据与结果分析

数据集与实验设置

研究使用了多个大型交通数据集,包括交通流量(CAD系列数据)、出租车需求(NYC-Taxi、CHI-Taxi)、共享单车轨迹(NYC-Bike)以及交通速度等数据。这些数据覆盖美国与中国的多个主要城市,并按照零样本评估、监督学习评估等场景进行了划分。

零样本评估结果

在无任何目标域训练的零样本评估中,OpenCity 模型在跨区域、跨城市、跨任务的场景中表现出色。实验结果表明,OpenCity 的预测性能在大多数指标上超越其他基线模型(如 GWN、ASTGCN 等),其误差范围较小,在 MAE 和 RMSE 指标上接近甚至优于这些模型的完全训练(full-shot)版本。

  • 跨任务预测能力
    在交通流量、交通速度、出租车需求和共享单车轨迹等四种任务数据类别上,OpenCity 均展示了稳定的高性能,尤其在新数据类型(如 NYC-Bike 数据集)上的预测也非常精准。

  • 长期预测能力
    实验验证了 OpenCity 在长期预测中的鲁棒性。模型通过学习历史数据与未来模式间的精细对应关系,在数天或数周的时间跨度上仍能提供准确的交通流量预测。

高效适应性能

在快速适应实验中,OpenCity 仅通过更新预测头部(即最后一层线性层),在 2%-32% 的训练时间内便超过了全量训练的基线模型,大幅降低了额外训练成本。该特性使其在新场景中的快速部署价值显而易见。

模型扩展能力

研究表明,OpenCity 的性能随数据量和参数规模的增加而不断提升,展现出良好的可扩展性。这为未来构建更大规模的时空基础模型提供了明确方向。


结论与研究意义

OpenCity 模型通过预训练实现了卓越的零样本学习能力,并在跨区域、跨任务、跨时间场景中表现出了强大的泛化能力。其显著优点包括: 1. 科学价值
提供了一种一致的时空基础模型架构,能够高效解决数据分布差异问题,同时丰富了交通预测模型的理论框架,为智能交通系统的部署带来了巨大启示。

  1. 应用价值
    OpenCity 的快速适应能力和零样本预测性能,使其能够直接部署在数据稀缺的新城市或新场景中,显著降低了传统模型的维护与调试成本。

研究亮点与创新点

  1. 在零样本评估中达到了现有基线模型的完全训练性能。
  2. 引入时空嵌入、周期-动态结合的建模方法,精准捕捉交通规律。
  3. 展现了良好的快速模型适应性和扩展能力,为未来的交通基础模型提供了强有力的参考模板。

这个研究的结论指出了 OpenCity 在交通预测任务中的广泛适应性和高效性能,为未来交通管理和智能城市建设提供了深远意义和启示。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com