开放城市：用于交通预测的开放时空基础模型

分享自：
开放城市：用于交通预测的开放时空基础模型

交通与运载工程
人工智能
工程学
信息科学
计算机科学
期刊:ACM (Proceedings of ACM Conference)DOI:10.1145/nnnnnnn
【点击此处】阅读全文、收藏及针对性提问
学术报告：基于交通预测的开放时空基础模型研究——OpenCity作者信息与发表背景本文题为 “OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction”，由 Zhonghang Li、Long Xia、Lei Shi、Yong Xu、Dawei Yin 和 Chao Huang 等学者合作完成。作者所属机构包括 The University of Hong Kong、South China University of Technology 以及 Baidu Inc.。文章计划发表于 ACM 期刊，预计于 2024 年正式发表。这篇论文专注于一种新型的开放时空基础模型——OpenCity，以解决传统交通预测模型在泛化能力上的局限性。
学术背景研究领域与研究背景交通预测是城市规划和交通管理领域中的一个核心问题。准确的交通预测不仅可以提升交通资源的分配效率，还能改善出行体验，为建设智能交通系统奠定基础。然而，目前的交通预测模型存在两个主要问题： 1. 空间泛化能力不足：现有模型通常基于单一城市或区域训练，其预测性能在未曾见过的区域显著下降。 2. 长期泛化能力欠缺：虽然许多模型在短期交通预测（如一小时内）中表现突出，但在涉及数天或数周的长期预测场景中，其准确性随时序分布的变化显著减弱。
这些局限性主要源于交通数据的空间和时间异质性，以及训练数据与测试数据之间的显著分布偏移。鉴于此，研究团队提出了一种新型的时空基础模型 OpenCity，旨在开发具备通用性、鲁棒性和自适应性的预测框架，以应对交通领域中的多样化挑战。
研究目标本研究旨在通过基于 Transformer 和图神经网络（Graph Neural Networks, GNN）的新型模型架构，有效捕捉交通数据的复杂时空依赖关系，并通过大规模异构数据的预训练提升模型的泛化能力。研究的目标包括：开创一种具备零样本（zero-shot）学习能力的交通预测模型，实现跨区域、跨城市和跨任务的高效迁移和适应。
研究方法与详细流程研究整体方法概述研究团队设计了一个融合 Transformer 和 GNN 的混合式模型架构。该模型的核心组件包括零样本时空嵌入层（Zero-shot Spatio-Temporal Embedding Layer）、时空上下文编码器（Spatio-Temporal Context Encoder）和时空相关性建模模块（Spatio-Temporal Dependencies Modeling）。通过对大规模异构交通数据进行预训练，模型能够学习到丰富且可迁移的时空特征表示。
具体研究流程1. 数据嵌入与分布偏移的泛化处理
 - 实例标准化（Instance Normalization）
 模型采用实例标准化（Instance Normalization, IN）技术，对每个实例数据进行归一化，而非依赖整体数据集的统计值。具体公式如下：
 [ \bar{x}{r,t} = \frac{x{r,t} - \mu_r}{\sigma_r} ]
 其中，(\mu_r) 和 (\sigma_r) 分别为单个区域实例数据的均值与标准差。通过这种方法，模型能够更有效应对分布偏移，实现零样本学习能力。
时间片段嵌入（Patch Embedding）
 针对长期预测任务，模型将原始时序数据划分为多个固定长度的时间片段（Patch）以降低计算与内存开销。后续利用线性变换与位置编码生成时空嵌入向量，输入到模型中。
2. 时空上下文编码
 - 时间维度
 模型捕捉了时间数据中的周期性特征（如每日或每周的模式）。通过线性变换生成时间片段嵌入（对应一天中的时间与星期几）并将其整合到模型中。
空间维度
 模型利用图的归一化拉普拉斯矩阵（Normalized Laplacian Matrix）及其特征向量分解，提取交通网络的空间结构信息，并生成区域嵌入表示（Region Embedding）。
3. 时空依赖关系建模
 - 周期性与动态模式结合
 在时间相关性建模中，模型从两个方向捕捉时空模式：
 1. 周期性转变：通过多头注意力机制（Multi-Head Attention）显式建模历史与未来的对应关系。
 2. 动态变化：预测突发时间段（如交通事故）对交通动态的影响。
空间相关性建模
 使用图卷积网络（Graph Convolutional Network, GCN）描述区域间的空间依赖关系。模型通过残差连接与线性变换整合空间特性，进一步提高对动态交通特征的捕捉能力。
4. 模型规模与训练
 研究团队设计了三类模型版本（OpenCityMini、OpenCityBase 和 OpenCityPlus），分别包含 2百万、5百万和 26百万的参数量，并使用超过 1.5 亿条交通数据进行预训练，涉及 352,796 个时间节点和 10,110 个区域。
实验数据与结果分析数据集与实验设置研究使用了多个大型交通数据集，包括交通流量（CAD系列数据）、出租车需求（NYC-Taxi、CHI-Taxi）、共享单车轨迹（NYC-Bike）以及交通速度等数据。这些数据覆盖美国与中国的多个主要城市，并按照零样本评估、监督学习评估等场景进行了划分。
零样本评估结果在无任何目标域训练的零样本评估中，OpenCity 模型在跨区域、跨城市、跨任务的场景中表现出色。实验结果表明，OpenCity 的预测性能在大多数指标上超越其他基线模型（如 GWN、ASTGCN 等），其误差范围较小，在 MAE 和 RMSE 指标上接近甚至优于这些模型的完全训练（full-shot）版本。
跨任务预测能力
 在交通流量、交通速度、出租车需求和共享单车轨迹等四种任务数据类别上，OpenCity 均展示了稳定的高性能，尤其在新数据类型（如 NYC-Bike 数据集）上的预测也非常精准。
长期预测能力
 实验验证了 OpenCity 在长期预测中的鲁棒性。模型通过学习历史数据与未来模式间的精细对应关系，在数天或数周的时间跨度上仍能提供准确的交通流量预测。
高效适应性能在快速适应实验中，OpenCity 仅通过更新预测头部（即最后一层线性层），在 2%-32% 的训练时间内便超过了全量训练的基线模型，大幅降低了额外训练成本。该特性使其在新场景中的快速部署价值显而易见。
模型扩展能力研究表明，OpenCity 的性能随数据量和参数规模的增加而不断提升，展现出良好的可扩展性。这为未来构建更大规模的时空基础模型提供了明确方向。
结论与研究意义OpenCity 模型通过预训练实现了卓越的零样本学习能力，并在跨区域、跨任务、跨时间场景中表现出了强大的泛化能力。其显著优点包括： 1. 科学价值
 提供了一种一致的时空基础模型架构，能够高效解决数据分布差异问题，同时丰富了交通预测模型的理论框架，为智能交通系统的部署带来了巨大启示。
应用价值
 OpenCity 的快速适应能力和零样本预测性能，使其能够直接部署在数据稀缺的新城市或新场景中，显著降低了传统模型的维护与调试成本。
研究亮点与创新点在零样本评估中达到了现有基线模型的完全训练性能。
引入时空嵌入、周期-动态结合的建模方法，精准捕捉交通规律。
展现了良好的快速模型适应性和扩展能力，为未来的交通基础模型提供了强有力的参考模板。
这个研究的结论指出了 OpenCity 在交通预测任务中的广泛适应性和高效性能，为未来交通管理和智能城市建设提供了深远意义和启示。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问