分享自:

STRA-LLM:基于图的大型语言模型用于交通预测

期刊:KDD '25DOI:https://doi.org/xxxxxxx.xxxxxxx

学术报告:STRA-LLM——基于图结构大语言模型的交通流量预测研究

作者及发表信息

本研究由Seyed Mohamad Moghadas(比利时布鲁塞尔自由大学电子与信息系)、Bruno Cornelis(布鲁塞尔自由大学/Macq)、Alexandre Alahi(瑞士洛桑联邦理工学院VITA实验室)和Adrian Munteanu(IEEE会员,布鲁塞尔自由大学)共同完成,发表于KDD ‘25(第31届ACM知识发现与数据挖掘国际会议)。

学术背景

研究领域:本研究属于智能交通系统(ITS)中的时空预测(Spatio-Temporal Prediction)领域,核心任务是利用历史交通数据(如流量、速度、密度)预测未来路网状态。

研究动机:现有基于大语言模型(LLM)的交通预测方法依赖提示调优(Prompt-Tuning),难以捕捉复杂的图结构关系和时空依赖性,导致在数据分布异构(如不同城市路网)场景下泛化性不足。传统图神经网络(GNN)虽能建模空间关系,但缺乏LLM的少样本学习能力。

研究目标:提出STRA-LLM模型,实现以下创新:
1. 概率化预测:输出交通指标的分布而非单点估计,量化不确定性;
2. 图结构隐式编码:通过子图提取避免显式提示输入,保留全局拓扑信息;
3. 轻量级域适应:采用低秩适配(LoRA)技术,高效适应新路网或数据分布。


研究方法与流程

1. 层次化特征提取器(Hierarchical Feature Extractor, HFE)

输入处理:路网表示为静态图𝐺 = (𝑉, 𝐸, 𝐴),节点𝑉为传感器,边𝐸为地理邻接关系,动态特征矩阵𝑿𝑡 ∈ ℝ^(𝑁×𝐹)(𝐹为指标数)。

  • 𝑘跳子图提取
    对每个节点𝑣,提取其𝑘跳邻域n𝑘(𝑣)(公式1),将邻域特征拼接为𝑁×𝑇×(𝑀×𝐹)张量(𝑀为邻域节点数)。通过聚合局部拓扑信息,解决LLM上下文长度限制问题。
  • 全局图嵌入
    计算归一化拉普拉斯矩阵𝐿norm = 𝐷^(−1/2)𝐿𝐷^(−1/2)的特征分解,生成唯一位置编码,避免提示方法丢失全局结构的问题。
  • 滞后特征提取
    引入滑动窗口提取历史滞后特征𝝀𝒕 ∈ ℝ^|h|×𝐹(h为滞后索引集),并结合日期时间特征(如小时、季度)增强时序建模。

输出:HFE生成𝐶×(1+𝑀)×|h|×(𝐹+𝐹′)维张量,其中𝐶为上下文窗口长度。

2. LLM主干网络

基于Mistral架构(仅解码器Transformer),关键改进包括:
- 旋转位置编码(RoPE):增强时序位置感知;
- FlashAttention-2:优化注意力计算并行性;
- 分布头:输出学生𝑡分布参数(自由度、均值、尺度),通过负对数似然损失(NLL)训练。

3. 域适应策略

采用低秩矩阵适配(LoRA)
- 对查询(Query)、键(Key)、值(Value)矩阵进行低秩更新(公式3),例如𝑞 = 𝑊𝑞ℎ + 𝐵𝑞𝐴𝑞ℎ,秩𝑟 ≪ min(𝑑, 𝑘);
- 分布头对齐:通过KL散度(公式4)最小化源域与目标域分布差异,提升跨域泛化性。


主要实验结果

1. 短期预测性能

METR-LAPEMS-Bay数据集上,STRA-LLM显著优于基线:
- PEMS-Bay 1小时预测RMSE为3.94,较提示调优方法(FlashST)提升16%;
- METR-LA 60分钟预测MAE为3.35,优于传统GNN(如MTGNN的3.49)和LLM基线(如UrbanGPT的3.65)。

2. 长期预测与零样本迁移

  • PEMS07(M) 150分钟预测:MAE 4.19,较UNIST提升3.5%;
  • Crowd数据集零样本测试:MAE 6.36,显示对行人流量等异构数据的泛化能力。

3. 概率预测评估

通过连续排序概率得分(CRPS)衡量:
- Brussels数据集:CRPS 5.31,优于Lag-Llama的5.91,验证分布建模的可靠性。

4. 计算效率

  • 参数效率:仅需调整0.52M参数(占总参数1.32%),远低于UNIST的2.39%;
  • 推理延迟:FlashAttention-2优化使单次预测耗时降低17%。

研究结论与价值

科学价值

  1. 方法论创新:首次将非提示式LLM与图结构建模结合,为时空预测提供新范式;
  2. 理论贡献:证明低秩适配在交通领域的有效性,提出可扩展的分布对齐损失函数。

应用价值

  1. 城市管理:支持拥堵预警和路径规划,如Brussels路网实验显示预测误差降低18%;
  2. 可扩展性:支持百万级节点路网,优于传统GNN的二次复杂度。

研究亮点

  1. 图感知LLM:通过𝑘跳子图隐式编码空间依赖,无需显式提示;
  2. 轻量适应:LoRA实现参数高效更新,在少样本场景下保持性能;
  3. 多模态兼容性:适配Mistral、Llama 2等不同LLM主干,MAE波动%。

其他发现

  • 梯度分析:拉普拉斯嵌入层的梯度方差差异(图9)解释了未对其使用LoRA的原因;
  • 鲁棒性验证:高斯噪声(𝜎=2)下预测误差仅增加7.3%,显示强抗干扰能力。

(总字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com