本研究由Seyed Mohamad Moghadas(比利时布鲁塞尔自由大学电子与信息系)、Bruno Cornelis(布鲁塞尔自由大学/Macq)、Alexandre Alahi(瑞士洛桑联邦理工学院VITA实验室)和Adrian Munteanu(IEEE会员,布鲁塞尔自由大学)共同完成,发表于KDD ‘25(第31届ACM知识发现与数据挖掘国际会议)。
研究领域:本研究属于智能交通系统(ITS)中的时空预测(Spatio-Temporal Prediction)领域,核心任务是利用历史交通数据(如流量、速度、密度)预测未来路网状态。
研究动机:现有基于大语言模型(LLM)的交通预测方法依赖提示调优(Prompt-Tuning),难以捕捉复杂的图结构关系和时空依赖性,导致在数据分布异构(如不同城市路网)场景下泛化性不足。传统图神经网络(GNN)虽能建模空间关系,但缺乏LLM的少样本学习能力。
研究目标:提出STRA-LLM模型,实现以下创新:
1. 概率化预测:输出交通指标的分布而非单点估计,量化不确定性;
2. 图结构隐式编码:通过子图提取避免显式提示输入,保留全局拓扑信息;
3. 轻量级域适应:采用低秩适配(LoRA)技术,高效适应新路网或数据分布。
输入处理:路网表示为静态图𝐺 = (𝑉, 𝐸, 𝐴),节点𝑉为传感器,边𝐸为地理邻接关系,动态特征矩阵𝑿𝑡 ∈ ℝ^(𝑁×𝐹)(𝐹为指标数)。
输出:HFE生成𝐶×(1+𝑀)×|h|×(𝐹+𝐹′)维张量,其中𝐶为上下文窗口长度。
基于Mistral架构(仅解码器Transformer),关键改进包括:
- 旋转位置编码(RoPE):增强时序位置感知;
- FlashAttention-2:优化注意力计算并行性;
- 分布头:输出学生𝑡分布参数(自由度、均值、尺度),通过负对数似然损失(NLL)训练。
采用低秩矩阵适配(LoRA):
- 对查询(Query)、键(Key)、值(Value)矩阵进行低秩更新(公式3),例如𝑞 = 𝑊𝑞ℎ + 𝐵𝑞𝐴𝑞ℎ,秩𝑟 ≪ min(𝑑, 𝑘);
- 分布头对齐:通过KL散度(公式4)最小化源域与目标域分布差异,提升跨域泛化性。
在METR-LA和PEMS-Bay数据集上,STRA-LLM显著优于基线:
- PEMS-Bay 1小时预测RMSE为3.94,较提示调优方法(FlashST)提升16%;
- METR-LA 60分钟预测MAE为3.35,优于传统GNN(如MTGNN的3.49)和LLM基线(如UrbanGPT的3.65)。
通过连续排序概率得分(CRPS)衡量:
- Brussels数据集:CRPS 5.31,优于Lag-Llama的5.91,验证分布建模的可靠性。
(总字数:约2000字)