分享自:

Pathformer:用于时间序列预测的自适应多尺度Transformer

期刊:ICLR 2024

基于自适应路径的多尺度Transformer时间序列预测模型Pathformer的学术报告

一、研究团队与发表信息

本研究由华东师范大学Peng Chen、阿里巴巴集团Yingying Zhang、奥尔堡大学Yunyao Cheng等学者合作完成,通讯作者为华东师范大学Yang Shu。论文《Pathformer: Multi-Scale Transformers with Adaptive Pathways for Time Series Forecasting》发表于ICLR 2024(国际学习表征会议),代码已开源在GitHub平台。

二、学术背景与研究目标

科学领域:该研究属于时间序列预测领域,涉及深度学习与Transformer架构的优化。传统Transformer模型在时间序列预测中存在两大局限:
1. 多尺度建模不完整:现有方法通常仅从固定时间分辨率(temporal resolution)或固定时间距离(temporal distance)单一视角建模,难以捕捉真实场景中跨尺度的动态特征(如云计算资源需求的日/月/季节性波动)。
2. 静态建模过程:不同时间序列的时序动态差异显著(如高频波动与缓慢趋势),但现有模型无法自适应调整多尺度建模策略。

研究目标:提出Pathformer模型,通过整合多尺度时间分辨率与时间距离的双重视角,并引入自适应路径(adaptive pathways)机制,实现动态的多尺度特征提取与融合,提升预测精度与泛化能力。

三、研究方法与工作流程

1. 模型架构设计

Pathformer由三个核心模块组成:
- 实例归一化(Instance Norm):解决训练与测试数据的分布偏移问题。
- 自适应多尺度块(AMS Block):核心创新模块,包含多尺度Transformer块(MST Block)和自适应路径机制。
- 预测器(Predictor):全连接网络,适配长序列预测任务。

(1)多尺度Transformer块(MST Block)

  • 多尺度划分(Multi-Scale Division):将输入时间序列按不同块大小(patch size)划分为多组片段,生成不同时间分辨率的视图(如小块捕捉细节,大块捕捉趋势)。
  • 双重注意力(Dual Attention)
    • 块内注意力(Intra-Patch Attention):通过跨注意力机制建模每个块内局部时间步的关系,提取局部细节。
    • 块间注意力(Inter-Patch Attention):通过自注意力机制建模不同块间的全局相关性。

(2)自适应路径机制(Adaptive Pathways)

  • 多尺度路由器(Multi-Scale Router)
    • 时序分解模块:采用离散傅里叶变换(DFT)提取季节性特征(seasonality),多核平均池化提取趋势特征(trend),增强对输入动态的感知。
    • 路由函数:基于输入特征生成权重,动态选择Top-K个最优块大小组合,并添加噪声项避免路径固化。
  • 多尺度聚合器(Multi-Scale Aggregator):对选定的多尺度特征进行加权融合,输出最终表示。

2. 实验设计

数据集:在11个真实世界数据集上验证,涵盖电力(ETT)、气象(Weather)、交通(Traffic)、云计算资源(Cloud Cluster)等领域。
基线模型:对比PatchTST、NLinear、ScaleFormer等7种前沿模型。
评估指标:均方误差(MSE)与平均绝对误差(MAE)。

四、主要研究结果

  1. 预测性能

    • Pathformer在88组多变量预测实验中,81项达到最优,MSE与MAE平均较第二优模型PatchTST分别降低8.1%和6.4%。
    • 在云计算数据集(Cluster-A/B/C)上,Pathformer对短期(24步)和长期(192步)预测的MSE均显著优于基线(如Cluster-A上192步预测MSE降低22.8%)。
  2. 迁移学习能力

    • 在跨数据集(ETTH1→ETTH2)和跨时间(Cloud Cluster前70%→后30%)迁移任务中,Pathformer的轻量级微调(Part-Tuning)较全参数微调(Full-Tuning)节省52%计算资源,且精度优于基线模型的全参数微调结果。
  3. 消融实验

    • 移除自适应路径(w/o Pathways)导致MSE平均上升12.3%,验证了动态多尺度选择的重要性。
    • 时序分解模块使路由器在季节性数据(如Weather)上的路径选择准确率提升19%。

五、研究结论与价值

科学价值
- 首次提出“时间分辨率+时间距离”双视角统一的多尺度建模框架,解决了传统方法单一视角的局限性。
- 通过自适应路径机制,实现了对异构时间序列的动态特征提取,为Transformer在时序领域的适配提供了新范式。

应用价值
- 在云计算资源预测等实际场景中,Pathformer可精准捕捉多尺度需求波动,支持弹性资源调度。
- 开源模型与代码推动了时间序列预测领域的可复现研究。

六、研究亮点

  1. 创新方法:双重注意力机制与自适应路径的协同设计,兼顾全局与局部特征,且计算效率优于传统金字塔注意力(Pyraformer)。
  2. 泛化能力:在未见过的数据集和未来数据上均表现稳健,适用于数据分布动态变化的实际场景。
  3. 可视化验证:路由器权重分布与输入数据的季节性和趋势特征高度一致(如高频波动数据偏好小patch size),证明了模型的可解释性。

七、其他价值

论文附详实的附录,包括:
- 单变量预测实验结果(Pathformer在56组实验中50项最优)。
- 输入长度敏感性分析(输入序列长度从48增至192时,预测误差持续下降)。
- 完整的数据集统计与基线模型代码链接,保障研究透明度。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com