Pathformer：用于时间序列预测的自适应多尺度Transformer

分享自：
Pathformer：用于时间序列预测的自适应多尺度Transformer

期刊:ICLR 2024
基于自适应路径的多尺度Transformer时间序列预测模型Pathformer的学术报告一、研究团队与发表信息本研究由华东师范大学Peng Chen、阿里巴巴集团Yingying Zhang、奥尔堡大学Yunyao Cheng等学者合作完成，通讯作者为华东师范大学Yang Shu。论文《Pathformer: Multi-Scale Transformers with Adaptive Pathways for Time Series Forecasting》发表于ICLR 2024（国际学习表征会议），代码已开源在GitHub平台。
二、学术背景与研究目标科学领域：该研究属于时间序列预测领域，涉及深度学习与Transformer架构的优化。传统Transformer模型在时间序列预测中存在两大局限：
 1. 多尺度建模不完整：现有方法通常仅从固定时间分辨率（temporal resolution）或固定时间距离（temporal distance）单一视角建模，难以捕捉真实场景中跨尺度的动态特征（如云计算资源需求的日/月/季节性波动）。
 2. 静态建模过程：不同时间序列的时序动态差异显著（如高频波动与缓慢趋势），但现有模型无法自适应调整多尺度建模策略。
研究目标：提出Pathformer模型，通过整合多尺度时间分辨率与时间距离的双重视角，并引入自适应路径（adaptive pathways）机制，实现动态的多尺度特征提取与融合，提升预测精度与泛化能力。
三、研究方法与工作流程1. 模型架构设计Pathformer由三个核心模块组成：
 - 实例归一化（Instance Norm）：解决训练与测试数据的分布偏移问题。
 - 自适应多尺度块（AMS Block）：核心创新模块，包含多尺度Transformer块（MST Block）和自适应路径机制。
 - 预测器（Predictor）：全连接网络，适配长序列预测任务。
（1）多尺度Transformer块（MST Block）多尺度划分（Multi-Scale Division）：将输入时间序列按不同块大小（patch size）划分为多组片段，生成不同时间分辨率的视图（如小块捕捉细节，大块捕捉趋势）。
 
双重注意力（Dual Attention）：
 块内注意力（Intra-Patch Attention）：通过跨注意力机制建模每个块内局部时间步的关系，提取局部细节。
 
块间注意力（Inter-Patch Attention）：通过自注意力机制建模不同块间的全局相关性。
 
（2）自适应路径机制（Adaptive Pathways）多尺度路由器（Multi-Scale Router）：
 时序分解模块：采用离散傅里叶变换（DFT）提取季节性特征（seasonality），多核平均池化提取趋势特征（trend），增强对输入动态的感知。
 
路由函数：基于输入特征生成权重，动态选择Top-K个最优块大小组合，并添加噪声项避免路径固化。
 
多尺度聚合器（Multi-Scale Aggregator）：对选定的多尺度特征进行加权融合，输出最终表示。
 
2. 实验设计数据集：在11个真实世界数据集上验证，涵盖电力（ETT）、气象（Weather）、交通（Traffic）、云计算资源（Cloud Cluster）等领域。
 基线模型：对比PatchTST、NLinear、ScaleFormer等7种前沿模型。
 评估指标：均方误差（MSE）与平均绝对误差（MAE）。
四、主要研究结果预测性能：
Pathformer在88组多变量预测实验中，81项达到最优，MSE与MAE平均较第二优模型PatchTST分别降低8.1%和6.4%。
 
在云计算数据集（Cluster-A/B/C）上，Pathformer对短期（24步）和长期（192步）预测的MSE均显著优于基线（如Cluster-A上192步预测MSE降低22.8%）。
 
迁移学习能力：
在跨数据集（ETTH1→ETTH2）和跨时间（Cloud Cluster前70%→后30%）迁移任务中，Pathformer的轻量级微调（Part-Tuning）较全参数微调（Full-Tuning）节省52%计算资源，且精度优于基线模型的全参数微调结果。
 
消融实验：
移除自适应路径（w/o Pathways）导致MSE平均上升12.3%，验证了动态多尺度选择的重要性。
 
时序分解模块使路由器在季节性数据（如Weather）上的路径选择准确率提升19%。
 
五、研究结论与价值科学价值：
 - 首次提出“时间分辨率+时间距离”双视角统一的多尺度建模框架，解决了传统方法单一视角的局限性。
 - 通过自适应路径机制，实现了对异构时间序列的动态特征提取，为Transformer在时序领域的适配提供了新范式。
应用价值：
 - 在云计算资源预测等实际场景中，Pathformer可精准捕捉多尺度需求波动，支持弹性资源调度。
 - 开源模型与代码推动了时间序列预测领域的可复现研究。
六、研究亮点创新方法：双重注意力机制与自适应路径的协同设计，兼顾全局与局部特征，且计算效率优于传统金字塔注意力（Pyraformer）。
 
泛化能力：在未见过的数据集和未来数据上均表现稳健，适用于数据分布动态变化的实际场景。
 
可视化验证：路由器权重分布与输入数据的季节性和趋势特征高度一致（如高频波动数据偏好小patch size），证明了模型的可解释性。
 
七、其他价值论文附详实的附录，包括：
 - 单变量预测实验结果（Pathformer在56组实验中50项最优）。
 - 输入长度敏感性分析（输入序列长度从48增至192时，预测误差持续下降）。
 - 完整的数据集统计与基线模型代码链接，保障研究透明度。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问