分享自:

TimeMixer:时间序列预测中的可分解多尺度混合

期刊:ICLR 2024

TimeMixer:时间序列预测中的可分解多尺度混合模型

作者及发表信息

本研究的核心作者包括Shiyu Wang(蚂蚁集团)、Haixu Wu(清华大学)、Xiaoming Shi(蚂蚁集团)、Tengge Hu(清华大学)、Huakun Luo(清华大学)、Lintao Ma(蚂蚁集团)、James Y. Zhang(蚂蚁集团)和Jun Zhou(蚂蚁集团)。该论文以会议论文形式发表于ICLR 2024,标题为“TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting”

学术背景

时间序列预测在交通规划、气象预报、经济分析等领域具有广泛应用。然而,现实世界的时间序列通常呈现复杂的多尺度变化模式,例如微观(高频)的季节性波动和宏观(低频)的趋势变化,这使得准确预测极具挑战性。传统方法主要依赖序列分解(series decomposition)多周期性分析(multi-periodicity analysis),但这些方法未能充分利用不同时间尺度下的信息交互。

本研究提出了一种全新的视角——多尺度混合(multiscale-mixing),其核心思想是:时间序列在不同采样尺度下呈现截然不同的模式,微观信息体现在细粒度尺度,而宏观信息则体现在粗粒度尺度。基于此,研究团队设计了TimeMixer,一种完全基于多层感知机(MLP)的架构,通过过去可分解混合(Past-Decomposable-Mixing, PDM)未来多预测器混合(Future-MultiPredictor-Mixing, FMM)模块,充分利用多尺度序列的分解信息和互补预测能力。

研究流程

1. 多尺度时间序列生成

TimeMixer首先通过平均下采样(average downsampling)将输入序列转换为多尺度表示。给定长度为 ( P ) 的输入序列 ( x ),生成 ( M ) 个尺度的序列集合 ( \mathbf{X} = {x_0, x_1, …, x_M} ),其中 ( x_m \in \mathbb{R}^{\lfloor P/2^m \rfloor \times C} ),( C ) 为变量数。最细尺度的 ( x_0 = x ) 包含原始序列的微观变化,而最粗尺度的 ( x_M ) 则反映宏观趋势。

2. 过去可分解混合(PDM)

PDM模块的核心创新在于对季节性和趋势成分分别采用不同的混合策略
- 季节性混合(Seasonal Mixing):采用自底向上(bottom-up)的信息传递方式,因为季节性变化通常由细粒度尺度的周期性模式聚合而成。例如,周交通流量由每日变化累积形成。
- 趋势混合(Trend Mixing):采用自顶向下(top-down)的信息传递方式,因为宏观趋势更容易从粗粒度尺度中提取,并可用于指导细粒度尺度的趋势建模。

具体实现上,PDM首先通过序列分解模块(series decomposition block)将多尺度序列分解为季节性部分 ( \mathbf{S} ) 和趋势部分 ( \mathbf{T} ),随后分别进行混合:
1. 季节性混合:对第 ( m ) 尺度的季节性分量 ( sm ),通过残差连接融合来自更细尺度 ( s{m-1} ) 的信息:
[ s_m = sm + \text{bottom-up-mixing}(s{m-1}) ]
其中,bottom-up-mixing 由两层线性层和GELU激活函数组成,输入维度为 ( \lfloor P/2^{m-1} \rfloor ),输出维度为 ( \lfloor P/2^m \rfloor )。
2. 趋势混合:对第 ( m ) 尺度的趋势分量 ( tm ),融合来自更粗尺度 ( t{m+1} ) 的信息:
[ t_m = tm + \text{top-down-mixing}(t{m+1}) ]
top-down-mixing 的结构与季节性混合类似,但方向相反。

3. 未来多预测器混合(FMM)

在预测阶段,TimeMixer通过多预测器集成充分利用不同尺度的互补预测能力:
1. 每个尺度的特征 ( x_m^L ) 通过独立的预测器 ( \text{predictor}_m ) 生成未来预测 ( \hat{x}m )。
2. 最终预测为各尺度预测的加权和:
[ \hat{x} = \sum
{m=0}^M \hat{x}_m ]
实验表明,细尺度预测更擅长捕捉季节性细节,而粗尺度预测则更关注宏观趋势(图4)。

4. 实验设计与分析

研究在18个基准数据集上进行了广泛实验,涵盖长期和短期预测任务,包括:
- 长期预测:ETT(电力变压器温度)、天气、太阳能、交通流量等数据集,预测长度从96到720时间点。
- 短期预测:PEMS交通网络数据和M4竞赛数据集,预测长度为12~48时间点。

实验对比了15种先进模型,包括PatchTST、TimesNet、DLinear等,并采用MSE、MAE、sMAPE等指标评估性能。

主要结果

1. 长期预测性能

TimeMixer在所有数据集上均达到最优性能(表2):
- 天气预测:MSE为0.240,比第二名PatchTST(0.265)提升9.4%。
- 太阳能预测:MSE为0.216,比PatchTST(0.287)提升24.7%。
- 低可预测性数据(如ETT):仍表现稳健,验证了模型对复杂时序模式的适应性。

2. 短期预测性能

  • PEMS多变量预测:在PEMS04数据集上,MAE为19.21,显著优于SCINet(20.35)和PatchTST(24.86)。
  • M4单变量预测:在年度、季度、月度等不同频率数据上,sMAPE和MASE均排名第一(表4)。

3. 效率分析

得益于全MLP架构,TimeMixer在GPU内存和运行时间上均优于Transformer类模型(图5)。例如,在序列长度为3072时,TimeMixer的GPU内存占用仅为1.4GB,而PatchTST高达16GB。

结论与价值

TimeMixer通过多尺度混合架构分解式混合策略,首次在时间序列预测中实现了对微观与宏观信息的协同利用。其科学价值体现在:
1. 方法论创新:提出“多尺度混合”新范式,超越传统分解和多周期性分析。
2. 性能突破:在长期和短期预测任务中均达到SOTA,尤其在低可预测性数据上表现突出。
3. 应用潜力:高效的MLP架构使其适合实时预测场景,如智能交通、气象预警等。

研究亮点

  1. 可分解混合设计:季节性(自底向上)与趋势(自顶向下)的分离混合策略,显著提升特征提取能力。
  2. 多预测器集成:通过多尺度预测互补,避免单一尺度的信息损失。
  3. 全面实验验证:覆盖18个数据集和15种基线模型,结果具有高度可信度。

其他发现

  • 消融实验(表5):移除FMM或反向混合方向(如趋势采用自底向上)会导致性能显著下降。
  • 可视化分析(图3):季节性混合权重呈现周期性模式,而趋势混合权重则集中于局部聚合区域,验证了设计合理性。

TimeMixer的代码已开源(GitHub链接见原文),为时间序列预测领域提供了新的基准工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com