TimeMixer：时间序列预测中的可分解多尺度混合

分享自：
TimeMixer：时间序列预测中的可分解多尺度混合

期刊:ICLR 2024
TimeMixer：时间序列预测中的可分解多尺度混合模型作者及发表信息本研究的核心作者包括Shiyu Wang（蚂蚁集团）、Haixu Wu（清华大学）、Xiaoming Shi（蚂蚁集团）、Tengge Hu（清华大学）、Huakun Luo（清华大学）、Lintao Ma（蚂蚁集团）、James Y. Zhang（蚂蚁集团）和Jun Zhou（蚂蚁集团）。该论文以会议论文形式发表于ICLR 2024，标题为“TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting”。
学术背景时间序列预测在交通规划、气象预报、经济分析等领域具有广泛应用。然而，现实世界的时间序列通常呈现复杂的多尺度变化模式，例如微观（高频）的季节性波动和宏观（低频）的趋势变化，这使得准确预测极具挑战性。传统方法主要依赖序列分解（series decomposition）和多周期性分析（multi-periodicity analysis），但这些方法未能充分利用不同时间尺度下的信息交互。
本研究提出了一种全新的视角——多尺度混合（multiscale-mixing），其核心思想是：时间序列在不同采样尺度下呈现截然不同的模式，微观信息体现在细粒度尺度，而宏观信息则体现在粗粒度尺度。基于此，研究团队设计了TimeMixer，一种完全基于多层感知机（MLP）的架构，通过过去可分解混合（Past-Decomposable-Mixing, PDM）和未来多预测器混合（Future-MultiPredictor-Mixing, FMM）模块，充分利用多尺度序列的分解信息和互补预测能力。
研究流程1. 多尺度时间序列生成TimeMixer首先通过平均下采样（average downsampling）将输入序列转换为多尺度表示。给定长度为 ( P ) 的输入序列 ( x )，生成 ( M ) 个尺度的序列集合 ( \mathbf{X} = {x_0, x_1, …, x_M} )，其中 ( x_m \in \mathbb{R}^{\lfloor P/2^m \rfloor \times C} )，( C ) 为变量数。最细尺度的 ( x_0 = x ) 包含原始序列的微观变化，而最粗尺度的 ( x_M ) 则反映宏观趋势。
2. 过去可分解混合（PDM）PDM模块的核心创新在于对季节性和趋势成分分别采用不同的混合策略：
 - 季节性混合（Seasonal Mixing）：采用自底向上（bottom-up）的信息传递方式，因为季节性变化通常由细粒度尺度的周期性模式聚合而成。例如，周交通流量由每日变化累积形成。
 - 趋势混合（Trend Mixing）：采用自顶向下（top-down）的信息传递方式，因为宏观趋势更容易从粗粒度尺度中提取，并可用于指导细粒度尺度的趋势建模。
具体实现上，PDM首先通过序列分解模块（series decomposition block）将多尺度序列分解为季节性部分 ( \mathbf{S} ) 和趋势部分 ( \mathbf{T} )，随后分别进行混合：
 1. 季节性混合：对第 ( m ) 尺度的季节性分量 ( sm )，通过残差连接融合来自更细尺度 ( s{m-1} ) 的信息：
 [ s_m = sm + \text{bottom-up-mixing}(s{m-1}) ]
 其中，bottom-up-mixing 由两层线性层和GELU激活函数组成，输入维度为 ( \lfloor P/2^{m-1} \rfloor )，输出维度为 ( \lfloor P/2^m \rfloor )。
 2. 趋势混合：对第 ( m ) 尺度的趋势分量 ( tm )，融合来自更粗尺度 ( t{m+1} ) 的信息：
 [ t_m = tm + \text{top-down-mixing}(t{m+1}) ]
 top-down-mixing 的结构与季节性混合类似，但方向相反。
3. 未来多预测器混合（FMM）在预测阶段，TimeMixer通过多预测器集成充分利用不同尺度的互补预测能力：
 1. 每个尺度的特征 ( x_m^L ) 通过独立的预测器 ( \text{predictor}_m ) 生成未来预测 ( \hat{x}m )。
 2. 最终预测为各尺度预测的加权和：
 [ \hat{x} = \sum{m=0}^M \hat{x}_m ]
 实验表明，细尺度预测更擅长捕捉季节性细节，而粗尺度预测则更关注宏观趋势（图4）。
4. 实验设计与分析研究在18个基准数据集上进行了广泛实验，涵盖长期和短期预测任务，包括：
 - 长期预测：ETT（电力变压器温度）、天气、太阳能、交通流量等数据集，预测长度从96到720时间点。
 - 短期预测：PEMS交通网络数据和M4竞赛数据集，预测长度为12~48时间点。
实验对比了15种先进模型，包括PatchTST、TimesNet、DLinear等，并采用MSE、MAE、sMAPE等指标评估性能。
主要结果1. 长期预测性能TimeMixer在所有数据集上均达到最优性能（表2）：
 - 天气预测：MSE为0.240，比第二名PatchTST（0.265）提升9.4%。
 - 太阳能预测：MSE为0.216，比PatchTST（0.287）提升24.7%。
 - 低可预测性数据（如ETT）：仍表现稳健，验证了模型对复杂时序模式的适应性。
2. 短期预测性能PEMS多变量预测：在PEMS04数据集上，MAE为19.21，显著优于SCINet（20.35）和PatchTST（24.86）。
 
M4单变量预测：在年度、季度、月度等不同频率数据上，sMAPE和MASE均排名第一（表4）。
 
3. 效率分析得益于全MLP架构，TimeMixer在GPU内存和运行时间上均优于Transformer类模型（图5）。例如，在序列长度为3072时，TimeMixer的GPU内存占用仅为1.4GB，而PatchTST高达16GB。
结论与价值TimeMixer通过多尺度混合架构和分解式混合策略，首次在时间序列预测中实现了对微观与宏观信息的协同利用。其科学价值体现在：
 1. 方法论创新：提出“多尺度混合”新范式，超越传统分解和多周期性分析。
 2. 性能突破：在长期和短期预测任务中均达到SOTA，尤其在低可预测性数据上表现突出。
 3. 应用潜力：高效的MLP架构使其适合实时预测场景，如智能交通、气象预警等。
研究亮点可分解混合设计：季节性（自底向上）与趋势（自顶向下）的分离混合策略，显著提升特征提取能力。
 
多预测器集成：通过多尺度预测互补，避免单一尺度的信息损失。
 
全面实验验证：覆盖18个数据集和15种基线模型，结果具有高度可信度。
 
其他发现消融实验（表5）：移除FMM或反向混合方向（如趋势采用自底向上）会导致性能显著下降。
 
可视化分析（图3）：季节性混合权重呈现周期性模式，而趋势混合权重则集中于局部聚合区域，验证了设计合理性。
 
TimeMixer的代码已开源（GitHub链接见原文），为时间序列预测领域提供了新的基准工具。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问