分享自:

基于分数扩散模型的时间序列预测

期刊:iclr 2025

匿名作者团队在ICLR 2025会议上提交的论文《TF-Score: Time-Series Forecasting Using Score-Based Diffusion Model》介绍

研究背景与目标

时间序列预测(Time-Series Forecasting)是机器学习与统计学中的核心问题,广泛应用于金融、气象、能源管理等领域。传统方法(如VAR、GARCH)和深度学习模型(如RNN、Transformer)虽取得进展,但难以捕捉复杂的时间依赖性和不确定性。近年来,扩散模型(Diffusion Model)因其在图像生成中的卓越表现受到关注,但其在时间序列预测中的应用仍缺乏理论支撑。

本研究提出TF-Score,一种基于分数随机微分方程(Score SDE)的扩散模型,旨在解决以下问题:
1. 理论空白:现有扩散模型在时间序列预测中多依赖经验调整,缺乏统一框架;
2. 性能瓶颈:传统扩散模型(如TimeGrad、CSDI)仅生成未来序列($x{pred}$)或完整序列($x{total}$),未充分挖掘历史与未来数据的关联性;
3. 采样效率:现有方法需额外训练或高计算成本(如Observation Self-Guidance)。

研究方法与流程

1. 理论框架:统一扩散模型的连续形式

作者将现有扩散模型分为两类:
- 目标1:优化$∇{x{pred}} \log p(x{pred}|x{hist})$(如TimeGrad、CSDI);
- 目标2:优化$∇{x{total}} \log p(x{total}|x{hist})$(如Kollovieh等的工作)。

通过Theorem 1证明两者本质相同,但后者能更全面建模历史与未来的联合分布。基于此,TF-Score提出广义损失函数
$$ \mathcal{L}(\theta) = \mathbb{E}{x{total}, x{total}^t} \left[ | \gamma \mathbf{m} \otimes \mathcal{L}{pred} + (1-\mathbf{m}) \otimes \mathcal{L}_{total} |_1 \right] $$
其中$\gamma$控制历史数据权重,$\mathbf{m}$为掩码矩阵,区分历史与未来部分。

2. 模型架构:基于DiffWave的改进

TF-Score以DiffWave(Kong等,2021)为骨干网络,输入包括:
- 扩散时间步$t$(通过正弦嵌入编码);
- 历史数据$x{hist}$;
- 加噪后的完整序列$x
{total}^t$。
采用VP-SDE(Variance Preserving SDE)和Euler-Maruyama采样器,默认设置下无需校正器(Corrector)。

3. 实验设计

数据集:涵盖6个基准数据集(Exchange、Solar、Electricity、Traffic、Taxi、Wiki),覆盖低维(8维)到高维(2000维)场景。
评估指标:CRPSsum(连续排名概率得分和),衡量预测分布与真实值的匹配度。
基线模型:包括经典方法(VAR、GARCH)、RNN(Vec-LSTM)、Transformer(Transformer-MAF)及扩散模型(TimeGrad、CSDI)。

主要结果

  1. 性能对比:TF-Score在全部数据集上超越基线模型。例如:
    • Exchange数据集:CRPSsum=0.005,优于CSDI(0.007)和TimeGrad(0.006);
    • Wiki数据集(高维):CRPSsum=0.046,显著优于GP-Copula(0.086)。
  2. 消融实验
    • 扩散步数影响:Solar数据集需200步达到最优(CRPSsum=0.224),而Electricity仅需50步;
    • 损失函数设计:$L{total}$比$L{pred}$性能提升50%以上(见表1)。
  3. 引导采样策略
    • Classifier-Free Guidance(CFG):在Electricity数据集上权重$w=0.1$时效果最佳(CRPSsum=0.0163);
    • Observation Self-Guidance(OSG):因计算复杂度限制,仅适用于低维数据(如Solar)。

结论与价值

  1. 理论贡献:首次将扩散模型统一为Score SDE框架,填补了时间序列预测的理论空白;
  2. 应用价值:TF-Score支持灵活步数调整和多种引导策略,适用于金融预测、能源需求规划等高维场景;
  3. 开源意义:代码默认公开,推动领域内扩散模型的标准化研究。

研究亮点

  1. 创新性框架:首次提出基于$L_{total}$的损失函数,联合优化历史与未来序列;
  2. 高效采样:无需重复训练即可调整扩散步数,显著降低计算成本;
  3. 跨数据集鲁棒性:在低维(Exchange)至高维(Wiki)数据中均表现最优。

其他有价值内容

  • 附录A:详细证明Theorem 1,揭示$L{pred}$与$L{total}$的等价性;
  • 附录C:基线模型的完整描述,包括VAE(如KVAE)和Copula方法的对比分析。

(注:因论文处于双盲评审阶段,作者及机构信息暂隐。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com