基于分数扩散模型的时间序列预测

分享自：
基于分数扩散模型的时间序列预测

期刊:iclr 2025
匿名作者团队在ICLR 2025会议上提交的论文《TF-Score: Time-Series Forecasting Using Score-Based Diffusion Model》介绍
研究背景与目标时间序列预测（Time-Series Forecasting）是机器学习与统计学中的核心问题，广泛应用于金融、气象、能源管理等领域。传统方法（如VAR、GARCH）和深度学习模型（如RNN、Transformer）虽取得进展，但难以捕捉复杂的时间依赖性和不确定性。近年来，扩散模型（Diffusion Model）因其在图像生成中的卓越表现受到关注，但其在时间序列预测中的应用仍缺乏理论支撑。
本研究提出TF-Score，一种基于分数随机微分方程（Score SDE）的扩散模型，旨在解决以下问题：
 1. 理论空白：现有扩散模型在时间序列预测中多依赖经验调整，缺乏统一框架；
 2. 性能瓶颈：传统扩散模型（如TimeGrad、CSDI）仅生成未来序列（$x{pred}$）或完整序列（$x{total}$），未充分挖掘历史与未来数据的关联性；
 3. 采样效率：现有方法需额外训练或高计算成本（如Observation Self-Guidance）。
研究方法与流程1. 理论框架：统一扩散模型的连续形式作者将现有扩散模型分为两类：
 - 目标1：优化$∇{x{pred}} \log p(x{pred}|x{hist})$（如TimeGrad、CSDI）；
 - 目标2：优化$∇{x{total}} \log p(x{total}|x{hist})$（如Kollovieh等的工作）。
通过Theorem 1证明两者本质相同，但后者能更全面建模历史与未来的联合分布。基于此，TF-Score提出广义损失函数：
 $$ \mathcal{L}(\theta) = \mathbb{E}{x{total}, x{total}^t} \left[ | \gamma \mathbf{m} \otimes \mathcal{L}{pred} + (1-\mathbf{m}) \otimes \mathcal{L}_{total} |_1 \right] $$
 其中$\gamma$控制历史数据权重，$\mathbf{m}$为掩码矩阵，区分历史与未来部分。
2. 模型架构：基于DiffWave的改进TF-Score以DiffWave（Kong等，2021）为骨干网络，输入包括：
 - 扩散时间步$t$（通过正弦嵌入编码）；
 - 历史数据$x{hist}$；
 - 加噪后的完整序列$x{total}^t$。
 采用VP-SDE（Variance Preserving SDE）和Euler-Maruyama采样器，默认设置下无需校正器（Corrector）。
3. 实验设计数据集：涵盖6个基准数据集（Exchange、Solar、Electricity、Traffic、Taxi、Wiki），覆盖低维（8维）到高维（2000维）场景。
 评估指标：CRPSsum（连续排名概率得分和），衡量预测分布与真实值的匹配度。
 基线模型：包括经典方法（VAR、GARCH）、RNN（Vec-LSTM）、Transformer（Transformer-MAF）及扩散模型（TimeGrad、CSDI）。
主要结果性能对比：TF-Score在全部数据集上超越基线模型。例如：
 Exchange数据集：CRPSsum=0.005，优于CSDI（0.007）和TimeGrad（0.006）；
 
Wiki数据集（高维）：CRPSsum=0.046，显著优于GP-Copula（0.086）。
 
消融实验：
 扩散步数影响：Solar数据集需200步达到最优（CRPSsum=0.224），而Electricity仅需50步；
 
损失函数设计：$L{total}$比$L{pred}$性能提升50%以上（见表1）。
 
引导采样策略：
 Classifier-Free Guidance（CFG）：在Electricity数据集上权重$w=0.1$时效果最佳（CRPSsum=0.0163）；
 
Observation Self-Guidance（OSG）：因计算复杂度限制，仅适用于低维数据（如Solar）。
 
结论与价值理论贡献：首次将扩散模型统一为Score SDE框架，填补了时间序列预测的理论空白；
 
应用价值：TF-Score支持灵活步数调整和多种引导策略，适用于金融预测、能源需求规划等高维场景；
 
开源意义：代码默认公开，推动领域内扩散模型的标准化研究。
 
研究亮点创新性框架：首次提出基于$L_{total}$的损失函数，联合优化历史与未来序列；
 
高效采样：无需重复训练即可调整扩散步数，显著降低计算成本；
 
跨数据集鲁棒性：在低维（Exchange）至高维（Wiki）数据中均表现最优。
 
其他有价值内容附录A：详细证明Theorem 1，揭示$L{pred}$与$L{total}$的等价性；
 
附录C：基线模型的完整描述，包括VAE（如KVAE）和Copula方法的对比分析。
 
（注：因论文处于双盲评审阶段，作者及机构信息暂隐。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问