分享自:

基于提示引导的表示对齐与动态适应的时间序列预测方法

期刊:knowledge-based systemsDOI:10.1016/j.knosys.2025.113478

基于提示引导表示对齐与动态适应的时间序列预测方法PRADA研究学术报告

本研究由厦门大学可信多媒体计算教育部重点实验室的Yinhao Liu、Hongyang Zhang、Chen Li、Feifei Li、Xinghao Ding以及佛山大学电子与信息工程学院的Zhenyu Kuang共同完成,研究成果发表在2025年的《Knowledge-Based Systems》期刊(卷318,文章编号113478)。

学术背景

时间序列预测作为动态系统分析的关键组成部分,在气候建模、云资源利用和能源负载优化等领域具有广泛应用价值。传统方法如ARIMA、Prophet等基于统计理论,而深度学习模型如基于MLP和RNN的方法则擅长捕捉非线性时间依赖性。随着Transformer架构的兴起,注意力机制被广泛应用于时间模式挖掘。然而,这些任务特定方法在适应多样化时间序列数据方面存在困难,且严重依赖大量历史数据。

近年来,大型语言模型(LLM)在自然语言处理(NLP)和计算机视觉(CV)领域的显著进展激发了研究者将其应用于时间序列任务的兴趣。尽管LLM-based方法通过跨模态学习能够获取更鲁棒的时间序列表示,但现有方法普遍忽视了时间序列与自然语言之间的模态差距(modality gap)。这种差距源于时间序列具有自然语言中不存在的周期性和非周期性模式,阻碍了基于LLM模型的性能发挥。此外,时间序列中潜在的统计属性漂移(statistical property drift)使模型依赖虚假相关特征,限制了时空依赖性的捕捉。

针对这些独特问题,本研究团队提出了提示引导表示对齐与动态适应(Prompt-guided Representation Alignment and Dynamic Adaption,PRADA)方法,通过可学习提示(learnable prompts)引导的多视角文本-序列自适应对齐(multi-view text-series adaptive alignment,TSAA)来捕捉不同模式的表示。

研究方法与流程

1. 输入标记化与提示设计

研究首先采用可逆实例归一化处理输入时间序列,缓解分布变化问题。通过加法季节性趋势分解(additive seasonal-trend decomposition)将归一化时间序列分解为趋势项、季节项和残差项。随后采用时间序列分块(time series patching)技术聚合相邻时间步,增加回溯范围以增强局部语义特征提取。

针对季节性和趋势项,研究设计了特定的可学习标记: - 趋势项描述模板:”时间序列显示[v]1[v]2…[v]v趋势,随时间增加/减少” - 季节性项描述模板:”时间序列呈现[w]1[w]2…[w]w季节性部分,随时间重复其行为”

其中[v]/[w]代表可学习文本标记。对于残差项,研究引入了领域相关描述以增强模型对高级语义信息的捕捉能力。

2. 多视角文本-序列自适应对齐(TSAA)

研究团队提出了定理3.1,证明通过引入正交文本提示可以增强时间序列组件中无关特征之间的分离。具体实现包括: 1. 使用独立的时间序列编码器获取趋势、季节和残差组件的时间序列特征嵌入 2. 通过文本编码器将对应提示稀疏映射到共享语义空间 3. 对三个提示嵌入施加正交约束,使它们在潜在空间中具有不同语义表示 4. 使用余弦相似度度量的匹配函数执行组件特定的语义锚点与时序嵌入之间的对齐 5. 基于匹配分数选择top-K相关语义锚点,与对应时间序列嵌入拼接作为预训练LLM骨干的输入

3. 预训练LLM架构

研究采用GPT-2-small作为默认骨干模型,包含6个隐藏层。不同组件的特征拼接后输入模型,不仅更新位置嵌入和层归一化层的梯度,还引入低秩适应(Low-Rank Adaptation,LoRA)以较少参数适应不同时间序列分布。各组件输出通过线性解码器生成预测结果,并根据归一化步骤中使用的统计量进行反归一化。

4. 时频双约束(Time-Frequency Dual Constraint)

研究对预测结果实施快速傅里叶变换(FFT),在时间和频域约束预测结果与真实值尽可能接近。时间损失和频率损失分别表示为预测结果与真实值在时域和频域的绝对差异。

5. 目标函数

联合考虑所有损失函数,训练目标函数为: min ℓ_tmp + λ₁ℓ_sim + λ₂ℓ_ort + λ₃ℓ_feq 其中λ₁、λ₂和λ₃是控制各部分贡献的超参数。

主要研究结果

实验部分,研究团队在多个公共数据集上比较了PRADA方法与不同基线模型的性能:

长期预测结果

在ETT-small、交通、天气、电力和ILI等数据集上,PRADA在50/70个实例中达到最先进(SOTA)性能,平均超过现有LLM-based方法12.81%(MSE)和11.36%(MAE)。特别是在ETT-small子集上展现出显著优势,证明其在长期预测任务中的卓越能力。

短期预测结果

在M4基准测试中,PRADA在smape、mase和owa三个指标上均优于传统N-BEATS和N-HITS方法,在8/15个实例中获得SOTA性能,展示了其对不同时间尺度的适应能力。

少样本预测

在仅使用10%训练数据的少样本学习设置下,PRADA在ETT-small四个子集的28/40个案例中表现最佳,验证了其强大的泛化能力。

零样本预测

在跨域适应框架下的零样本学习评估中,PRADA平均误差比GPT4TS降低9.72%,优于Time-LLM 7.39%,这主要归功于引入的领域描述增强了模型捕捉高级语义模式的能力。

结论与价值

本研究提出的PRADA方法通过可学习提示引导的多视角对齐和时频双约束,有效解决了LLM在时间序列预测中面临的模态差距和统计属性漂移问题。其科学价值主要体现在:

  1. 方法学创新:首次将正交提示设计与时间序列分解相结合,理论证明了特征解耦的有效性
  2. 技术突破:提出的TSAA模块和时频双约束为时间序列表示学习提供了新范式
  3. 应用价值:在多个实际场景数据集上验证了方法的优越性,为气候、交通、电力等领域的时间序列预测提供了更可靠的工具

研究亮点

  1. 创新性地设计了针对季节性和趋势组件的可学习提示模板,并引入领域特定描述处理残差项
  2. 提出的多视角TSAA方法替代了模糊的单视角对齐,增强了模型捕捉可迁移高级语义特征的能力
  3. 时频双约束设计有效挖掘了容易被忽视的标签自相关信息
  4. 综合实验证明方法在长期预测、短期预测、少样本和零样本场景下的优越性能

其他有价值内容

研究团队提供了详细的消融实验,验证了各模块的贡献: 1. 去除TSAA模块导致MSE和MAE分别下降6.11%和5.19% 2. 去除双约束导致MSE和MAE分别下降2.83%和2.31% 3. 去除可学习标记导致性能下降3.13% 4. 正交约束的去除也显著影响模型表现

此外,研究还包含丰富的案例分析,展示了PRADA在实际电力预测任务中的优越性能,特别是在处理趋势变化、多尺度周期、突发事件和简单周期模式等不同场景时的适应能力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com