分享自:

概率模式引导的时间序列预测

期刊:IEEE Transactions on Neural Networks and Learning SystemsDOI:10.1109/TNNLS.2025.3540873

类型a

本文介绍了一项由Yanru Sun、Zongxia Xie、Haoyu Xing、Hualong Yu和Qing Hu(IEEE高级会员)共同完成的研究,研究成果发表在《IEEE Transactions on Neural Networks and Learning Systems》期刊上。该研究提出了一种名为”概率模式引导的时间序列预测(Probability Pattern-Guided Time Series Forecasting, PPGF)”的端到端框架,旨在解决传统时间序列预测方法在处理混合多模式数据时的局限性。

学术背景
时间序列预测(Time Series Forecasting, TSF)是机器学习的重要分支,在交通流量预测、空气质量监测、天气预报等领域有广泛应用。当前主流TSF方法主要关注构建不同网络结构来提取更好的特征信息,但实际应用数据往往包含不同的内在机制,导致多种模式混合存在。这种混合模式导致模型对不同模式的拟合能力存在差异,从而产生不同的预测误差。为解决这一问题,研究者提出将TSF问题重新定义为概率模式分类引导的预测任务。

研究流程
1. 模式分组策略
研究首先提出创新的分组策略。不同于常见的”等宽分组”方法,研究者采用基于数据分布的动态分组策略:将时间序列数据按升序排列后,根据设定的组数k,使每个区间包含近似相等数量的数据点。这种分组方式既减轻了数据不平衡对分类的影响,又不需要依赖领域专家知识。实验使用了6个公开数据集(包括电力消耗、钢铁行业能源消耗、交通流量等),每个数据集都按照60%/20%/20%的比例划分为训练集、验证集和测试集。

  1. 时间信息提取器
    研究设计了一个三组件的时间信息提取器:
  • 一维卷积(1D-CNN)用于捕捉局部依赖关系
  • Transformer编码器建模长期依赖关系
  • 门控残差网络(GRN,Gated Residual Network)提供自适应深度和复杂度 这种组合架构能够同时捕捉多元输入特征间的依赖关系和时间动态特性。
  1. 概率模式分类器
    研究创新性地引入真实类别概率(True Class Probability, TCP)来评估分类置信度。通过构建ConfidNet网络,输出置信度预测值ĉ(h,θ),用于校准特征向量。当分类错误时,TCP值会较低,促使模型更关注这些困难样本。分类器采用交叉熵损失函数进行训练。

  2. 相对预测策略
    研究将传统预测问题转化为相对预测任务。定义Δy为目标值相对于类别k下界的偏移量,使用全连接网络预测Δy,并采用均方误差(MSE)损失函数。这种策略将预测范围压缩到更小区间,提高了预测精度。

  3. 概率模式引导的预测策略
    该策略确保分类和预测之间的一致性约束。最终预测值由分类结果k和相对预测Δy共同决定:y = Δy*(ρ_right_k - ρ_left_k) + ρ_left_k。模型总损失函数包含三部分:置信网络损失、分类损失和回归损失,通过超参数λ1,λ2,λ3平衡各部分影响。

主要结果
研究在8个真实世界数据集上进行了广泛实验,比较了包括LSTM、TCN、PatchTST等14种基线方法。结果显示: - PPGF在24个实验配置中的19个取得最佳性能 - 对于周期性强的数据集(如电力消耗、交通流量),PPGF将RMSE降低约107% - 对于弱周期性数据集(如空气质量、太阳风速),PPGF仍保持稳健性能,RMSE分别降低39%、61%和30% - 消融实验验证了各组件的重要性:移除分类器导致RMSE显著增加,移除TCP校准使分类准确率明显下降

特别值得注意的是,在太阳风速预测案例中,PPGF成功区分了由日冕洞(coronal holes)引起的低速太阳风和日冕物质抛射(coronal mass ejections)引起的高速太阳风这两种不同模式,对两种模式都取得了良好的拟合效果。

结论与价值
该研究的主要贡献包括: 1. 提出PPGF框架,确保预测结果落在对应分类区间内,实现了分类与预测过程的对齐 2. 开发了减轻数据不平衡影响的分组策略,无需专业知识即可灵活应用于各种数据集 3. 采用TCP近似来估计分类置信度并校准特征,有效提高了模式分类准确率 4. 在真实世界数据集上的实验证明,该框架显著优于多种最先进方法

研究亮点
1. 创新性地将时间序列预测重构为模式分类和区间预测的双重任务 2. 提出的动态分组策略解决了数据不平衡问题,具有领域无关性 3. TCP置信度校准机制提高了困难样本的分类准确率 4. 相对预测策略将预测范围压缩到更小区间,提升了预测精度 5. 综合实验验证了方法在多种类型数据集上的优异表现和鲁棒性

其他有价值内容
研究还探讨了模式数量k对预测性能的影响: - 对于数据分布高度不平衡的数据集,较大的k值可获得更好效果 - 电力消耗数据在k=8时取得最佳结果 - 交通流量数据在k=4时表现最好 - 太阳风速数据在k=2时即获得良好性能

此外,案例研究部分详细展示了TCP校准机制的工作过程,当分类错误时TCP值较低,促使模型更关注这些样本,从而提升了整体性能。研究者还提供了完整的代码实现和数据,已在GitHub开源(https://github.com/syrgithub/ppgf),方便后续研究和应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com