本文的主要作者包括Yong Liu、Haoran Zhang、Chenyu Li、Xiangdong Huang、Jianmin Wang,以及Mingsheng Long,他们均来自Tsinghua University的School of Software。该研究发表于《Proceedings of the 41st International Conference on Machine Learning (PMLR 235)》,会议地点为奥地利维也纳,时间为2024年。
时间序列分析(Time Series Analysis)是科学和工业领域一类重要的研究课题,包括时间序列预测(Time Series Forecasting)、缺失值填补(Imputation)以及异常检测(Anomaly Detection)等任务。然而,尽管深度学习在时间序列分析方面取得了显著进展,小规模深度模型在数据稀缺场景中的表现依然面临瓶颈。此外,在时间序列分析中,现有的小模型多为特定任务训练,缺乏通用性和可扩展性。与此同时,近年来大型语言模型(Large Language Models, LLMs)的快速发展展示了类似数据稀缺场景下的强大能力,包括少样本泛化(Few-shot Generalization)、任务普适性(Task Generality)和扩展性(Scalability)。受LLMs成功的启示,该研究提出开发类似于LLMs的大型时间序列模型(Large Time Series Models, LTSM),以应对时间序列分析领域的挑战。
研究旨在开发一种通用、大规模、生成式预训练的时间序列模型(Generative Pre-trained Time Series Transformer),称为Timer。研究目标包括:(1) 构建大规模统一的时间序列数据集;(2) 开发一种适应于异构时间序列的统一序列格式;(3) 基于GPT架构进行生成式预训练,从而实现模型在多种时间序列任务上的通用性和优越表现。
Timer的开发围绕数据处理、模型架构设计和实验评估展开,研究分为以下几个主要步骤:
研究团队构建了一个名为Unified Time Series Dataset (UTSD)的时间序列数据集。
UTSD包含7个领域的时间序列数据(如能源、环境、IoT等),覆盖10亿个时间点的数据。数据预处理方面,研究团队提出了一个统一的单序列表示形式,即Single-Series Sequence (S3)格式,用于应对时间序列的异质性(如维度数量、长度、尺度等差异)。S3格式的生成包括以下几步:
1. 归一化处理:对不同时间序列数据进行归一化,以减小振幅和尺度差异带来的影响; 2. 单变量序列归并:将多变量时间序列展开为单变量序列; 3. 分段采样:采用滑动窗口技术,从时间序列池中抽取统一长度的时间序列片段,组成标准化的S3格式。
研究强调数据质量,包括缺失值处理、周期性、平稳性(Stationarity)及可预测性(Forecastability)指标的校验。此外,团队还设计了一个分层式数据集结构(UTSD-1G、UTSD-2G、UTSD-4G、UTSD-12G),逐级提高数据复杂性和多样性,为大模型的扩展性和通用性研究提供支持。
Timer基于GPT(Generative Pre-trained Transformer)设计,采用Decoder-Only的Transformer架构。
与传统时间序列模型(例如Encoder-Only架构)不同,Timer采用了自回归生成方式(Autoregressive Generation),可以迭代式地预测未来的时间序列点。这一设计能够带来更高的上下文灵活性和多步生成能力。模型架构的关键元素包括: 1. 对时间点分块(Tokens):每个时间序列分块为固定长度的Token,用于输入模型; 2. 时间戳嵌入(Timestamp Embeddings):针对时间戳信息进行编码; 3. 自回归生成目标:通过最大化条件概率 (p(xt | x{1:t-1})),实现对目标时间点的有效预测。
同时,论文基于GPT风格的生成式目标函数进行模型训练,采用了独特的自回归数据生成和滑动窗口扩展策略,以处理不同长度和时间段的输入序列。
为了验证Timer的少样本泛化能力和任务普适性,团队在时间序列分析的三个主要任务上对模型进行了实验评估: 1. 时间序列预测:采用ETT、ECL、Traffic等公开数据集,统一设置lookback长度为672,预测长度为96; 2. 缺失值填补任务:按照固定比例对时间序列段进行屏蔽,通过生成式方法重建被屏蔽的数据; 3. 异常检测:基于预测的正常时间序列,通过计算误差量化异常位置。
此外,为了检验Timer的可扩展性,研究在不同模型规模(参数从3M扩展到50M)和数据规模(UTSD-1G至UTSD-12G)下,评估了模型性能的变化。
基于实验数据,研究展示了Timer在以下任务中的突出表现: 1. 时间序列预测性能:Timer相比传统小规模模型(如PatchTST)在数据稀缺场景下的误差显著降低。例如,在ETTh1数据集中,加载预训练权重的Timer模型仅用2%的训练样本即可达到从零训练模型使用100%样本所获得的性能。 2. 缺失值填补能力:在segment-level的缺失值填补任务中,Timer在100%的场景下优于当前最优模型TimesNet(Wu et al., 2022)。此外,研究报告了加载预训练模型后,Timer在多种数据稀缺环境中的误差下降比率达10%-15%。 3. 异常检测性能:在UCR时间序列异常检测数据集中,相较于现有的Anomaly Transformer和TimesNet,Timer的异常检测结果更准确,展现了基于生成策略的异常检测潜力。
尽管大语言模型在参数规模上更庞大(通常达数十亿至数千亿级别),Timer通过优化时间序列领域的任务目标和数据处理方式,展示了更高的参数效率。
Timer通过构建统一的时间序列数据表示形式(S3格式)以及生成式预训练模型,大幅度提高了时间序列分析中的任务普适性和少样本泛化能力。其主要贡献包括: 1. 刷新了时间序列预测、缺失值填补及异常检测的性能标准; 2. 展现了生成式预训练在时间序列领域的巨大潜力,统一了多任务适配的框架; 3. 提供了高质量的开源时间序列数据集(UTSD)和代码资源,供学术界与工业界开发参考。
此研究为时间序列领域的大模型技术提供了有力支持,并为未来在更大规模数据上的预训练和更长上下文序列的任务扩展奠定了基础。