本文主要作者为Xinlei Wang(University of Sydney), Maike Feng(The Chinese University of Hong Kong, Shenzhen), Jing Qiu(University of Sydney), Jinjin Gu(University of Sydney), Junhua Zhao(The Chinese University of Hong Kong, Shenzhen)。通讯作者为Junhua Zhao与Jinjin Gu。研究被发表于第38届Neural Information Processing Systems(NeurIPS 2024)会议,相关代码与数据可通过GitHub链接获取。
研究领域属于时间序列预测(time series forecasting),这是数据科学中一项核心任务,应用广泛,涵盖经济、社会、能源和金融等多个领域。传统的时间序列预测方法主要依赖于分析历史数据,其有效性主要体现在时间序列分布稳定的情况下。然而,当外部突发事件或非线性扰动发生时,传统方法便显得力不从心。
作者观察到,新闻内容包含丰富的社会事件信息,如意外事件、政策变化、技术发展和社会情绪转变。整合这些非结构化文本数据有助于提升对时间序列变动的情境理解,因此本研究提出了一种统一框架,将新闻内容整合到时间序列预测模型中,希望能够改进预测的准确性和鲁棒性。
研究目标: 1. 提出一种基于大语言模型(Large Language Model,LLM)的框架,将社会事件作为情境信息嵌入时间序列数据中。 2. 开发LLM驱动的推理与评估智能体,用于动态筛选与分析新闻内容。 3. 验证整合新闻的模型预测效果是否优于传统方法。
研究整体工作流程分为三个主要模块,每个模块由若干步骤组成。
作者重新定义时间序列预测问题,将其看作一个条件生成问题。研究使用预训练的大语言模型(如LLaMA模型)对数字时间序列进行分词处理,进而将时间序列的预测视为下一个数字序列的条件生成任务。研究采用以下创新技术: - 通过“提示工程”(prompt engineering),将社会事件和其他补充信息转化为文本输入,例如“天气日期:最低温292.01;最高温298.07”。 - 使用监督指令微调(Supervised Instruction Tuning),对包含历史时间序列数据和新闻信息的文本数据进行模型微调。 - 采用LoRA(Low-Rank Adaptation)技术对LLM参数进行高效更新,从而精细适配时间序列预测任务。
本模块的目标是从海量新闻内容中筛选出与时间序列预测相关的新闻事件,并生成合理性解释。具体步骤如下: 1. 基于时间特性和地理定位的大致初筛:通过爬取、关键词检索等方式搜集目标地区和对应时间范围内的新闻。 2. 基于推理逻辑的精细筛选:使用ChatGPT等大语言模型构建具有“类人推理能力”的推理智能体,根据事件的短期或长期影响进行分类。例如:极端天气(短期提升能源需求)、5G网络部署(长期提升能源消耗)。 3. 输出JSON格式化数据:确保模型能轻松解析筛选后的新闻摘要、地理信息和时间标签。
模型评估智能体的功能是通过分析预测误差,反思并改进新闻筛选逻辑,进而迭代优化预测结果。工作流程包括: 1. 观察预测误差与真实值之间的差异:若发现大的预测误差而未涉及关联事件,智能体会建议“遗漏新闻”。 2. 基于推理逻辑的更新:根据遗漏新闻重新修订新闻筛选逻辑,并生成新的新闻选择规则。 3. 多轮优化目标逻辑:随着训练数据验证,最终形成适配性更好的新闻选择策略。
总体流程通过上述三个模块实现每轮时间序列建模的迭代优化,直至完成最终模型。
研究结果分为多个方面,实验涉及金融、能源、交通、比特币等领域的时间序列预测,旨在验证新闻信息的整合效果。
通过与不加入新闻情境信息的模型对比,研究表明: - 当使用精筛新闻数据时,模型在各领域的预测误差均显著降低。具体而言: - 电力需求预测中RMSE由337.10降至280.39。 - 货币汇率预测中RMSE由7.80降至6.46。 - 比特币价格预测中RMSE由4.46(×10^-3)降至3.67(×10^-3)。 - 若新闻未过滤或与任务不相关,加入新闻可能导致模型性能下降。这主要是由于噪声和不必要信息的干扰。
研究中引入模型评估智能体以校正新闻筛选策略。通过多轮迭代优化,预测结果在大多数场景中实现进一步提升。在验证集下: - 电力预测中,第二轮选择的RMSE从313.89显著降至287.35。 - 比特币预测中,第二轮筛选同样显著降低RMSE。
相比于最新神经网络及Transformer模型(如Informer、TimesNet、GPT-4TS等),本文方法在多个领域数据中均展现出更优的预测表现。在电力需求和比特币市场中,本文方法显著优于现有主流方法,特别是在检测突发事件时具有明显优势。
研究提出了一种新型框架,将LLM与时间序列预测任务结合,成功实现了文本信息与数字序列的跨模态整合,显著提升了模型的预测效果。其科学价值主要体现在: 1. 为时间序列预测提供了新的思路,开辟了基于社会事件语境数据的研究方向。 2. 展现了语言模型强大的推理与分析能力,以及其在多领域、复杂系统时间序列预测中的潜力。 3. 通过分析预测误差,验证了研究中采用的智能体系统在选择逻辑反思与模型改进中的实际效能。 4. 从应用层面看,模型在能源负载管理、金融市场波动预测、交通需求规划等高价值领域具有广泛的应用潜力。
研究仍存在局限性,例如: 1. 针对人类行为驱动的领域效果优异,但在气象等物理领域中表现有限。 2. 模型训练受到语言模型的token限制,多任务或长序列预测时面临数据截断问题。
未来方向: - 进一步扩展对不同语言模型的适配能力,验证其鲁棒性。 - 提升新闻整合的自动化能力,并扩展数据来源的覆盖范围。 - 面向实时预测,开发更高效的内容理解与情境关联分析模块。
总结而言,这项研究实现了大语言模型在时间序列预测任务中的跨领域应用,并通过整合新闻信息和创新型智能体系统,为预测科学领域注入了新的研究活力和应用价值。