用于时空图缺失值预测的掩蔽表示学习

分享自：
用于时空图缺失值预测的掩蔽表示学习

期刊:journal of latex class files
本文报告了一项名为“GeoMAE”的原创性研究，属于类型a。以下是关于这项研究的学术报告。
研究报告：基于掩码表示学习的不完整时空图预测模型GeoMAE
一、 研究作者、机构与发表信息
本研究由多位作者共同完成，主要作者包括： * Songyu Ke（第一作者），来自福州大学计算机与数据科学学院，同时也在京东智能城市研究院和京东集团旗下的京东科技-京东智能城市（JD iCity）工作。 * Chenyu Wu，来自西南交通大学信息科学与技术学院。 * Yuxuan Liang，来自香港科技大学（广州）数据科学与分析学部。 * Xiuwen Yi, Yanping Sun, Junbo Zhang, Yu Zheng，均来自京东科技-京东智能城市（JD iCity）。 * 其中，Junbo Zhang（IEEE 高级会员）和 Yu Zheng（IEEE 会士）也同时任职于西南交通大学计算机与人工智能学院，Junbo Zhang为本文的通讯作者。
该研究被发表于学术平台arXiv上（预印本），提交日期为2025年8月13日（版本v1）。其预印本标识符为 arXiv:2508.14083v1 [cs.LG]。摘要部分同时提及了该研究的另一相关框架CSST，但正文主体围绕GeoMAE展开。
二、 研究学术背景与目标
本研究属于人工智能、数据科学领域，具体聚焦于时空数据挖掘、图神经网络、自监督学习以及缺失数据处理等交叉方向。研究的核心背景在于现实世界智能城市系统中普遍存在的数据缺失问题。
在实际应用中，诸如交通预测、空气质量监测、能源消耗预测等关键任务高度依赖于从传感器网络中持续获取的高质量时空数据。然而，由于硬件故障、传输错误、维护不足或恶劣环境条件等多种原因，收集到的数据常常包含大量缺失值。这些缺失值严重破坏了数据的完整性，使得建模复杂的时间和空间依赖性变得异常困难，进而损害了下游预测任务的准确性和模型的泛化能力。传统处理缺失值的方法主要有两类：一是先通过独立模型进行数据插补（Imputation），再进行建模；二是直接在模型内部处理缺失值。前者容易引入误差传播，后者则面临复杂缺失模式与缺失率波动的巨大挑战。
因此，本研究旨在解决三个关键挑战：1) 复杂的时空相关性：时空数据中存在动态、非线性的时空依赖关系；2) 多样的缺失模式：包括随机缺失、行缺失、列缺失和块缺失等；3) 波动的缺失条件：在实际系统中，由于维护状况和预算变化，数据的缺失率和缺失模式会随时间发生显著波动，这对模型的稳定性和泛化性构成严峻考验。
基于此，研究团队提出了一个名为 GeoMAE 的新型自监督时空表示学习模型。其核心目标是为含有缺失值的时空图预测问题设计一个稳健的解决方案，能够直接从包含缺失的不完整数据中学习有效的表示，并适应不同缺失率和模式的变化，最终提升预测任务的性能。
三、 研究详细工作流程
GeoMAE模型由三个核心组件构成：输入数据预处理模块、基于注意力的时空预测网络（Spatio-Temporal Attention Forecasting Network, STAFN）以及一个受掩码自编码器（Masked Autoencoder, MAE）启发的自监督辅助任务。
1. 输入数据预处理模块 为了减少缺失值对输入数据分布的影响并增强模型对不同缺失率的适应能力，该模块创新性地设计了两种处理策略：随机填充和提示矩阵（Hint Matrix）构建。 * 随机填充：对于缺失值，不采用简单的零填充，而是用一个服从均值为0、标准差σ较小的正态分布N(0, σ)的随机变量ε进行填充。这种方法假设输入数据已经过标准化（均值为0，标准差为1），因此填充的随机噪声对原始数据分布影响最小，且避免了大量零值引入的分布偏差。 * 提示矩阵构建：首先根据原始缺失指示张量M构造一个平衡的符号张量Msym，其中观测值位置为1，缺失值位置为-1。随后，对该符号张量进行标准化（减去均值，除以标准差），得到最终的提示矩阵Mhint。这种做法旨在为模型提供缺失模式的量化指引，并且由于经过标准化，其分布在不同缺失率下更为稳定，有助于提升模型的泛化能力。处理后的填充数据X^和提示矩阵Mhint将共同作为模型的输入。
2. 基于注意力的时空预测网络（STAFN） STAFN是整个模型的核心表示学习架构，采用编码器-解码器（Encoder-Decoder）设计，专门用于捕捉数据中复杂的动态时空依赖关系。 * 时间编码模块：采用正弦/余弦位置编码方法，将时间戳信息（如月、日、时）编码为时间向量，并输入到注意力模块中，帮助模型理解时间模式。 * 节点表示：模型维护一个可学习的节点嵌入矩阵V*，用于捕获节点的固有空间属性。 * 注意力模块：STAFN包含N个（N为超参数）时空注意力模块和N个预测注意力模块。 * 时空注意力模块（编码器部分）：并行结合了多头空间注意力和多头时间注意力。多头空间注意力将输入张量沿时间维度切片，在每个时间片上计算节点间的空间相关性。多头时间注意力则将输入张量沿节点维度切片，为每个节点计算其不同时间步之间的相关性。 * 预测注意力模块（解码器部分）：采用串联结构，先进行多头预测注意力，后进行多头空间注意力。预测注意力是一种特殊的时序注意力，其Key和Value来自编码器输出的最终历史表示H^N_his，而Query来自解码器当前时刻的表示，这使得解码过程能够利用历史信息来预测未来。 * 输出解码：解码器的最终输出H_fur经过一个全连接网络，解码为最终的预测值Ŷ。
3. 自监督辅助任务（MAE风格） 为了提高模型的鲁棒性和泛化能力，GeoMAE引入了一个基于随机掩码的自监督辅助任务，这是其创新点之一。 * 数据增强：对于每一个原始样本（X, M），通过添加额外的随机掩码（模拟不同的缺失模式和缺失率），生成K个增强样本（X(i), M(i)）。 * 表示对齐：将原始样本和K个增强样本分别输入STAFN，得到各自对应的未来时空表示向量 H_fur 和 H_fur(i)。该辅助任务的目标是最小化原始样本表示与各增强样本表示之间的L2距离。通过一个损失函数L_mae实现，其中包含两个方向的差异：增强表示向原始表示的靠拢，以及原始表示向增强表示的靠拢，并通过参数φ控制两者权重。 * 多任务优化：模型的总损失L_tot由主回归损失L_reg（如MAE、RMSE）和自监督辅助损失L_mae加权求和得到（L_tot = L_reg + λ·L_mae），其中λ是超参数。这种多任务学习机制迫使模型学习到的表示对缺失扰动不敏感，从而更加稳健。
四、 主要实验结果
研究在北京空气质量真实世界数据集（BJ-Air）上对GeoMAE进行了验证。数据集包含北京35个监测站从2015年至2017年的6种空气污染物和6种气象条件的小时数据。预测目标为PM2.5浓度。实验设置考虑了不同的缺失率（25%， 50%， 75%， 90%）和缺失模式（点缺失、块缺失），并将数据按年份划分为训练集（2015）、验证集（2016）和测试集（2017），以模拟现实中数据分布随时间变化的情况。
1. 与基线模型的性能对比 研究人员将GeoMAE与多种基线模型进行了对比，包括MLP、LSTM、GRU-D、AGCRN、GWNet和Trid-MAE。评价指标为平均绝对误差（MAE）、均方根误差（RMSE）和对称平均绝对百分比误差（SMAPE）。 * 在点缺失数据集上：如表2所示，在不同缺失率下，GeoMAE的所有指标均显著优于所有基线模型。例如，在50%缺失率下，GeoMAE的MAE为22.35，而表现次优的GWNet为24.15。在高达90%的极端缺失率下，GeoMAE的优势更加明显（MAE: 26.13 vs GWNet: 29.44），这证明了其处理高比例缺失数据的能力。 * 在块缺失数据集上：如表3所示，GeoMAE同样在所有缺失率和指标上取得了最佳性能。值得注意的是，块缺失通常比相同缺失率的点缺失更容易处理，因为其破坏的连续性较低。实验结果也印证了这一点，例如50%块缺失下GeoMAE的MAE为22.53，优于50%点缺失下的22.35。这进一步表明GeoMAE能够有效适应不同的缺失模式。 * 关键结论：对比实验表明，大多数基线模型（如AGCRN）在面对训练集与测试集缺失率不匹配时，泛化性能会显著下降。而GeoMAE通过其独特的预处理和自监督机制，展现了卓越的泛化能力和对缺失扰动的鲁棒性。
2. 消融实验分析 为了验证模型各组成部分的有效性，研究进行了详尽的消融实验（结果如图6所示）。 * 不同骨干网络的影响：研究人员尝试将GeoMAE中的STAFN替换为LSTM、AGCRN和GRU-D，并保留相同的MAE辅助任务和预处理模块（即{基线模型}+MAE）。实验发现，这些变体在大多数情况下的提升有限，甚至不如原始的STAFN架构。这说明STAFN专门设计的时空注意力机制比传统RNN或GNN更适合本任务。 * 不同掩码与预处理策略的影响： * GeoMAE-fm：在训练中使用固定的50%缺失率，而不使用变化的缺失率。其性能在各个测试缺失率下均显著差于标准的GeoMAE，这直接证明了固定缺失率训练会导致模型对特定缺失条件产生偏见，当测试数据缺失条件变化时性能下降。这支持了研究的核心动机之一：应对波动的缺失条件。 * GeoMAE-nm：不使用任何掩码提示矩阵（即仅有随机填充）。其性能明显劣于GeoMAE，说明即使有自监督损失辅助，缺失值依然严重影响模型。 * GeoMAE-01：使用传统的“0/1”掩码矩阵（0代表缺失，1代表存在）。其性能优于GeoMAE-nm，但不及标准GeoMAE。这表明新提出的经过标准化的“提示矩阵”预处理方法比简单的二元掩码更能帮助模型缓解缺失值对表示学习的影响，从而提升预测精度。
消融实验的结果系统地证明了：1) STAFN作为骨干网络的有效性；2) 变化的训练缺失率策略对泛化至关重要；3) 所提出的提示矩阵构建方法优于简单方法；4) 随机填充加提示矩阵的预处理模块与自监督辅助任务协同工作，共同提升了模型对缺失数据的适应性和预测准确性。
五、 结论与研究价值
本研究提出并验证了GeoMAE，这是一个针对带有缺失值的时空图预测问题的新型自监督表示学习框架。其主要贡献和创新在于： * 聚焦实际问题：明确关注并解决了实际系统中因维护条件变化导致的缺失率和缺失模式波动问题，这是以往许多研究忽略的。 * 创新的输入预处理：提出了结合随机正态分布填充和标准化提示矩阵的预处理方法，有效缓解了不同缺失率对输入数据分布的影响。 * 稳健的表示学习架构：设计了结合多头时空注意力和预测注意力的STAFN网络，能有效捕捉动态的时空相关性。 * 有效的自监督机制：引入了基于掩码的自监督辅助任务，通过最小化原始样本与多个模拟缺失增强样本的表示差异，显著增强了所学时空表示的鲁棒性和泛化能力。 * 实证性能优越：在真实数据集上的实验表明，GeoMAE在多种缺失场景下均能取得最佳性能，最高提升可达13.20%（与某些基线相比），证明了其解决不完整时空数据预测问题的有效性。
六、 研究亮点
问题定义的现实性：研究不仅关注数据缺失本身，更深入地关注了缺失“条件”（包括率和模式）的动态变化对模型泛化的影响，这使得研究工作更贴近工业级应用的实际挑战。
方法设计的系统性：模型设计完整且系统，涵盖了数据输入（预处理）、核心表示学习（STAFN）和模型正则化（自监督任务）三个层面，形成了一套从数据到表示的完整解决方案。
创新性技术组合：将MAE思想用于时空图数据以应对缺失值，并结合了新颖的提示矩阵预处理方法，是一种创造性的技术融合。
实验验证的充分性：通过全面的主实验和细致的消融实验，不仅证明了模型整体优越性，还清晰揭示了各个组件的作用和贡献，论证过程严谨。
七、 其他有价值内容
研究在引言中提供了对现有处理不完整数据策略的清晰分类（即“先插补后建模”和“直接建模”），并分析了各自的优缺点，为读者提供了良好的背景知识脉络。
论文详细阐述了时空数据中“复杂时空相关性”、“多样缺失模式”和“波动缺失条件”三大挑战的具体表现，并以空气质量预测为例进行说明，使问题更加具体化。
附录部分（虽未在提供文本中完全展示，但从引用可推断）可能包含了对基线模型的详细描述和评价指标的公式，体现了研究的完整性。
研究也简要提及了另一相关工作CSST，表明团队在同一大方向下有不同侧重点的探索，CSST侧重于利用自监督对比学习从低质量数据中推断人群流量，而GeoMAE则专注于处理缺失值的时空图预测。两者共同构成了在智能城市时空数据质量不佳背景下的系列解决方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问