本文档属于类型a,即单篇原创研究的学术报告。以下是基于文档内容生成的学术报告:
本文的主要作者包括Cheng Tan、Siyuan Li、Zhangyang Gao、Wenfei Guan、Zedong Wang、Zicheng Liu、Lirong Wu和Stan Z. Li。他们分别来自浙江大学、西安电子科技大学以及西湖大学未来产业研究中心AI实验室。该研究发表于第37届NeurIPS 2023会议的数据集与基准测试专题。
时空预测学习(Spatio-Temporal Predictive Learning)是一种通过学习给定过去帧来预测未来帧的无监督学习范式,旨在捕捉空间和时间模式。尽管近年来该领域取得了显著进展,但由于设置多样、实现复杂和可重复性差,缺乏系统性的理解。缺乏标准化导致比较不公平,结论不明确。为了解决这一问题,作者提出了OpenSTL,一个全面的时空预测学习基准,将现有方法分为基于循环(recurrent-based)和无循环(recurrent-free)的模型。OpenSTL提供了一个模块化和可扩展的框架,实现了多种最先进的方法,并在多个领域的标准数据集上进行了评估。
OpenSTL的主要目标是提供一个全面的时空预测学习基准,评估和比较不同方法的性能,特别是探讨循环神经网络架构是否必要,以及无循环模型是否能够在没有显式时间建模的情况下达到与循环模型相当的性能。
OpenSTL在多个任务上进行了评估,包括合成移动物体轨迹、人类运动捕捉、驾驶场景、交通流和天气预报。这些任务涵盖了从合成数据到真实数据,从微观到宏观的多种场景。
OpenSTL实现了14种代表性的时空预测学习方法,包括11种基于循环的模型和3种无循环的模型。基于循环的模型包括ConvLSTM、PredRNN、PredRNN++、MIM、E3D-LSTM、CrevNet、PhyDNet、MAU、PredRNNv2和DMVFN。无循环模型包括SimVP、TAU和SimVPv2。作者还扩展了MetaFormers以提升无循环时空预测学习的性能。
研究使用了多种评估指标,包括均方误差(MSE)、平均绝对误差(MAE)、结构相似性指数(SSIM)、峰值信噪比(PSNR)、感知损失(LPIPS)、参数量(Params)、浮点运算数(FLOPs)和每秒帧数(FPS)。
在合成移动物体轨迹预测任务中,基于循环的模型在捕捉时间依赖性方面表现优异,但无循环模型在效率和性能之间取得了良好的平衡。在真实世界视频预测任务中,随着分辨率的增加,基于循环的模型的计算复杂度急剧增加,而无循环模型在效率和性能之间取得了可观的平衡。在天气预测任务中,无循环模型在所有天气因子上的表现均优于基于循环的模型。
在Moving MNIST数据集上,基于循环的模型如PredRNN、PredRNN++、MIM和PredRNNv2在MSE和MAE指标上表现优于无循环模型,但它们的FLOPs和FPS显著高于无循环模型。无循环模型在效率和性能之间取得了良好的平衡。
在KITTI&Caltech数据集上,基于循环的模型在MSE和MAE指标上表现优异,但它们的FLOPs显著高于无循环模型。无循环模型在高分辨率场景下表现出色。
在WeatherBench数据集上,无循环模型在所有天气因子上的表现均优于基于循环的模型,表明它们在宏观任务中的应用潜力。
OpenSTL提供了一个全面的时空预测学习基准,评估了14种代表性方法和24个模型。研究表明,无循环模型在效率和性能之间取得了良好的平衡,特别是在高分辨率和宏观任务中表现优异。无循环模型可以作为一种可行的替代方案,提供效率和性能之间的良好平衡。
OpenSTL为时空预测学习领域提供了一个标准化的评估框架,有助于推动该领域的发展。研究结果表明,无循环模型在多种任务中表现优异,为未来的研究和应用提供了新的思路。