在这项名为《LATTE: Latent Diffusion Transformer for Video Generation》的研究中,来自Monash University、Shanghai AI Laboratory、Nanjing University of Posts and Telecommunications以及Nanyang Technological University的Xin Ma、Yaohui Wang(通讯作者)等研究人员提出了一种全新的潜在扩散变换器(Latent Diffusion Transformer),用于视频生成任务。该研究发表于2025年3月的Transactions on Machine Learning Research期刊。
这项研究的主要学术背景是基于扩散模型(Diffusion Models)在图像生成领域取得的巨大成功,以及将这种能力扩展到视频生成所面临的独特挑战。视频生成需要同时建模复杂的空间信息(每一帧的视觉内容)和时间信息(帧与帧之间的连贯运动),这构成了一个极高维度和复杂度的数据分布学习问题。尽管基于U-Net架构的卷积神经网络在图像和早期视频扩散模型中占据了主导地位,但以Vision Transformer(ViT)为代表的变换器(Transformer)架构因其强大的长程上下文建模能力,在图像生成领域(如DiT)已展现出超越U-Net的潜力,并证明了U-Net的归纳偏置对于潜在扩散模型的性能并非必需。然而,将变换器作为主干网络(backbone)应用于视频扩散模型的研究尚未被充分探索。因此,本研究的核心目标是探究能否利用基于变换器的潜在扩散模型来生成更高质量、时序更连贯的视频,并通过系统性的实验来确定此类模型的最佳实践方案。
研究的详细工作流程主要包含几个关键部分:模型架构设计、最佳实践探索、实验评估与结果分析。
首先,研究人员设计了LATTE的核心架构。 其基本流程是:使用预训练的变分自编码器(Variational Autoencoder, VAE)将输入视频的每一帧编码到低维潜在空间。然后,从这些潜在特征中提取出时空令牌(token)。接着,使用一系列变换器块(Transformer Blocks)来对这些令牌进行建模,以学习视频在潜在空间的分布。为了高效处理从视频中提取出的大量令牌,并有效解耦时空信息,研究者从分解输入视频的空间和时间维度出发,提出了四种高效的模型变体(Variant)。变体1采用空间变换器块和时间变换器块交错排列的“交织融合”(interleaved fusion)方式。变体2则采用“后期融合”(late fusion)方式,即先堆叠所有空间块处理空间信息,再堆叠所有时间块处理时间信息。变体3在单个变换器块内部对多头注意力(Multi-Head Attention, MHA)进行分解,先进行空间维度的自注意力计算,再进行时间维度的自注意力计算。变体4则将多头注意力拆分为两个并行的组件,各用一半的注意力头分别处理空间和时间维度的令牌,然后将结果相加。
其次,为了提升生成视频的质量,研究团队进行了一系列全面的消融实验,以确定变换器在视频扩散模型中的最佳设计选择。 这些探索包括:1) 视频片段块嵌入(Video Clip Patch Embedding):比较了“均匀帧块嵌入”(对每一帧独立进行ViT式的块提取)和“压缩帧块嵌入”(在时间维度上提取3D管状块)。实验发现,前者性能显著优于后者,推测是因为压缩方法可能导致时空信号丢失,不利于模型学习视频分布。2) 时间步-类别信息注入(Timestep-Class Information Injection):比较了将信息作为额外令牌输入的“所有令牌”(All Tokens)方法和类似DiT使用的“可缩放自适应层归一化”(Scalable Adaptive Layer Normalization, S-AdaLN)。后者通过回归得到缩放和平移参数,并将其注入到每个变换器块的层归一化和残差连接之前,其性能远超前者,能实现更高效的信息传播和更快的收敛。3) 时间位置嵌入(Temporal Positional Embedding):对比了使用正弦余弦函数的绝对位置编码(Absolute Positional Embedding)和旋转位置编码(Rotary Positional Embedding, RoPE)。实验表明,在本任务中,绝对位置编码略胜一筹,因为模型无需像RoPE那样处理可变时长视频的动态适应性。4) 增强视频生成的学习策略:探索了两种策略。一是使用预训练模型进行学习:尝试用ImageNet上预训练的DiT模型初始化LATTE。实验发现,在训练早期,预训练能帮助模型快速达到不错性能,但在小规模视频数据集(如FaceForensics)上,最终性能反而不如随机初始化,这归因于图像和视频数据分布之间的差异导致的领域差距。然而,作者指出,对于大规模任务(如文生视频),预训练的优势可能更显著。二是图像-视频联合训练:在训练批次中,将随机抽取的图像帧附加在视频片段之后。为了确保模型仍能生成连贯视频,他们提出了“时间掩码”(Temporal Mask)策略,构造一个掩码矩阵来控制图像帧与视频帧、图像帧与图像帧之间在时间注意力中的交互。实验证明,该策略能有效提升模型性能,因为增加了批次内的数据多样性。
在实验阶段,研究在四个标准视频生成数据集上进行了评估:FaceForensics(人脸伪造数据集)、SkyTimelapse(天空延时)、UCF101(人类动作)和Taichi-HD(太极动作)。评估指标主要采用弗雷歇视频距离(Fréchet Video Distance, FVD)、弗雷歇初始距离(Fréchet Inception Distance, FID)和初始分数(Inception Score, IS)。研究比较了包括MoCoGAN、VideoGPT、StyleGAN-V、PVDM、LVDM、VDT、W.A.L.T在内的多种最新方法。同时,研究团队还进行了详尽的消融分析,以验证不同模型变体、不同设计选择、不同视频采样间隔以及不同模型尺寸(从LATTE-S到LATTE-XL)对性能的影响。
研究的主要结果如下: 1. 模型变体比较:在四个变体中,变体1(时空块交错)取得了最佳性能。通过分析变体2(后期融合)中间层的帧间余弦相似度,研究者发现连续堆叠的空间注意力模块会不均匀地降低帧间相似度,甚至产生倒置的关系,从而破坏了时间连贯性。变体4(并行注意力)则由于空间和时间注意力输出的特征分布不匹配,直接相加会严重干扰时间信息。变体3(块内分解)性能优于变体2和4,但弱于变体1,这表明简单的层归一化不足以让空间特征适应时间注意力层。这些分析解释了为什么变体1是最优设计。 2. 最佳实践总结:基于消融实验,确定了LATTE的最佳配置组合为:模型变体1、均匀帧块嵌入、S-AdaLN信息注入、绝对位置编码以及采用时间掩码策略的图像-视频联合训练。 3. 与先进方法的定量比较:采用最佳实践的LATTE模型在四个数据集上的FVD指标均达到了当时最先进的性能。特别是在FaceForensics数据集上,LATTE取得了最低的FVD(34.00),经过图像-视频联合训练后(LATTE+img)更是降至27.08。在UCF101上,LATTE+img的IS得分高达73.31,FID为3.87(在FaceForensics上),显著超越了其他对比方法。 4. 扩展至文生视频(Text-to-Video, T2V)任务:研究者将LATTE扩展到了文生视频领域,并使用预训练的PixArt-α模型初始化空间变换器块。在Vimeo25M高清视频数据集上训练后,使用VBench基准进行评估。与ModelScope、VideoCrafter、CogVideo、HiGen、OpenSoraPlan等同期T2V模型相比,LATTE在多项主观质量指标上(如主体一致性、背景一致性、时间闪烁、运动平滑度等)展现了有竞争力的结果,证明了其架构在条件生成任务上的潜力和通用性。
本研究的结论是,LATTE成功地将变换器架构作为主干网络引入视频扩散模型,并通过系统性的探索确立了一套行之有效的最佳实践。实验证明,这种方法能够生成具有高视觉质量和时间连贯性的视频,并在多个标准基准上达到了领先水平。此外,其在文生视频任务上的表现也验证了该框架的扩展性和潜力。
该研究的意义和价值主要体现在以下几个方面:科学价值:它深入探究了变换器在视频生成这一复杂时空建模任务中的作用机制,特别是通过四种变体的设计和分析,揭示了时空模块解耦程度对生成质量的影响,为理解视频生成模型的内部工作机制提供了宝贵见解。方法论价值:研究并非简单套用现有架构,而是通过大量严谨的消融实验,为基于变换器的视频扩散模型确立了一套从嵌入方式、信息注入、位置编码到训练策略的完整最佳实践指南,对未来相关研究具有重要的参考意义。应用价值:LATTE模型本身是一个强大且通用的视频生成工具,在无条件视频生成和条件(如文本)视频生成上都展示了优异性能,为内容创作、影视特效、虚拟现实等领域提供了新的技术可能。
本研究的亮点包括:1) 创新性地提出了专为视频生成设计的潜在扩散变换器架构,并衍生出四种高效的变体。2) 进行了极其全面和系统的消融研究,覆盖了模型设计的多个关键方面,其深度和广度在同类工作中较为罕见,所得出的最佳实践具有很高的指导价值。3) 对模型变体进行了深入的机理分析,不仅比较了性能,还通过余弦相似度等工具直观解释了不同设计导致性能差异的原因,增强了研究的可解释性。4) 卓越的性能表现:在多个具有挑战性的数据集上实现了当时最先进的生成质量,同时展示了向文生视频任务平滑扩展的能力,体现了方法的鲁棒性和通用性。