本文介绍一项发表于ICLR 2025会议的研究论文《Pyramidal Flow Matching for Efficient Video Generative Modeling》,由北京大学、快手科技、北京邮电大学等机构的研究团队联合完成,通讯作者为Yadong Mu和Zhouchen Lin。该研究提出了一种新型视频生成建模框架——金字塔流匹配(Pyramidal Flow Matching),旨在解决当前视频生成模型在计算资源与数据需求方面的瓶颈。
视频生成模型需要建模巨大的时空空间,而传统扩散模型(Diffusion Models)或自回归模型(Autoregressive Models)在生成高分辨率长视频时面临计算成本高、数据需求大的问题。主流方法通过级联架构(Cascaded Architecture)分阶段生成低分辨率潜在表示再超分辨率重建,但其分离优化流程阻碍知识共享并牺牲灵活性。本研究基于两个关键观察:
1. 扩散模型的初始时间步噪声占主导,而高分辨率计算在早期阶段冗余;
2. 视频历史帧存在高冗余度,全分辨率条件导致训练效率低下。
因此,团队提出将生成轨迹重构为多尺度金字塔(Pyramid)序列,通过空间金字塔(Spatial Pyramid)和时间金字塔(Temporal Pyramid)联合优化,实现计算效率与生成质量的平衡。
研究基于流匹配(Flow Matching)框架,将标准噪声-数据插值轨迹分解为多阶段金字塔流:
- 空间金字塔:将生成过程分为K个阶段,仅最终阶段使用全分辨率。第k阶段潜在表示通过下采样因子2^k压缩,相邻阶段通过线性插值连接。关键公式如下:
$$x̂t = t′ \cdot \text{down}(x{ek}, 2^k) + (1-t′) \cdot \text{up}(\text{down}(x{sk}, 2^{k+1}))$$
其中,$t’$为归一化时间步,$\text{down}$和$\text{up}$分别为下采样与上采样函数。
- 再噪机制(Renosing):为保证跨分辨率阶段概率路径连续,在跳跃点添加修正高斯噪声,其协方差矩阵块结构设计为:
$$\sigma’{\text{block}} = \begin{pmatrix} 1 & -1⁄3 & -1⁄3 & -1⁄3 \ -1⁄3 & 1 & -1⁄3 & -1⁄3 \ -1⁄3 & -1⁄3 & 1 & -1⁄3 \ -1⁄3 & -1⁄3 & -1⁄3 & 1 \end{pmatrix}$$
实验表明该设计可最大程度保留信号并消除相关性。
针对视频时序冗余,团队提出渐进压缩历史帧作为条件:
- 历史帧按分辨率递减排列(如…→2^{k+1}→2^k→全分辨率当前帧),显著减少训练token数量(例如10秒视频从119,040 token降至≤15,360)。
- 采用块级因果注意力(Blockwise Causal Attention)确保时序依赖性,位置编码在空间维度外推、时间维度内插以对齐条件。
所有金字塔阶段通过单个扩散Transformer(DiT)端到端优化,损失函数统一为:
$$\mathbb{E}{k,t,(x̂{ek},x̂{s_k})} | v_t(x̂t) - (x̂{ek} - x̂{s_k}) |^2$$
使用3D-VAE(压缩比8×8×8)和混合开源数据集(LAION-5B、WebVid-10M等)训练,总耗时20.7k A100 GPU小时。
相比全序列扩散模型:
- 训练token减少至1/4^k(K=3时理论加速16^k/t倍);
- 生成768p/24fps的10秒视频仅需56秒(A100)。
在VBench和EvalCrafter基准测试中:
- VBench总分81.72,超越多数开源模型(如Open-Sora 1.2的79.76),动态程度指标(64.63)接近商业化模型Gen-3 Alpha(60.14);
- EvalCrafter最终和244分,视觉质量(67.94)显著优于VideoCrafter2(63.98)。
用户研究表明,在50条提示词生成视频中,63.5%参与者认为本模型运动平滑度优于Pika 1.0。
这项研究为高效视频生成提供了可扩展的解决方案,代码与模型已开源(https://pyramid-flow.github.io),或将推动生成式AI在视频领域的普惠化应用。