分享自:

Video-Bench:基于人类对齐的视频生成基准

期刊:IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

本文旨在介绍一篇发表于计算机视觉领域顶级会议CVPR(具体年份未在提供文本中明确给出,但根据内容推断应为近年)的学术论文。论文题为 “Video-Bench: Human-Aligned Video Generation Benchmark”

一、 主要作者与发表信息

该研究由一支国际化的研究团队共同完成。主要作者(按贡献同等重要的“*”标注)包括来自上海交通大学的Hui Han与Siyuan Li、斯坦福大学/Fellou AI/复旦大学的Jiaqi Chen、卡内基梅隆大学的Yiwen Yuan与Yuling Wu,以及其他多位来自北京大学、香港理工大学、苏州大学、格拉斯哥大学、香港城市大学、复旦大学、西湖大学、LiveX AI和新加坡国立大学的研究人员。通讯作者(†标注)为新加坡国立大学的Yongxin Ni教授。

论文以“开放获取版本”形式提供,表明其已正式被CVPR会议接收并发表,论文编号为18858。最终发表版本可于IEEE Xplore获取。

二、 研究背景与目的

科学领域: 本研究属于人工智能(AI)与计算机视觉(CV)的交叉领域,具体聚焦于生成式模型(Generative Models)的评价(Evaluation)方向,尤其是文本到视频(Text-to-Video, T2V)生成模型的评估基准(Benchmark)构建。

研究背景与动机: 近年来,生成模型在视频生成领域取得了突破性进展,出现了如Sora、Pika、Runway Gen-2等能够从文本描述生成动态、逼真视频的模型。然而,如何准确、可靠地评估这些生成视频的质量,成为一个日益紧迫的挑战。一个可靠的评估基准应能全面反映人类对视频内容的偏好:即人类偏好那些更符合输入文本条件(如物体、动作、颜色、场景描述,即“视频-条件对齐”度高)且具有更好美学质量和时间一致性(即“视频质量”高)的视频。

现有的自动化视频生成评估基准主要分为两类: 1. 传统基于度量与嵌入(Metrics and Embeddings)的基准: 例如VBench、EvalCrafter等,它们组合使用Inception Score、Fréchet Video Distance、CLIP嵌入等多种指标来评估视频质量和视频-文本对齐。这类方法提供了量化测量,但其评估结果常与人类偏好存在显著偏差。 2. 基于大语言模型(Large Language Model, LLM)的基准: 例如CompBench、T2V-Score等,利用LLM强大的语言理解和推理能力来模拟人类评估逻辑,显示出更好的对齐潜力。但当前方法存在两大关键局限:在评估“视频-条件对齐”时,LLM难以进行文本与视频内容之间的跨模态比较;在评估“视频质量”时,难以将模糊的文本批评准则转化为具体的评估分数。

研究目的: 为应对上述挑战,本研究旨在构建一个全新的视频生成评估基准——Video-Bench。其核心目标是建立一个能更好地与人类偏好对齐(Human-Aligned)的综合性评估体系。为了实现这一目标,本研究首次系统性地利用多模态大语言模型(Multimodal Large Language Model, MLLM)来覆盖视频生成评估的所有相关维度,并提出了创新的评估框架以解决现有LLM评估方法的不足。

三、 研究流程与方法详解

本研究的工作流程可概括为三个核心组成部分:构建评估维度套件(Evaluation Dimension Suite)与提示词套件(Prompt Suite)、设计基于MLLM的评估框架(Evaluation Framework)、进行大规模实验验证。

第一流程:构建评估维度与提示词套件 1. 评估维度定义: 研究将“视频生成质量”系统性地拆分为两大类别,共包含10个具体维度。 * 视频-条件对齐(Video-Condition Alignment): 评估生成视频是否符合文本指令的特定要求。包含5个维度,均采用基于难度的评分制(3点或5点量表): * 物体类别一致性(Object Class Consistency): 视频中物体是否与文本描述匹配,外观、结构、运动是否合理。 * 动作一致性(Action Consistency): 视频中的动作是否准确反映文本描述。 * 颜色一致性(Color Consistency): 物体颜色是否与描述一致且无突变。 * 场景一致性(Scene Consistency): 生成场景是否与文本描述对齐,元素是否清晰、逻辑、符合现实。 * 视频-文本一致性(Video-Text Consistency): 视频与文本在核心元素(人、物、动作、场景、风格、空间/数量关系等)上的整体一致性。 * 视频质量(Video Quality): 评估生成视频本身的视觉保真度。包含5个维度,均采用5点量表: * 成像质量(Imaging Quality): 单帧的技术质量,评估噪声、模糊、过曝等失真。 * 美学质量(Aesthetic Quality): 帧的艺术吸引力、构图、视觉协调性。 * 时间一致性(Temporal Consistency): 包含视觉特征(颜色、亮度、纹理)和语义(物体、主体、场景)在帧间的平滑过渡与稳定性。 * 运动质量(Motion Quality): 包含运动合理性(是否符合物理规律)和运动幅度(是否与描述意图相符)。

  1. 提示词套件构建: 为确保评估的全面性和针对性,研究设计了一个包含419个视频生成提示的套件。对于“动作一致性”、“时间一致性”和“运动质量”等动态相关维度,结合了Kinetics-400人类动作数据和VBench的刚体/动物运动数据。对于其他维度,则与VBench的对应提示保持一致。为减少视频生成模型的采样随机性带来的偏差,每个提示在实验中均采样生成3次视频。

第二流程:设计基于MLLM的自动化评估框架 为解决前述LLM评估的两大挑战(跨模态比较困难、文本准则模糊),研究提出了两大核心技术: 1. 链式查询(Chain-of-Query): 针对“视频-条件对齐”评估。该方法避免让MLLM直接进行困难的视频-文本跨模态比较,而是通过多轮交互,将视频内容逐步转化为详细的文本描述,再与原始文本提示进行比较。具体步骤包括: * 视频描述: MLLM首先生成视频的完整描述和一句话总结。 * 查询链生成: LLM根据第一步的视频描述和原始文本提示,生成一系列针对特定评估维度(如颜色)的细化问题。 * 回答链生成: MLLM重新审视视频,逐一回答上述问题,补充和修正初始描述。 * 最终评分: MLLM综合视频内容、多轮对话历史和文本评分准则,给出最终分数。这个过程通过迭代多视角的提问,实现了更细致、更准确的跨模态语义对齐评估。 2. 少样本评分(Few-Shot Scoring): 针对“视频质量”评估。由于“成像质量”、“美学质量”等维度的文本描述(如“中等美学质量”)边界模糊,直接让MLLM评分往往导致其给所有视频打平均分,缺乏区分度。为此,研究采用批量评估策略:将同一提示生成的多个视频(来自不同模型)组成一个批次,在评估其中某个视频时,批次内的其他视频及其分数作为隐式参考(多模态少样本),为MLLM提供了相对比较的基准,从而校准其评分尺度,提高了对质量差异的敏感度。

实验实施细节: 评估采用GPT-4o作为MLLM处理多模态(文本+视频帧)输入,GPT-4o-mini作为纯文本LLM。所有评估指令均由人工编写。

第三流程:实验验证与分析 1. 评估模型: 研究评估了4个开源模型(LaViE, Show-1, VideoCrafter2, CogVideoX)和3个商业模型(Pika-beta, Kling, Gen3),共计7个处于不同发展阶段的主流T2V模型,确保了评估的全面性。 2. 人类偏好标注: 为确保基准的“人类对齐”目标,研究招募了10名标注员对每个生成的视频进行手动评分。每个视频收集4个人类评分,总计获得35,196次人工评估。人类评估与MLLM评估遵循相同的量表和准则,并有人类专家进行质量把关。计算的人类评估者间一致性(Krippendorff‘s α)与其他研究相当,证明了标注数据的可靠性。 3. 对比实验: 将Video-Bench的评估结果与多种现有评估方法(如CLIP, FVD, CompBench等)在相同的提示套件上进行对比,通过计算斯皮尔曼等级相关系数来衡量它们与人类评分的一致性。 4. 消融实验(Ablation Study): 通过移除“链式查询”或“少样本评分”组件,验证了它们各自对提升人类对齐度的必要性。 5. 其他分析: 包括评估MLLM评分的稳定性(多次运行结果的一致性)、对微小扰动的鲁棒性、与成对比较(Pairwise Comparison)范式的成本/偏差对比、在不同基础MLLM(如GPT-4o, Gemini 1.5 Pro, Qwen2VL)上的表现差异,以及在简单与复杂提示下的性能一致性测试。

四、 主要研究结果与逻辑关系

  1. 评估模型性能排行榜(Leaderboard): 实验生成了Video-Bench的模型性能排行榜。数据显示,在总体排名上,商业模型Gen3和CogVideoX表现最佳,开源模型中VideoCrafter2领先。具体来看,在视频质量方面,Gen3在成像质量和时间一致性上得分最高;在视频-条件对齐方面,CogVideoX在视频-文本一致性上领先。这些结果为研究者对比不同模型的优劣提供了直观、多维度的参考。

  2. 人类对齐度超越现有方法: 这是本研究最核心的结果。如表2所示,Video-Bench提出的MLLM评估框架在所有10个评估维度上,与人类评分的斯皮尔曼相关系数均显著高于所有对比的现有方法(包括基于度量的和基于LLM的方法)。特别是在“视频-条件对齐”的各个子维度上,相比同样使用MLLM但采用单轮评估的CompBench,Video-Bench凭借“链式查询”机制平均提升了0.093的相关性,有力证明了该方法在增强跨模态语义比较能力上的有效性。

  3. 与人类评估的一致性: 分析表明,Video-Bench的MLLM评估者与人类评估者之间的一致性程度(平均Krippendorff‘s α为0.50),已经接近于人类评估者内部的一致性(平均α为0.52)。这意味着Video-Bench在相当程度上能够复现人类的集体判断。此外,研究还发现一个有趣现象:在语义相关的维度(如动作一致性)上,人类评估者之间的内部一致性相对较低(反映了人类主观偏好的差异),而Video-Bench的评估则表现出更稳定的趋势,甚至在“视频-文本一致性”维度上,加入MLLM评估后整体一致性有所提升。这表明基于MLLM的评估能够缓解人类评估中常见的感知偏差。

  4. 组件有效性的验证: 消融实验(表4)清晰表明,“少样本评分”使视频质量维度的人类对齐度平均提升了10.33%;“链式查询”则显著提升了视频-条件对齐各维度的相关性。这从数据上证实了所提出的两个创新组件对于解决各自对应挑战的关键作用。

  5. 框架的实用性与鲁棒性: 补充实验表明,Video-Bench的评估结果具有较高的稳定性(三次相同配置运行间评分高度一致),对不影响人类判断的微小视频扰动(如高斯模糊)具有鲁棒性(误差小于5%)。与成对比较范式相比,评分式范式在保持高人类对齐度的同时,具备线性评估复杂度和无位置偏差的优势。“少样本评分”的引入进一步解决了评分式范式对细微差异不敏感的问题。在不同基础MLLM上的测试表明,GPT-4o系列模型总体表现最佳,但不同版本间性能存在波动,提示了基准结果对模型版本的依赖性。

五、 研究结论与价值

本研究成功构建并验证了Video-Bench,一个基于多模态大语言模型、高度与人类偏好对齐的视频生成综合评估基准。其核心结论是:通过系统性地利用MLLM,并结合创新的“链式查询”和“少样本评分”技术,能够实现对文本到视频生成模型自动化、结构化、可扩展且高度可靠的评估,其评估结果在多个维度上与人类偏好展现出迄今为止最高的相关性。

科学价值: 1. 方法学创新: 提出了针对视频生成评估中“跨模态对齐”和“质量量化”两大核心难题的系统性解决方案(链式查询、少样本评分),为基于MLLM的视觉内容评估提供了新的技术思路和范式。 2. 基准贡献: 提供了目前维度最全面、标注规模大、且与人类判断高度对齐的公开视频生成评估基准,包含详尽的评估维度定义、大规模的提示词库和精确的人工标注数据,为后续研究设立了新的标准。 3. 深入洞察: 通过大量实验,揭示了MLLM在视频评估任务上的能力、优势与当前局限,为理解MLLM的跨模态理解与评判能力提供了实证依据。

应用价值: 1. 助力模型研发: 为视频生成模型的研究者与开发者提供了一个强大、高效、低成本的自动化评估工具,可替代部分昂贵且不稳定的人工评估,加速模型迭代与优化过程。 2. 促进公平比较: 统一的、人类对齐的基准有助于在学术界和工业界对不同视频生成模型进行公平、全面的横向比较,推动领域健康发展。 3. 标准化评估: 推动视频生成评估向更客观、更可解释、更贴近最终用户(人类)感受的方向发展。

六、 研究亮点

  1. 高度的人类对齐性: 这是Video-Bench最突出的亮点。其实验数据充分证明,其在所有评估维度上达到或超越了现有最佳方法的人类对齐水平,真正实现了“以人类偏好为准绳”的评估目标。
  2. 评估框架的创新性: 提出的“链式查询”和“少样本评分”并非简单的工程技巧,而是针对LLM/MLLM在特定评估任务上固有缺陷的深刻理解和巧妙设计,具有很好的普适性和启发性。
  3. 评估维度的系统性与细致性: 将视频生成质量分解为2大类、10个具体维度,涵盖从低层像素质量到高层语义一致性的各个方面,构建了一个层次清晰、覆盖完整的评估体系。
  4. 实验的严谨性与全面性: 研究不仅进行了核心的对齐度对比,还涵盖了消融实验、稳定性分析、鲁棒性测试、成本分析、模型泛化性测试等多个方面,论证扎实,结论可靠。
  5. 资源的开源性: 论文明确提供了GitHub仓库地址(https://github.com/video-bench/video-bench.git),意味着其基准数据、提示词套件及评估框架可能开源,这将极大促进该基准的广泛采用和社区发展。

七、 其他有价值内容

论文还提及了对前沿模型如Sora的评估(实验中进行了演示),表明该基准具备评估最先进模型的能力。同时,研究对评估中的位置偏差、评分稳定性等实际问题进行了探讨,体现了其面向实际应用的考量。参考文献部分也非常详尽,为读者深入了解相关领域提供了清晰的脉络。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com