分享自:

基于合成视频的视觉语言时序对齐基准研究

期刊:CVPR

这篇文档属于类型a,是一篇关于视觉-语言时序对齐(vision-language temporal alignment)的原创研究论文。以下是针对该研究的学术报告:


作者及发表信息

本研究由Hao Du(中国科学技术大学)、Bo Wu(MIT-IBM Watson AI Lab)、Yan Lu(香港中文大学)和Zhendong Mao(中国科学技术大学,通讯作者)合作完成,发表于计算机视觉领域顶级会议CVPR(具体年份未明确标注,但根据引用文献推测为2024年左右)。项目主页为https://svlta-ai.github.io/svlta


学术背景

研究领域:多模态大语言模型(Multimodal Large Language Models, MLLMs)中的视频-语言时序对齐问题,属于计算机视觉与自然语言处理的交叉领域。

研究动机:现有研究多关注视觉与语言的语义相关性,但存在三大局限性:
1. 时序分布偏差(temporal distribution bias):真实数据集中动作的时间分布不均衡;
2. 标注不精确:人工标注的时序标签存在主观性和模糊性;
3. 组合性不足(compositionality):缺乏对动作组合的时序关系建模。

研究目标:开发一个合成基准SVLTA(Synthetic Vision-Language Temporal Alignment),通过可控的生成方法评估模型在时序对齐任务中的能力,包括时序问答(temporal question answering)、分布偏移敏感性(distributional shift sensitiveness)和时序适应(temporal alignment adaptation)。


研究流程与方法

1. 现有数据集分析

  • 分解视角:提出从过程(process)、组合(composition)、实体(entity)三个层次分析时序偏差,并设计新指标Temporal Jensen-Shannon Divergence (TJSD)量化分布偏差。
  • 数据统计:对比了TACoS、ActivityNet Captions等主流数据集,发现其TJSD值显著高于SVLTA(例如Charades-STA的动词级偏差为0.739,而SVLTA仅0.266)。

2. SVLTA基准构建

通过以下步骤生成合成数据:
1. 合成视频生成
- 组件初始化:在虚拟环境VirtualHome中定义96种动作、7种场景和6类角色。
- 常识活动图(commonsense activity graph):基于动作间的逻辑关系(如“开关冰箱”需先“打开”后“关闭”)生成合理动作链,通过DFS/BFS遍历优化多样性。
- 时序控制策略
- 动作时长多样性(Action Duration Diversity, ADD):通过调整帧率控制动作持续时间;
- 动作排列(Action Permutation, AP):打乱动作顺序以覆盖不同时序位置。

  1. 语言描述生成

    • 使用模板将动作链转化为句子(如“女性走向厨房的冰箱”),并通过GPT-3.5优化表述自然性。
  2. 时序对齐标注

    • 利用VirtualHome自动记录动作的开始/结束时间,与语言描述精确匹配,避免人工标注噪声。
  3. 全局过滤

    • 提出不等式约束全局过滤(Inequality Constrained Global Filtering, ICGF),通过非线性优化平衡数据分布,过滤样本后TJSD降低至0.073(过程级)。

3. 实验设计

  • 评估任务
    1. 时序问答:测试模型回答如“抓取薯片的起止时间”等问题的能力;
    2. 分布偏移敏感性:在偏差训练集和平衡测试集上比较模型性能差异;
    3. 时序适应:评估模型在新场景(如Charades-STA)中的迁移能力。
  • 评估模型:包括开源模型(Video-LLaMA、Video-ChatGPT)和闭源模型(GPT-4o、Gemini 1.5 Pro),以及专用时序对齐模型(如VSGN、QD-DETR)。

主要结果

  1. 时序问答
    • 现有模型表现普遍较差,最佳模型VTimeLLM的mIoU仅10.29,闭源模型GPT-4o为18.90,表明当前MLLMs缺乏时序对齐能力。
  2. 分布偏移敏感性
    • 去偏模型DCM(基于因果推理)的鲁棒性反而低于传统方法(RC=17.86),而数据增强方法Shuffling表现最佳(RC=1.04)。
  3. 时序适应
    • Transformer架构的QD-DETR迁移性能最优(mIoU=22.32),优于锚点法(如2D-TAN的11.8)。

结论与价值

科学价值
1. 首次从分解视角量化了时序偏差,提出TJSD指标;
2. 通过合成数据解决了真实数据集的标注噪声和分布偏差问题;
3. 揭示了当前MLLMs在时序理解上的缺陷,为后续研究提供方向。

应用价值
SVLTA可作为诊断工具,优化视频摘要、智能监控等需精确时序对齐的场景。


研究亮点

  1. 创新方法:结合常识活动图和可控时序生成,实现了高质量合成数据;
  2. 全面评估:涵盖三类任务,对比了12种模型;
  3. 开源资源:提供25.3K视频、77.1K标注的大规模基准。

其他价值

  • 提出的ICGF方法可泛化至其他需平衡数据分布的任务;
  • 实验发现Transformer架构在时序迁移中具有优势,为模型设计提供新启示。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com