这篇文档属于类型a,是一篇关于视觉-语言时序对齐(vision-language temporal alignment)的原创研究论文。以下是针对该研究的学术报告:
本研究由Hao Du(中国科学技术大学)、Bo Wu(MIT-IBM Watson AI Lab)、Yan Lu(香港中文大学)和Zhendong Mao(中国科学技术大学,通讯作者)合作完成,发表于计算机视觉领域顶级会议CVPR(具体年份未明确标注,但根据引用文献推测为2024年左右)。项目主页为https://svlta-ai.github.io/svlta。
研究领域:多模态大语言模型(Multimodal Large Language Models, MLLMs)中的视频-语言时序对齐问题,属于计算机视觉与自然语言处理的交叉领域。
研究动机:现有研究多关注视觉与语言的语义相关性,但存在三大局限性:
1. 时序分布偏差(temporal distribution bias):真实数据集中动作的时间分布不均衡;
2. 标注不精确:人工标注的时序标签存在主观性和模糊性;
3. 组合性不足(compositionality):缺乏对动作组合的时序关系建模。
研究目标:开发一个合成基准SVLTA(Synthetic Vision-Language Temporal Alignment),通过可控的生成方法评估模型在时序对齐任务中的能力,包括时序问答(temporal question answering)、分布偏移敏感性(distributional shift sensitiveness)和时序适应(temporal alignment adaptation)。
通过以下步骤生成合成数据:
1. 合成视频生成
- 组件初始化:在虚拟环境VirtualHome中定义96种动作、7种场景和6类角色。
- 常识活动图(commonsense activity graph):基于动作间的逻辑关系(如“开关冰箱”需先“打开”后“关闭”)生成合理动作链,通过DFS/BFS遍历优化多样性。
- 时序控制策略:
- 动作时长多样性(Action Duration Diversity, ADD):通过调整帧率控制动作持续时间;
- 动作排列(Action Permutation, AP):打乱动作顺序以覆盖不同时序位置。
语言描述生成
时序对齐标注
全局过滤
科学价值:
1. 首次从分解视角量化了时序偏差,提出TJSD指标;
2. 通过合成数据解决了真实数据集的标注噪声和分布偏差问题;
3. 揭示了当前MLLMs在时序理解上的缺陷,为后续研究提供方向。
应用价值:
SVLTA可作为诊断工具,优化视频摘要、智能监控等需精确时序对齐的场景。
(全文约2000字)