分享自:

Shot2Story:多镜头视频全面理解的新基准

期刊:iclr 2025

这篇文档属于类型a,是一篇关于原创研究的学术论文。以下是针对该研究的详细学术报告:


Shot2Story:多镜头视频理解新基准的研究报告

作者与机构
本研究由Mingfei Han(澳大利亚悉尼科技大学ReLER实验室、MBZUAI计算机视觉系)、Linjie Yang(字节跳动)、Xiaojun Chang(MBZUAI计算机视觉系、中国科学技术大学)、Lina Yao(CSIRO Data61)和Heng Wang(字节跳动)共同完成,发表于ICLR 2025会议。


学术背景
研究领域:该研究属于多模态视频理解领域,聚焦于多镜头(multi-shot)短视频的语义解析任务。
研究动机:现有视频描述数据集(如MSRVTT、ActivityNet-Caps)虽支持多事件标注,但存在两大局限:1)标注粒度粗糙,通常为整段视频的全局描述;2)忽视镜头(shot)作为视频的基本叙事单元,尤其是镜头间的事件关联性。此外,音频旁白(narration)与视觉信号的协同理解尚未被系统建模。
研究目标:提出新基准Shot2Story,通过细粒度的镜头级标注(视觉描述、旁白文本)、视频摘要和问答对,推动多镜头视频的全面理解。


研究流程与方法
1. 数据构建
- 数据来源:从HDVILA-100M公开数据集中筛选42,958段10-40秒的短视频,平均每段含4.4个镜头。
- 筛选标准
- 镜头数量≤8,避免幻灯片类低质量内容;
- 视觉-音频相关性(CLIP嵌入相似度>0.25);
- 相邻镜头差异性(余弦相似度<0.9);
- 动态内容检测(PySceneDetect过滤静态镜头)。

2. 标注流程
- 镜头分割:使用TransNetV2算法自动划分镜头边界。
- 单镜头标注
- 视觉描述:基于MiniGPT-4生成初始描述,人工修正对象、动作等细节(80%标注需修正);
- 旁白描述:人工撰写与视觉内容关联的语音文本,标注说话者身份及所指对象。
- 视频摘要生成
- 输入镜头描述和ASR文本,通过GPT-4生成连贯摘要;
- 人工验证场景/主体连贯性(40%摘要需修正)。
- 问答对构建
- 基于摘要生成三类问题(时序相关、全局理解、音频相关);
- 人工过滤可被现有模型(如Video-LLaVA)正确回答的简单问题,最终保留11,370对QA。

3. 任务设计
- 单镜头视频描述:联合视觉与旁白生成镜头级文本。
- 多镜头视频摘要:基于镜头结构生成事件演进的长文本。
- 多镜头视频问答:测试模型对跨镜头时序、主题、音视频关联的理解。

4. 基线模型开发
- 架构:冻结视觉编码器(ViT-G/14或UMT-L)+可训练Q-Former+大型语言模型(Vicuna-7B)。
- 创新方法
- Sum-Shot模型:显式输入镜头结构和ASR文本,通过多镜头token排列增强时序建模;
- 零样本QA适配:将视频摘要输入Vicuna-13B直接生成答案,无需指令微调。


主要结果
1. 单镜头描述任务
- 加入ASR文本使CIDEr指标提升35%(MiniGPT4-C: 25.1→35.9);
- VideoChat2-C模型表现最佳(CIDEr=43.9),显示视频预训练的重要性。

2. 多镜头摘要任务
- Sum-Shot模型显著优于非镜头结构模型(CIDEr: 7.6 vs. 2.8);
- 镜头结构建模使摘要更准确描述事件过渡(如”镜头转回厨房”等时序短语增加62%)。

3. 视频问答任务
- 零样本QA:在MSRVTT-QA和ActivityNet-QA上,摘要驱动的方法超越6个现有VLMs中的5个(MSRVTT准确率58.5%);
- 领域外泛化:对长达104秒的ActivityNet视频仍保持47.1%准确率,验证摘要的泛化能力。


结论与价值
科学价值
1. 首次系统定义多镜头视频理解的三个层级任务(镜头描述、跨镜头摘要、关联问答);
2. 证明镜头结构显式建模对时序推理的关键作用(Sum-Shot比Sum-Holistic CIDEr提升171%)。

应用价值
1. 为广告分析、教学视频解析等需细粒度事件理解的任务提供基准;
2. 摘要驱动QA方案降低对大规模指令数据的依赖,适合实际部署。


研究亮点
1. 标注创新:首个同时提供视觉描述、旁白文本、镜头结构摘要的数据集;
2. 方法创新:Sum-Shot模型通过镜头token序列实现可解释的事件关联建模;
3. 发现创新:证实视频摘要可作为通用表征,支持零样本跨任务迁移(如QA)。

局限与展望
当前摘要仍存在细节遗漏(如小物体描述),未来可结合扩散模型增强细粒度生成能力。数据集已开源(GitHub/bytedance/shot2story),涵盖12个视频类别(如新闻、体育),推动多模态社区发展。


(报告字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com