这篇文档属于类型a,即报告一项原创研究的学术论文。以下是针对该研究的详细学术报告:
作者及机构
本研究的核心作者团队包括:Chang Liu(第一作者,*并列贡献)、Yunfan Ye(*并列贡献)、Fan Zhang、Qingyang Zhou、Yuchuan Luo和Zhiping Cai(†通讯作者)。主要研究机构为National University of Defense Technology(国防科技大学)和Hunan University(湖南大学)。论文发表于计算机视觉领域的顶级会议ICCV(International Conference on Computer Vision),并标注为开放获取版本。
科学领域与问题背景
随着生成式模型(如扩散模型)的快速发展,合成视频(尤其是模拟人类行为的视频)的逼真度显著提升,但同时也带来了信息安全和真实性验证的挑战。现有研究主要集中在二分类(真/假视频检测)或人脸伪造检测,但缺乏对伪造类型的细粒度分析,限制了检测的可靠性和可解释性。
研究动机
作者指出,现有方法无法区分伪造视频的具体异常类型(如空间、外观或运动异常),而这类区分对实际应用(如虚假内容溯源、模型缺陷诊断)至关重要。基于此,团队提出HumanSAM框架,首次将伪造视频分类扩展为多类别任务,涵盖三种人类中心异常类型:
1. 空间异常(Spatial Anomaly):违反几何交互逻辑(如手穿透物体);
2. 外观异常(Appearance Anomaly):语义不一致(如人物年龄突变);
3. 运动异常(Motion Anomaly):非自然的运动模式(如头部与身体错位)。
研究目标
- 构建首个公开的Human-centric Forgery Video (HFV)数据集,涵盖三类异常标注;
- 提出融合视频理解与空间深度特征的双分支框架,提升分类鲁棒性;
- 设计基于排名的置信度增强策略,优化模型对困难样本的敏感性。
数据来源与处理
- 合成视频:从9个主流视频生成模型(如Minimax、Gen-3、Kling等)筛选人类行为视频,共6,570段,分辨率≥224×224。
- 真实视频:源自Kinetics-400(K400)数据集,810段。
- 多样性控制:覆盖20类背景和80类人类活动,确保数据代表性。
半自动标注流程
- 评分机制:利用预训练模型生成三类异常分数:
- 空间异常:基于单目深度估计(Depth Pro模型)与光流(RAFT)计算深度畸变误差;
- 外观异常:使用CLIP和DINOv2模型评估主体与背景一致性;
- 运动异常:通过光流失真误差量化运动合理性。
- 标签分配:根据分数排名自动分配主导异常类型,人工复核确保准确性。
- 数据集划分:每类异常前20%高分样本作为验证集,其余80%为训练集。
模型架构
- 视频理解分支(Video Understanding Branch):基于InternVideo2模型,提取时空一致性特征,通过注意力池化(Attention Pooling)和平均池化(Average Pooling)融合全局信息。
- 空间深度分支(Spatial Depth Branch):基于Depth Pro模型编码深度图,捕捉空间几何异常。
- 动态融合策略:学习参数α加权融合双分支特征,生成最终表征(Human Forgery Representation, HFR)。
在HFV数据集上,HumanSAM的平均准确率(ACC)达69.8%,AUC达88.0%,显著优于现有方法(如TimeSformer ACC 64.0%,MM-Det AUC 84.5%)。具体表现:
- 空间异常检测:在CogVideoX-5b数据集上ACC 75.6%,依赖深度特征的有效性;
- 运动异常检测:在Kling数据集上AUC 87.5%,验证光流分析的鲁棒性。
即使合并异常类别,HumanSAM在真实/伪造二分类任务中仍保持97.8% ACC和99.9% AUC,表明细粒度分类未牺牲基础性能。
对高斯模糊(σ=3)、JPEG压缩(Q=50)等后处理的AUC降幅≤3.9%,证明模型对扰动的稳定性。
科学意义
- 首次系统定义了人类中心伪造视频的细粒度异常类型,为生成模型缺陷分析提供理论框架;
- 提出的双分支融合和排名增强策略,为多模态特征融合与困难样本学习提供了新思路。
应用价值
- HFV数据集填补了细粒度伪造检测的基准空白;
- HumanSAM可应用于虚假内容审核、生成模型优化等场景,提升检测可解释性。
其他贡献
- 公开了完整的HFV数据集构建流程,包括评分算法与验证标准,推动领域标准化发展。
此研究为生成式视频检测领域提供了重要的方法论和基准资源,其技术路线与结论对后续工作具有广泛参考价值。