分享自:

人工智能赋能的劝说性视频生成:综述

期刊:ACM Computing SurveysDOI:10.1145/3588764

这篇文档属于类型b(综述论文)。以下是针对该文档的学术报告:


AI赋能的 persuasive video generation(说服性视频生成)研究综述:跨学科框架与未来方向
作者:Chang Liu 和 Han Yu(新加坡南洋理工大学计算机科学与工程学院)
发表于:ACM Computing Surveys, 2023年7月, 文章编号285

研究背景与主题

随着电子商务和社交媒体推广的普及,说服性视频(persuasive video)成为影响用户行为(如购物决策、健康生活方式采纳)的重要媒介。传统视频制作依赖专业团队,成本高且难以规模化。近年来,AI赋能的 persuasive video generation(AIPVG) 领域兴起,旨在通过人工智能技术自动化生成具有说服力的视频内容。然而,AIPVG涉及计算机科学、社会科学、电影理论等多学科交叉,新研究者难以快速掌握其核心技术与挑战。本文首次提出系统性综述,填补了这一空白。

主要观点与论据

1. AIPVG的三步分类框架

作者提出全新分类法,将AIPVG流程分为以下三步:
- 视觉素材理解(Visual Material Understanding)
从输入的图像或视频片段(Visual Materials, VMs)中提取与推广目标相关的信息,包括:
- 视觉表征学习:从传统特征工程(如SIFT、SURF)到深度学习(分类CNN、深度度量学习DML),再到代理损失(Proxy-based Loss)和基于对的损失(Pair-based Loss)优化。
- 认知属性评估(Cognitive Property Assessment, CPA):通过CNN或Transformer模型预测VMs的情感(emotion)美学(aesthetics)记忆性(memorability),这些属性通过中心路径(信息充分性)和边缘路径(视觉吸引力)增强说服力(基于Elaboration Likelihood Model, ELM理论)。
*支持数据*:表1和表2对比了不同CPA模型的性能(如FI数据集上情感分类准确率最高达75.46%)。

  • 视觉叙事生成(Visual Storyline Generation, VSG)
    根据VMs的信息和认知属性,筛选并排序以构建故事线。分为三类方法:

    • 时空驱动法:利用时间/地理位置信息排序(如旅行照片生成视频),但依赖元数据,不适用于电商场景。
    • 数据驱动法:通过监督学习(如RNN序列预测)或无监督学习(如视频片段时序推理)生成故事线,但缺乏针对说服性视频的公开数据集。
    • 知识驱动法:结合叙事理论(如故事动态性曲线)、说服理论(如Wundt曲线模拟刺激强度与说服效果的关系)和电影制作原则(如镜头由远及近的逻辑)。
      *案例*:Liu等(2023)提出可学习的Wundt曲线(LWC)模型,将信息性、吸引力和情感分数融合为综合说服力评分。
  • 后期制作(Post-Production)
    通过背景音乐生成/推荐(如跨模态检索模型CMVAE)和静态图像动画化(如视频姿态迁移技术MonkeyNet)提升观看体验。
    *挑战*:过度后期可能损害信息准确性(如动画生成错误信息)。

2. 评估方法与数据集

  • 视觉表征评估:采用Recall@kR-precision等指标,数据集包括DeepFashion(23.9万张服装图像)和Stanford Online Products(5.9万张家具图像)。
  • CPA评估:依赖Spearman相关系数(SPCC)平均绝对误差(MAE),数据集涵盖FI(情感分类)、AVA(美学评分)和VideoMem(视频记忆性)。
  • 在线测试:通过A/B测试(如电商平台GMV指标)或众包平台(如Amazon MTurk的成对比较)验证视频说服效果。

3. 未来研究方向

作者提出七大挑战:
1. 视觉表征学习
- 扩展代理度量学习(Proxy-based DML)的规模,解决类别过多时的计算成本问题。
- 开发抗标签噪声的DML模型(图3展示了电商数据中常见的标签噪声示例)。
2. 视觉叙事生成
- 构建电商推广视频专用数据集,支持数据驱动方法。
- 个性化叙事生成(基于Persuasion Knowledge Model, PKM理论)。
3. 后期制作
- 端到端背景音乐生成(需解决版权问题)。
- 个性化字幕生成(结合图像描述技术)。

论文价值与意义

  1. 学术价值:首次系统梳理AIPVG的跨学科框架,为后续研究提供清晰的技术路线图。
  2. 应用价值:指导电商平台开发低成本、高说服力的自动化视频生成工具。
  3. 方法论创新:提出的三步分类法和LWC模型为多模态内容生成研究提供了新范式。

亮点总结

  • 首创性:首个AIPVG领域的全面综述。
  • 跨学科整合:将社会心理学(ELM/PKM)与计算机视觉技术深度结合。
  • 实用导向:强调真实场景挑战(如标签噪声、版权问题)和解决方案。

(注:全文约2000字,涵盖原文核心内容与结构,符合学术报告要求。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com