这篇文档属于类型a,即报告了一项原创研究。以下是针对该研究的学术报告:
该研究的主要作者包括Haipeng Zeng、Xingbo Wang、Aoyu Wu、Yong Wang、Quan Li、Alex Endert和Huamin Qu。他们分别来自香港科技大学、微众银行AI组和乔治亚理工学院。该研究发表于2019年的IEEE Transactions on Visualization and Computer Graphics期刊。
情感在人类交流和公共演讲中扮演着关键角色。人类情感通常通过多种模态(如面部表情、语音和文本)表达。因此,探索多模态情感及其一致性对于理解演讲中的情感表达和提升演讲技巧具有重要意义。然而,手动观看和分析演讲视频通常耗时且繁琐,缺乏工具支持以进行高效且深入的多层次分析。为此,作者提出了EmoCo系统,一个交互式可视化分析系统,旨在帮助用户分析演讲视频中面部、文本和语音模态之间的情感一致性。
研究流程主要包括以下几个步骤:
数据处理:
研究首先从TED演讲视频中提取情感信息,涉及面部、文本和语音三个模态。面部情感通过Microsoft Azure Face API进行检测,文本情感通过IBM Watson Tone Analyzer进行分析,语音情感则通过神经网络模型提取MFCC(梅尔频率倒谱系数)特征并进行分类。
数据融合阶段,研究将不同模态的情感信息根据语义进行对齐,并在句子、单词和帧三个时间粒度上进行融合。最终,每个TED演讲视频被描述为原始视频、每帧的面部情感、每段文本和语音的情感信息,以及每个句子、单词和帧的对齐情感信息。
任务分析:
研究通过与两位专业演讲教练的合作,基于用户中心设计流程,提炼出一系列可视化任务。这些任务包括视频级别的探索(如总结视频情感信息)、句子级别的探索(如总结句子情感一致性)以及单词/帧级别的探索(如揭示情感表达的转变点)。
系统设计:
EmoCo系统包括五个视图:视频视图、通道一致性视图、细节视图、句子聚类视图和单词视图。视频视图用于总结视频情感信息,通道一致性视图通过增强的桑基图(Sankey Diagram)展示句子级别的情感一致性,细节视图支持对选定句子的详细探索,句子聚类视图展示情感一致性的时间演变,单词视图则支持单词级别的定量分析。
可视化设计:
系统设计遵循“概览优先,逐步深入”的原则,支持多层次探索。通道一致性视图通过桑基图展示不同模态之间的情感连接,细节视图则通过条形码图(Barcode Chart)展示情感信息的详细分布。句子聚类视图通过时间曲线设计展示情感一致性的时间演变,单词视图则通过堆叠条形图展示单词的情感分布。
用户交互:
系统支持多种交互功能,如点击、刷选、搜索和排序,帮助用户快速定位感兴趣的视频、句子或单词,并进行详细分析。
研究通过两个使用场景和专家访谈验证了EmoCo系统的有效性。在第一个场景中,用户通过系统发现了一个情感表达丰富的TED演讲视频,并分析了其情感一致性的动态变化。在第二个场景中,用户通过系统找到了一个以中性面部表情讲述幽默内容的视频,并分析了其演讲风格。
专家访谈结果显示,用户对系统的可视化设计和交互功能给予了高度评价,认为其能够有效支持演讲视频的情感分析。
EmoCo系统通过多模态情感分析,帮助用户深入理解演讲视频中的情感一致性及其时间演变。该系统不仅为演讲教练提供了定量分析工具,还为情感识别算法的性能评估提供了新的思路。
研究还探讨了情感一致性计算的局限性,并提出了未来研究方向,如支持更多模态(如手势)的分析,以及结合先进的数据挖掘技术以增强分析能力。
通过该研究,作者为多模态情感分析领域提供了重要的工具和方法,推动了演讲分析和情感识别技术的发展。