分享自:

社交媒体的热门内容预测:基于霍克斯强度过程的建模与分析

期刊:International World Wide Web Conference Committee (IW3C2)DOI:10.1145/3038912.3052650

Hawkes强度过程预测社交媒体内容流行度研究报告

一、 主要作者与出版信息

本研究的核心作者团队包括Marian-Andrei Rizoiu†, Lexing Xie†, Scott Sanner‡, Manuel Cebrian†, Honglin Yu†, Pascal Van Hentenryck[。研究机构涉及澳大利亚国立大学(†)Data61 CSIRO(†)多伦多大学(‡) 以及密歇根大学([)。该项研究工作发表在2017年国际万维网大会(WWW 2017) 上,收录于其会议论文集,该会议于2017年4月3日至7日在澳大利亚珀斯举行。

二、 学术背景与研究目标

本研究属于计算社会科学、信息传播学以及数据科学交叉领域。研究旨在解决一个核心问题:如何精确量化在线内容的流行度与其所接受的外部推广之间的关系。尽管基于海量数据集的分析加深了我们对流行度的理解,但一个重要缺口依然存在:将来自公共社交媒体平台(如Twitter)的外生输入与内容平台(如YouTube)内的内生响应联系起来,并对此进行建模和预测。在此之前的研究通常将流行度动态描述为特定的原型(如幂律衰减或指数衰减),或聚焦于单一信息源的内部扩散,但未能很好地解释在持续外部影响下(例如不间断的社交媒体推广)如何出现复杂的、不符合既定原型的流行度升降模式。此外,现有方法难以判断内容在推广后是否具有病毒式传播潜力,也无法在已知或计划推广的前提下有效预测其未来的流行度增长。

因此,本研究提出了三个具体的研究目标:1)开发一个新的数学模型,用以解释在连续外部影响下复杂的流行度动态;2)提供一种方法,在考虑外部推广的前提下描述和识别具有病毒式传播潜力的内容;3)建立一个基于推广信息的未来流行度预测框架。

三、 详细研究流程与方法

本研究包含四个主要流程:模型提出与构建、数据集采集与处理、模型参数估计与验证、以及基于模型的潜力分析与预测评估。

流程一:提出Hawkes强度过程(HIP)模型 研究团队首先构建了新颖的数学框架——“Hawkes强度过程”。该模型的核心思想是将在线内容的流行度视为由外部驱动,即外部事件激活了社交环境内部的内生响应,而内生响应可能会也可能不会放大外部信号。HIP模型从经典的“Hawkes点过程”发展而来。传统Hawkes点过程常用于模拟具有自激效应的事件序列(如地震余震、推文转发),但它依赖于观测个体事件的精确发生时间,且计算复杂。为了克服在大规模应用中的挑战,本研究对Hawkes点过程的关键创新在于:对其随机事件历史取期望,从而直接描述预期的事件量(即每日观看量),而非单个事件时间。由此导出的HIP模型是一个线性时不变系统,其核心方程(简化)描述了在时间t的事件强度ξ(t): ξ(t) = μ * s(t) + c * ∫[0,t] ξ(t-τ) * (τ+c)^-(1+θ) dτ 其中,s(t)代表时间t的外生推广量(如每日推文提及数或分享数)。该模型包含几个关键视频相关参数:μ(外生敏感性,即对外部推广的响应强度)、θ(社交记忆衰减速率)、c和ĉ(模型内部常数)。此外,模型还考虑了未被观测到的外部影响,建模为一个初始冲击和持续的恒定背景激励。

流程二:构建与处理“被推特的视频”数据集 为了验证HIP模型,研究团队创建了一个全新的跨平台数据集,连接了YouTube视频与其在Twitter上的外部讨论。通过Twitter流API,他们在2014年5月29日至12月26日期间,收集了提及YouTube视频的10.6亿条推文,对应8190万个独立视频。对于每个视频,他们从YouTube API获取了元数据(如类别、上传日期)以及每日的观看量和分享量时间序列。同时,通过匹配推文中的视频ID,得到了每个视频的每日推文提及量。为了研究具有显著活动和推广历史的视频,他们构建了一个“活跃数据集”子集,筛选条件是:视频在线、至少有120天的完整历史记录、且在120天内至少获得100条推文和100次分享。最终的活跃数据集包含13,738个视频,涵盖14个类别(如音乐、游戏、电影动画等),用于后续所有建模、解释和预测实验。

流程三:模型参数估计与拟合验证 对于活跃数据集中的每个视频,研究使用其前90天的观看历史(ξ̄[t])和外生推广历史(s[t],可以是分享量或推文量)来估计HIP模型的参数(μ, θ, c, ĉ, γ, η)。具体方法是:通过数值优化算法(L-BFGS)最小化模型预测的观看强度序列ξ[t]与实际观测的每日观看序列ξ̄[t]之间的均方误差。这种基于日聚合数据的参数估计方法,规避了传统点过程模型需要海量个体事件数据的计算瓶颈。研究展示了HIP模型能够紧密拟合各种具有复杂生命周期(多次起落)的视频流行度曲线,包括一个巴西音乐视频和一个新闻视频,其拟合优度远超过仅能模拟单一衰减模式的现有模型。这证实了HIP在捕捉外生与内生效应持续交互方面的有效性。

流程四:内生-外生分析与预测评估 基于拟合好的HIP模型,研究团队进行了两个关键应用分析。首先,他们利用HIP模型的线性时不变系统属性,推导出两个新的度量指标:外生敏感性μ内生响应a_ξ̂。μ衡量视频对外部刺激的敏感程度,而a_ξ̂代表一个单位的外生激励所能触发的总观看量,量化了视频内容自身的“病毒性”潜力。这两个指标构成了一个二维可视化工具——“内生-外生地图”。在该地图上,可以直观地比较视频,解释其流行度差异:位置相近(μ和a_ξ̂相似)的视频,其流行度差异主要归因于实际获得的外部推广量不同;而获得相似推广量的视频,其流行度差异则可由它们在μ和a_ξ̂维度上的位置来解释。研究还发现,不同类别最受欢迎视频的驱动因素不同:例如,电影动画类热门视频往往具有更高的外生敏感性,而游戏类热门视频则表现出更强的内生响应。此外,地图还能识别出“不可推广”的视频(即μ*a_ξ̂值极低的视频),对这些视频进行推广预计效果甚微。

其次,研究评估了HIP模型在已知未来推广情况下的流行度预测能力。实验设计为:使用每个视频前90天的数据训练HIP模型,然后利用其第91至120天实际发生的推广数据(分享或推文),通过模型预测这30天的观看量增长。预测性能的评估指标是“百分位误差”,即将预测的总观看量映射到由实际数据构建的“流行度百分位刻度”上,然后计算与真实百分位的绝对误差。基线方法采用当前最先进的基于历史流行度的多元线性回归方法,并增强了将外生推广量作为特征输入的版本作为对比。

四、 主要研究结果

  1. 模型验证结果:HIP模型能够精确拟合具有复杂多阶段动态的YouTube视频观看历史,包括那些无法用现有幂律或指数衰减原型解释的案例。这证明了HIP模型在数学上成功地将外生推广与内生社会扩散效应联系了起来。
  2. 内生-外生地图分析结果:通过地图分析,研究证实了视频流行度是由外生推广量(地图中点的颜色深浅)与视频自身的内生响应和外生敏感性(点的二维位置)共同决定的。这为理解“为什么有些视频能爆火而有些不能”提供了细粒度的解释框架。研究识别出了一类具有高μ和高a_ξ̂但尚未流行的视频,它们被认为具有极高的病毒式传播潜力,一旦获得推广就可能跃升为热门内容(论文中给出了一个在预测期后观看量激增数百万的实例)。
  3. 流行度预测结果:在活跃数据集上的预测实验表明,HIP模型显著优于基线方法。使用分享数据作为外生输入的HIP模型,其平均百分位误差为4.96%,而使用相同信息的增强版多元线性回归方法的平均误差为6.94%。这意味着HIP模型将平均预测误差降低了28.6%,且该差异具有统计显著性。在那些预测期内经历巨大外部冲击的“困难”视频上,HIP的性能优势更为明显。
  4. 关于因果性的说明:研究者指出,HIP是一个带有反馈回路的线性控制系统,在系统意义上是因果的(未来事件不会影响过去),但它并不等同于在存在混杂因素下推断控制变量是否改变响应变量的因果推断范式。尽管如此,他们进行了格兰杰因果检验,但并未在分享与观看系列之间得到一致的方向性结论。

五、 研究结论与价值

本研究通过提出Hawkes强度过程,首次系统地建立了一个数学模型,将社交系统的内生响应与外生刺激持续地联系起来。其主要贡献在于: * 理论贡献:提出了一个基于量的Hawkes过程模型,能够解释由内生和外生效应复杂交互产生的多阶段流行度动态。 * 方法贡献:定义了“外生敏感性”和“内生响应”两个新指标,并构建了“内生-外生地图”这一强大的可视化分析工具,用于比较、解释视频流行度并识别潜在病毒式内容。 * 应用贡献:开发了一种在已知推广计划下预测未来流行度增益的方法,并在大规模数据集上验证了其优越性。 * 数据贡献:发布了连接YouTube视频与Twitter讨论的新数据集,为相关研究提供了宝贵资源。

该研究的科学价值在于深化了对在线信息传播机制的理解,特别是量化了外部干预与内部网络效应之间的动态关系。其应用价值则体现在为内容生产者、营销者和平台提供了一种基于数据的、可量化的工具,用于评估推广活动的预期效果、识别高潜力内容以及优化资源配置策略。

六、 研究亮点

  1. 模型创新性:首次将Hawkes点过程的思想应用于对日聚合观看量的建模,通过取期望解决了大规模应用的计算难题,并明确引入了持续的外部输入源。
  2. 分析框架新颖:提出的“内生-外生地图”将复杂的流行度驱动因素简化为两个直观、可度量的维度,为理解和比较内容传播潜力提供了强大的概念工具。
  3. 预测性能突破:首次实现了在给定具体推广计划下的流行度增长预测,并显著超越了仅依赖历史数据的传统方法,展示了模型的实际应用潜力。
  4. 跨平台数据整合:研究基于一个精心构建的大规模跨平台(Twitter-YouTube)数据集,使量化外部讨论对内部流行度的影响成为可能。

七、 其他有价值内容

研究者指出了模型的若干局限性,为未来工作指明了方向。例如,HIP模型主要捕捉反映在观测到的外部推广系列中的动态,未明确考虑每日/每周季节性等因素。模型关注的是对所有用户的平均影响,而非个体用户的影响力差异。此外,线上内容可能受到多种未观测到的外部来源影响(如特定主题论坛)。如何追踪和估计这些多样甚至未知的外生影响源,是另一个开放的研究问题。这些讨论为后续研究提供了清晰的改进路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com