分享自:

基于流行病学知识的鲁棒谣言检测网络

期刊:Proceedings of the ACM Web Conference 2025 (WWW '25)DOI:10.1145/3696410.3714610

类型a:学术研究报告

作者及机构
本研究的作者包括Wei Jiang、Tong Chen、Xinyi Gao(均来自澳大利亚昆士兰大学)、Wentao Zhang(北京大学)、Lizhen Cui(山东大学)以及通讯作者Hongzhi Yin(昆士兰大学)。该研究发表于2025年的ACM Web Conference(WWW ‘25),论文标题为《Epidemiology-Informed Network for Robust Rumor Detection》。

学术背景
研究领域为社交媒体中的谣言检测(rumor detection),属于数据挖掘(data mining)与图神经网络(Graph Neural Networks, GNNs)的交叉领域。社交媒体的普及加速了虚假信息的传播,传统基于文本的谣言检测方法(如RNN、CNN、Transformer)仅依赖语言特征,而忽略了信息传播的结构模式。近年来,图神经网络被用于建模谣言的传播树(propagation tree),但其性能受限于传播树的深度:浅层树因交互数据不足导致特征提取困难,深层树则因用户响应噪声干扰预测准确性。

为解决这一问题,本研究提出了一种结合流行病学(epidemiology)理论的框架——流行病学信息网络(Epidemiology-Informed Network, EIN),通过模拟谣言传播的动态过程(如未知、支持、否认三种状态转换)增强模型鲁棒性。研究目标包括:(1)揭示现有图神经网络模型在不同传播树深度下的性能缺陷;(2)设计一种融合流行病学原理的通用框架,兼容现有图基检测器;(3)利用大语言模型(Large Language Model, LLM)生成用户立场标签(stance labels),避免人工标注成本。

研究流程
1. 问题定义与数据集构建
- 将谣言检测建模为二分类任务,输入为传播树 ( G_i = {V_i, E_i, X_i} ),其中 ( V_i ) 为节点(帖子),( E_i ) 为边(交互关系),( X_i ) 为节点特征(Word2Vec嵌入)。
- 使用三个公开数据集:DRWeibo(6037条)、Weibo(4664条)、PHEME(5748条),覆盖中英文,按6:2:2划分训练/验证/测试集。

  1. 流行病学模型设计

    • 提出环境未知-支持-否认模型(Environmental Unknown-Support-Denial, EUSD),其微分方程描述状态转换:
      [ \frac{dU}{dt} = -\alpha U e - \beta U e, \quad \frac{dS}{dt} = \alpha U e, \quad \frac{dD}{dt} = \beta U e ]
      其中 ( \alpha, \beta ) 为转移概率,( e ) 为根帖环境影响率(简化为1)。
    • 离散化模型并编码为状态嵌入(( U_t, S_t, D_t )),通过可学习参数 ( W_u, W_s, W_d ) 迭代更新。
  2. LLM辅助立场标注

    • 使用Gemma 2-9B生成用户响应帖的立场标签(正面/负面),通过算法1构建传播路径上的状态标签(支持/否认)。例如:若父节点为根帖,直接映射立场;否则通过异或操作继承父节点状态。
    • 标注仅用于训练阶段,避免推理时的计算开销。
  3. 联合优化与模型集成

    • 将流行病学嵌入 ( x_g ) 与图神经网络(如BiGCN、ResGCN)的数据驱动嵌入 ( x_f ) 融合,通过KL散度损失 ( \mathcal{L}_p ) 约束状态分布匹配,总损失为 ( \mathcal{L} = \mathcal{L}_r + \lambda \mathcal{L}_p )。
    • 超参数:( \alpha, \beta ) 初始化为0.5,( \lambda ) 根据数据集调整(DRWeibo:1, PHEME:0.5)。

主要结果
1. 整体性能对比
- EIN在三个数据集上均超越基线模型(如RAGCL、ResGCN),准确率最高提升2.71%(DRWeibo:88.01% vs. 85.28% GCN),F1-score最高提升3.64%(PHEME:76.45% vs. 72.81%)。
- 消融实验显示,EUSD模型比传统USD模型更优(DRWeibo F1提升0.43%),验证了环境因子的必要性。

  1. 传播树深度鲁棒性

    • 在浅层树(深度=1)中,EIN通过流行病学先验弥补数据不足(Weibo准确率95.16%);在深层树(深度>5)中,噪声抑制能力显著(PHEME F1提升4.93%)。
    • 图1显示RAGCL在浅层树表现较好,而ResGCN擅长深层树,但EIN在所有深度均稳定。
  2. 案例研究

    • 图7展示非谣言(如样本494)的支持状态占比显著高于谣言(如样本814),证实EIN能有效捕捉语义演化模式。

结论与价值
1. 科学价值
- 首次将流行病学动态系统与图神经网络结合,为谣言检测提供可解释的建模框架。
- 提出LLM生成伪标签的轻量级解决方案,减少人工标注依赖。

  1. 应用价值
    • 适用于早期谣言检测(稀疏交互)和热点事件(高噪声)场景,可部署于社交平台内容审核系统。
    • 代码开源(GitHub仓库),支持后续研究扩展。

亮点与创新
1. 方法创新:EUSD模型首次引入环境因子(根帖影响),更贴合社交媒体传播特性。
2. 技术整合:联合LLM与GNN,平衡先验知识与数据驱动学习的优势。
3. 泛化性:框架兼容任意图基检测器,实验验证其在BiGCN、ResGCN上的普适提升。

其他价值
- 附录A详细设计LLM提示模板,确保立场标注一致性;附录B通过案例可视化状态演化过程,增强可解释性。
- 研究受澳大利亚研究理事会(ARC)多项基金支持,包括Future Fellowship和Discovery Project。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com