类型a:学术研究报告
作者及机构
本研究的作者包括Wei Jiang、Tong Chen、Xinyi Gao(均来自澳大利亚昆士兰大学)、Wentao Zhang(北京大学)、Lizhen Cui(山东大学)以及通讯作者Hongzhi Yin(昆士兰大学)。该研究发表于2025年的ACM Web Conference(WWW ‘25),论文标题为《Epidemiology-Informed Network for Robust Rumor Detection》。
学术背景
研究领域为社交媒体中的谣言检测(rumor detection),属于数据挖掘(data mining)与图神经网络(Graph Neural Networks, GNNs)的交叉领域。社交媒体的普及加速了虚假信息的传播,传统基于文本的谣言检测方法(如RNN、CNN、Transformer)仅依赖语言特征,而忽略了信息传播的结构模式。近年来,图神经网络被用于建模谣言的传播树(propagation tree),但其性能受限于传播树的深度:浅层树因交互数据不足导致特征提取困难,深层树则因用户响应噪声干扰预测准确性。
为解决这一问题,本研究提出了一种结合流行病学(epidemiology)理论的框架——流行病学信息网络(Epidemiology-Informed Network, EIN),通过模拟谣言传播的动态过程(如未知、支持、否认三种状态转换)增强模型鲁棒性。研究目标包括:(1)揭示现有图神经网络模型在不同传播树深度下的性能缺陷;(2)设计一种融合流行病学原理的通用框架,兼容现有图基检测器;(3)利用大语言模型(Large Language Model, LLM)生成用户立场标签(stance labels),避免人工标注成本。
研究流程
1. 问题定义与数据集构建
- 将谣言检测建模为二分类任务,输入为传播树 ( G_i = {V_i, E_i, X_i} ),其中 ( V_i ) 为节点(帖子),( E_i ) 为边(交互关系),( X_i ) 为节点特征(Word2Vec嵌入)。
- 使用三个公开数据集:DRWeibo(6037条)、Weibo(4664条)、PHEME(5748条),覆盖中英文,按6:2:2划分训练/验证/测试集。
流行病学模型设计
LLM辅助立场标注
联合优化与模型集成
主要结果
1. 整体性能对比
- EIN在三个数据集上均超越基线模型(如RAGCL、ResGCN),准确率最高提升2.71%(DRWeibo:88.01% vs. 85.28% GCN),F1-score最高提升3.64%(PHEME:76.45% vs. 72.81%)。
- 消融实验显示,EUSD模型比传统USD模型更优(DRWeibo F1提升0.43%),验证了环境因子的必要性。
传播树深度鲁棒性
案例研究
结论与价值
1. 科学价值
- 首次将流行病学动态系统与图神经网络结合,为谣言检测提供可解释的建模框架。
- 提出LLM生成伪标签的轻量级解决方案,减少人工标注依赖。
亮点与创新
1. 方法创新:EUSD模型首次引入环境因子(根帖影响),更贴合社交媒体传播特性。
2. 技术整合:联合LLM与GNN,平衡先验知识与数据驱动学习的优势。
3. 泛化性:框架兼容任意图基检测器,实验验证其在BiGCN、ResGCN上的普适提升。
其他价值
- 附录A详细设计LLM提示模板,确保立场标注一致性;附录B通过案例可视化状态演化过程,增强可解释性。
- 研究受澳大利亚研究理事会(ARC)多项基金支持,包括Future Fellowship和Discovery Project。