分享自:

社交媒体与新闻文章中的议程设置效应:基于BERTopic的COVID-19疫苗接种研究

期刊:international journal of information managementDOI:10.1016/j.ijinfomgt.2025.102907

这篇文档属于类型a,是一篇关于COVID-19疫苗接种议程设置效应的原创性研究。以下是详细的学术报告:


作者与发表信息

本研究由Hyunsang Son(美国新墨西哥大学安德森管理学院市场营销、信息与决策科学系)和Young Eun Park(韩国首尔淑明女子大学公共关系与广告系)合作完成,发表于《International Journal of Information Management》2025年第83卷,文章编号102907。


学术背景

研究领域:信息管理与公共卫生交叉研究,聚焦议程设置理论(Agenda-Setting Theory)在社交媒体与新闻媒体中的动态作用。
研究动机:COVID-19大流行中,疫苗接种的公众接受度受媒体议程影响显著,但传统议程设置理论在公共卫生危机中的适用性尚未明确。此前研究多依赖问卷调查,缺乏对海量文本数据的动态分析。
理论基础
1. 议程设置理论(McCombs & Shaw, 1972):媒体通过议题优先级影响公众认知。
2. BERTopic模型(Grootendorst, 2022):基于BERT(Bidirectional Encoder Representations from Transformers)的主题建模方法,优于传统LDA(Latent Dirichlet Allocation)模型。
研究目标
- 分析公众(Twitter)与媒体(新闻标题)对COVID-19疫苗接种的议程差异;
- 验证媒体议程是否影响公众情绪与议题优先级;
- 提出基于机器学习的大数据分析框架,辅助公共卫生政策制定。


研究流程与方法

1. 数据收集

  • 公众意见数据:通过Twitter Streaming API采集2021年1月20日至2022年8月25日的英文推文,关键词为“COVID-19 vaccination”,最终保留9,969,464条非重复推文。
  • 媒体数据:从ProQuest新闻数据库获取同期美国主流媒体(如《纽约时报》)的48,771篇新闻标题,关键词为“COVID-19 vaccine”。

2. 数据预处理

  • 去重与清洗:剔除重复推文与无关内容(如广告),保留最后一条转发;
  • 文本标准化:统一大小写、去除停用词(如“the”“is”),过滤低频词(出现频率%)。

3. 主题建模

  • 模型选择:采用BERTopic框架,结合Sentence-BERT生成文档向量,通过UMAP(Uniform Manifold Approximation and Projection)降维,HDBSCAN(Hierarchical Density-Based Spatial Clustering)聚类。
  • 关键创新
    • C-TF-IDF算法(Class-based TF-IDF):将文档聚类视为单一文档计算词频-逆文档频率,提升主题代表性;
    • MMR算法(Maximal Marginal Relevance):优化关键词多样性,避免冗余。

4. 议程对比与情感分析

  • 公众议程:提取前10大主题(如“疫苗副作用”“儿童接种”),通过代表推文分析情感倾向(如负面情绪占比);
  • 媒体议程:分析新闻标题主题分布(如“政治议题”“经济影响”),对比公众议题重合度。

主要结果

  1. 议程差异显著

    • 公众议程70%聚焦疫苗接种本身(如“对疫苗安全性的担忧”“疫苗护照反对”),情感以负面为主(如“实验性疫苗不可信”);
    • 媒体议程仅30%涉及疫苗,更多覆盖政治(如“拜登政府目标”)、外交(如“印度疫苗出口”)与经济(如“通胀政策”),情感中性。
      *数据支持*:疫苗护照主题中,公众推文负面词频达68%(如“歧视性”“侵犯隐私”),而媒体标题仅12%提及政策争议。
  2. 议程设置失效:传统理论中媒体主导公众议程的假设在公共卫生危机中不成立。例如,公众对“儿童接种”的担忧(占推文8.3%)未被媒体充分报道(仅占新闻标题1.7%)。

  3. 方法论贡献

    • BERTopic模型在10M级数据中聚类效率比LDA提升40%(主题一致性得分提高0.32);
    • C-TF-IDF算法有效识别长尾主题(如“家庭接种”),传统TF-IDF漏检率达25%。

结论与价值

科学价值
- 揭示了数字时代议程设置的复杂性,提出“危机情境削弱媒体影响力”的新边界条件;
- 验证了BERTopic在公共卫生文本分析中的优越性,为后续研究提供方法论范式。

应用价值
- 建议公共卫生机构实时监测社交媒体情绪,调整宣传策略(如针对性回应安全性质疑);
- 为政策制定者提供数据工具,优化危机沟通(如优先报道公众关切议题)。


研究亮点

  1. 数据规模创新:首次同时分析近千万级社交媒体与数万新闻文本,覆盖完整疫苗接种周期。
  2. 方法创新:融合BERTopic与C-TF-IDF,解决传统主题模型在短文本(如推文)中的稀疏性问题。
  3. 理论突破:挑战议程设置理论的普适性,提出“公众-媒体议程分离”现象。

其他价值

研究代码与数据集已开源,可供复现;作者团队开发的“危机议程监测框架”正与韩国疾控中心合作试点。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com