分享自:

基于数据挖掘与文本分析的中国社交媒体气候变化公众感知研究

期刊:Journal of Environmental and Public HealthDOI:10.1155/2022/6294436

学术研究报告:《中国社交媒体上的气候变化公众认知:基于数据挖掘与文本分析的调查研究》

一、 研究作者、机构及发表信息

本研究由华南师范大学(South China Normal University)新闻与传播学院的曾丽(Li Zeng)独立完成。研究论文《Chinese Public Perception of Climate Change on Social Media: An Investigation Based on Data Mining and Text Analysis》发表于《Journal of Environmental and Public Health》期刊,于2022年8月24日在线发表(收录于2022年卷)。

二、 研究背景与目的

本研究属于计算传播学、环境传播与公共舆论研究的交叉领域。其学术背景基于两个核心认识:首先,气候变化是人类面临的严重威胁,而广泛的公众参与对于气候缓解行动至关重要。其次,社交媒体凭借其去中心化和参与性,已成为信息交换、舆论形成和公共事务参与的重要平台。然而,现有关于社交媒体上气候变化讨论的研究多集中于欧美国家,对作为全球最大温室气体排放国和气候治理重要力量的中国关注不足。此外,现有针对中国社交媒体(如微博)的研究多聚焦于特定事件(如巴黎峰会),缺乏对公众气候变化讨论长期、整体的描绘。

因此,本研究旨在填补以上研究空白,其核心目标在于深入理解中国公众对气候变化的认识,并探讨社交媒体在促进公众参与气候变化议题方面的潜力与局限。具体研究问题包括:(1)中国公众在微博上对气候变化的关注度如何随时间变化?(2)微博上关于气候变化讨论的主要话题是什么?(3)中国公众在微博上讨论气候变化时的情绪感受如何?

三、 研究详细工作流程

本研究采用基于大数据的数据挖掘与文本分析方法,其工作流程主要分为三个阶段:数据采集、数据准备与数据分析。

第一阶段:数据采集 研究者使用Python编程语言,从新浪微博(https://www.weibo.com)上抓取所有包含“气候变化”关键词的公开帖子。数据采集时间跨度为2015年12月12日(巴黎气候峰会之后)至2021年12月12日,总计六年。初始采集的帖子数量为388,193条。

第二阶段:数据准备 此阶段旨在清洗和预处理文本数据,为后续分析做准备。 1. 数据清洗:删除重复帖子和与气候变化无关的内容(例如,仅提及关键词但内容完全无关的广告或无关博文)。清洗后,获得有效帖子346,921条。 2. 数据预处理:使用中文分词工具“结巴分词(Jieba)”对帖子内容进行分词处理。随后,移除常见的停用词(如“的”、“了”、“和”等无实际语义的词汇),以聚焦于有意义的词汇。

第三阶段:数据分析 研究采用了四种互补的计算文本分析方法,以多维度解构微博数据。 1. 声量分析(Volume Analysis):通过统计每月提及“气候变化”的微博帖子数量,绘制其随时间变化的趋势图。该分析旨在宏观把握公众对气候变化议题关注度的动态变化。 2. 关键词提取(Keyword Extraction):为识别讨论的核心词汇,研究者使用了两种不同的算法对预处理后的语料库进行关键词提取。 * TF-IDF(词频-逆文档频率):该算法衡量一个词在当前文档(或语料库)中的重要性,其值随着该词在文档中出现的次数成正比增加,但同时会随着其在语料库中出现的频率成反比下降。这有助于找出具有区分度的词汇。 * TextRank:这是一种基于图的排序算法,将文本中的词语视为图中的节点,通过词语之间的共现关系构建边,进而计算每个词语的重要性得分。 * 通过结合两种算法的结果(取前20个关键词),研究者可以更可靠地识别出最核心、最具代表性的词汇。 3. 主题建模(Topic Modeling):为了从海量帖子中自动发现和归纳潜在的主题结构,研究者使用了潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)模型。LDA是一种无监督机器学习算法,假设每个文档由多个主题混合而成,而每个主题则由一组特征词的概率分布表示。研究使用Python的Gensim库训练LDA模型。通过评估模型的困惑度曲线,最终确定将语料库划分为16个主题。研究者随后根据每个主题下的高权重关键词,手动为每个主题命名。 4. 情感分析(Sentiment Analysis):为了量化公众讨论的情绪倾向,研究者调用SnowNLP(一个专门针对中文文本的情感分析Python库)对每条微博内容进行情感值计算。SnowNLP会为每条文本输出一个介于0到1之间的情感值:越接近0表示情绪越消极,越接近1表示情绪越积极。研究中以0.5作为情感倾向的分界点。

整个工作流程(图1所示)构成了一个完整的计算社会科学研究框架,从原始数据采集到最终的多维度洞察,体现了数据驱动研究的系统性。

四、 主要研究结果

1. 声量分析结果:关注度呈上升趋势,受事件与政策驱动 分析显示,微博上关于气候变化的讨论量总体呈上升趋势。具体可分为几个阶段:2018年3月之前讨论量较低;2018年3月起显著增加。研究指出两个可能原因:一是当月举行的“地球一小时”活动邀请了受中国年轻人欢迎的名人和网红参与,带动了粉丝讨论;二是中国在2018年3月组建了生态环境部,彰显了国家层面对气候变化减缓的持续承诺。值得注意的是,2020年2月至6月期间讨论量出现下滑,可能与新冠疫情(COVID-19)大流行分散公众注意力有关。 按月统计发现,3月、11月和12月的讨论量通常较高。这主要与“地球一小时”(3月)、《联合国气候变化框架公约》缔约方大会(COP,通常在11月或12月举行)等气候相关事件周期有关。此外,中国公众最关心的环境问题是雾霾,常发生于秋冬季节,部分公众将雾霾与气候变化议题关联,也导致了相关讨论的季节性波动。

2. 关键词分析结果:自上而下的国家视角与名人效应 TF-IDF和TextRank算法提取的前20个关键词高度一致,验证了方法的可靠性。关键词分析揭示了两个显著特征: * 自上而下的视角:高频词如“中国”、“美国”、“全球”、“地球”、“国家”、“世界”、“合作”、“人类”、“国际”、“会议”等,塑造了一种通过政治合作应对气候变化的宏观图景。尤其值得注意的是,“中国”和“美国”的排名均高于“联合国”,暗示在中国公众舆论中,气候变化可能更多地被视为中美双边议题,其合作有时超越了联合国框架。 * 名人效应的显著作用:中国女演员“郑爽”的名字出现在关键词前列(尤其是在TF-IDF算法中,该算法倾向于赋予语境中不常见但具有区分度的词更高权重)。这表明拥有千万级粉丝的名人参与联合国气候变化活动,对相关话题的传播产生了显著影响。

3. 主题建模结果:以解决方案为核心,经济视角占主导 LDA模型识别出的16个主题及其分布(图3)揭示了公众讨论的焦点。按帖子数量排序,最主要的几个主题是:经济视角(Economic Perspective)、气体排放(Gas Emission)、节能减排(Energy Saving & Emission Reduction)、中美关系(Sino-US Relations)、中国的应对(China’s Response)等。 进一步分析发现: * 话题分布:经济视角是微博上最常被讨论的话题,涉及项目、公司、投资等关键词,表明公众常从经济发展角度看待气候变化。关于气体排放和节能减排的讨论也很多,显示公众将气候变化与碳排放紧密关联。中美合作话题的频繁出现,反映了公众视气候变化为需全球协作的议题,且将中美合作置于关键地位。相比之下,粮食危机(Food Crisis)话题讨论较少,可能与中国公众较少亲身经历相关。 * 话题演变:随时间推移(图4),经济视角始终占据重要权重,是持续的关注核心。而“日常行动”(Everyday Actions)话题的比重随时间下降,“节能减排”话题在后期变得更重要。这反映出公众讨论焦点从个人生活方式向工业和生产减排的转变。 * 主题归类:研究者将16个主题归纳为三大类(图5): * 现象组(Phenomenon,占14%):描述气候变化现象本身,如“研究数据”(Research Data)、“气体排放”。 * 影响组(Consequences,占20%):讨论气候变化的后果,如“人类健康”(Human Health)、“全球变暖”(Global Warming)、“空气污染”(Air Pollution)等。 * 解决方案组(Solutions,占66%):关注应对气候变化的措施,涵盖了政治经济措施(如“中国的应对”、“中美关系”、“经济视角”、“联合国框架”)、环保倡导(“环保运动”)以及动员青年践行绿色生活(“青年行动”、“日常行动”、“节能减排”)等内容。值得注意的是,解决方案组的讨论占据了绝对主导地位。

4. 情感分析结果:总体情绪积极,与话题和季节相关 情感分析显示,在研究时段内,积极情绪的帖子数量超过消极情绪帖子。积极内容多强调应对气候变化的努力(如政策成就、国际合作),而消极内容多描述气候变化引发的灾害(如极端天气、北极熊生存危机)。 情感变化呈现以下特点: * 时间趋势:积极和消极帖子的数量都随时间增长,且积极内容的增长速度更快(图7)。 * 月度差异:秋季和冬季的消极情绪比例相对较高,这与先前关于天气影响情绪的研究一致。但12月是一个例外,其情绪比其他秋冬月份更积极,可能与通常在该月举行的气候会议带来的积极建设性讨论有关。 * 话题差异:不同话题的平均情感值不同(图9)。涉及解决方案的话题(如“节能减排”、“青年行动”、“中美关系”)情感值更积极;而涉及“环保运动”、“研究数据”、“气体排放”等话题的情感值相对消极。研究者分析,“环保运动”话题可能倾向于强调不环保行为的代价以提升公众意识,从而带有更多警示性(消极)色彩。

五、 研究结论与意义

本研究通过大规模、长时段的社会媒体数据分析,描绘了关于中国社交媒体用户气候变化观点的综合图景,主要结论如下:

  1. 公众关注度提升:中国公众在社交媒体上对气候变化的关注度总体在增长,但受特定事件(如政府政策、大型环保活动)和突发公共事件(如新冠疫情)影响会出现波动。
  2. 公众情绪总体积极且趋好:对气候变化的总体情绪随时间推移变得更加积极。消极情绪多与灾害描述相关,积极情绪多与应对努力相关,且存在季节性波动。
  3. 讨论内容呈现三大特征
    • 自上而下的视角:讨论多从国家、全球合作等宏观层面展开,而非个人或地方视角。这与中国独特的政治生态和动员方式有关,但也意味着气候变化尚未被广泛视为与个人切身相关的议题,自下而上的公众参与可能不足。
    • 乐观的经济视角:经济是最主要的讨论话题。中国公众一方面认识到气候变化的挑战,另一方面也将其视为经济转型和技术发展的机遇(如新能源领域),表现出一种复杂的、机遇与挑战并存的观点。
    • 对名人内容的偏好:名人在气候变化传播中扮演了重要角色,能够显著提升话题热度。但其影响具有复杂性:一方面提高了公众意识,另一方面也可能导致讨论流于口号和明星崇拜,而非聚焦于具体行动指南。

研究的价值:在科学价值上,本研究为研究社交媒体上的环境议题提供了一个有效的研究框架,展示了计算机辅助文本挖掘技术在减少问卷调查和访谈主观性方面的优势,并通过六年的纵向数据分析,提供了更全面的公众认知图景。在应用价值上,研究结果为政府和环保组织在社交媒体上开展更有效的气候变化传播活动提供了宝贵的见解。例如,建议传播应强调自下而上的个人相关性(从“气候变化很重要”转向“我能为应对气候变化做什么”),并善用名人效应(尤其是针对年轻人),同时需要引导讨论超越口号,走向具体的行动建议。

六、 研究亮点

  1. 研究对象的独特性与重要性:聚焦于全球最大碳排放国和新兴气候领导力量——中国的社交媒体舆论,弥补了该领域研究的地理空白。
  2. 研究方法论的综合性:整合了数据挖掘、文本分析中的声量分析、关键词提取、主题建模和情感分析等多种计算社会科学方法,对同一数据集进行了多维度、立体化的剖析。
  3. 数据的规模与历时性:基于长达六年、超过34万条微博帖子的大规模数据进行分析,能够捕捉公众认知的长期趋势和动态演变,而非瞬时快照。
  4. 深刻的洞察发现:不仅量化了关注度和情绪,更重要的是,通过主题和关键词分析,揭示了中国公众讨论气候变化时独特的“自上而下”国家视角、将气候变化视为经济机遇的乐观主义,以及名人驱动的传播模式,这些发现深化了对中国环境传播特殊性的理解。
  5. 明确的实践导向:研究结论直接指向对政府和环保组织的传播策略建议,体现了学术研究与现实应用的紧密结合。

七、 其他有价值内容

研究也坦诚指出了其局限性:微博用户相对年轻,不能完全代表全中国公众意见;研究将中国公众视为同质群体,未考虑地域、性别等内部差异。基于此,研究者提出了未来研究方向:扩展到微信、抖音等其他平台以获取更广泛的公众态度;考察地理、性别等因素的影响;以及探究积极的网络态度是否能转化为实际的环保行动。这些都为后续研究指明了路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com