用AI反击仇恨：AI生成的对抗性言论如何帮助应对社交媒体上的仇恨言论？

分享自：
用AI反击仇恨：AI生成的对抗性言论如何帮助应对社交媒体上的仇恨言论？

期刊:Telematics and InformaticsDOI:10.1016/j.tele.2025.102304
近日，一项发表于学术期刊 Telematics and Informatics 第101卷（2025年）的重要研究，为应对社交媒体上日益泛滥的仇恨言论提供了新的见解与实践方案。这篇题为“Confront hate with AI: How AI-generated counter speech helps against hate speech on social media?”的论文，由来自吉林大学、武汉大学、英国埃塞克斯大学和上海大学的研究团队共同完成，通讯作者为Pang Yufei。该研究于2025年7月3日在线发表，系统性地探讨了人工智能生成的反驳言论在对抗网络仇恨言论中的效能、影响因素及其作用机制。
一、研究背景与目的
在数字时代，社交媒体的互联性加速了信息、知识和思想的交流，但也放大了仇恨言论的传播。仇恨言论针对特定的宗教、种族、性别或性取向群体，不仅对受害者造成严重的心理创伤，还可能激化社会分裂与线下暴力。目前，社交媒体平台治理仇恨言论的主要策略，如用户举报机制和人工内容审核，普遍存在效率低下、误报率高、伦理风险大（如审核员心理健康受损）以及对于小型平台资源负担过重等挑战。
近年来，“反驳言论”（Counter Speech）作为一种更具建设性的旁观者干预策略受到关注。它指通过提供可信证据、事实和替代性观点，以非攻击性的方式对仇恨言论进行回应和驳斥。反驳言论的优势在于，它不压制言论自由，而是通过引入多元观点、表明主流社会态度来支持受害者、削弱仇恨言论的负面影响，并可能促使更多旁观者加入反对行列。然而，人工生成反驳言论同样耗时耗力，且频繁接触仇恨内容会对发言者的心理健康造成损害。
随着生成式人工智能的快速发展，利用AI自动生成高质量的、有针对性的反驳言论成为可能。尽管已有研究探索了利用大型语言模型（LLMs）生成反驳言论的技术方法，但关于AI生成的反驳言论在真实社交环境中的实际效果如何、何种策略更有效、用户对AI身份的感知是否会对其接受度产生影响等实证问题，尚缺乏深入研究。因此，本研究旨在通过系列实验，实证检验AI生成的反驳言论对用户对抗仇恨言论的参与意愿的影响，并探究反驳策略（基于事实 vs. 基于共情）和AI身份披露的调节作用，以及感知信任的中介机制。研究问题具体为：AI生成的反驳言论如何影响用户在社交媒体上对抗仇恨言论的参与意愿？
二、研究设计与详细流程
本研究包含一项预研究和三项正式实验研究，总参与人数为809人。所有参与者均通过中国专业的在线调查平台Credamo招募，并提供了小额现金报酬。研究设计遵循严格的实验流程和变量控制。
预研究：预先态度筛选 为排除参与者对目标群体已有偏见对实验结果的影响，研究团队首先进行了一项预调查。他们设计了一份问卷，测量公众对跨性别者、残障人士、农民工等群体的态度。通过平台数据市场功能收集了样本数据，并要求参与者使用7点李克特量表报告其看法。结果显示，大多数参与者对目标群体（跨性别者、残障人士、农民工）持中立或积极态度，仅在对跨性别者群体上存在相对较大比例的负面看法。为确保研究聚焦于“鼓励中立或支持性用户参与反驳”，而非改变已有仇恨倾向者的观点，研究者将那些对目标群体持明显负面态度（评分1-3分）的参与者排除，并将持中立或积极态度的参与者分为三个独立的样本池，分别用于后续的三项实验。
研究一：反驳言论存在与否的基础效应 * 设计：单因素实验设计，包含1个控制组（仅仇恨言论）和3个处理组（存在反驳言论，反驳言论生成者类型不同：人工生成、AI生成、人机协同生成）。研究场景为针对跨性别社群的仇恨言论。 * 参与者：从预研究的第一个样本池中邀请，共247名中国参与者（72.47%女性，平均年龄28.39岁）。 * 材料与流程：研究人员手动创作了仇恨言论帖子。对于反驳言论，分别采用三种方式生成：1) 人工生成：邀请三位不知情的本科生撰写，并由三位作者依据“质量”（是否能准确识别目标群体和理解仇恨言论意图）和“有效性”（是否表达对目标群体的支持并可能促进他人理解）两个维度进行评分，选取中位数评分的回复作为实验材料。2) AI生成：使用GPT-4.0生成三个回复，同样选取中位数评分的回复。3) 人机协同生成：研究人员分两步引导LLM生成回复，再对生成的内容进行人工修改润色。所有仇恨言论和反驳言论的长度均控制在90-100个中文字符，并控制了头像、用户名、点赞数、IP地址等无关变量。参与者被随机分配到不同组别，首先阅读实验说明并知情同意，随后观看包含仇恨言论（控制组）或同时包含仇恨言论与相应反驳言论（处理组）的模拟社交媒体帖子截图。之后，参与者需填写问卷，回答对仇恨言论严重性的感知、对抗仇恨言论的参与意愿（报告、屏蔽、不分享、公开反驳、了解更多信息以及总体意愿，共6个条目，Cronbach‘s α = 0.71）等问题。 * 数据分析：使用单因素方差分析（ANOVA）比较不同组别的参与意愿差异。
研究二：反驳策略的调节作用 * 设计：3（生成者类型：人工 vs. AI vs. 人机协同） × 2（反驳策略：基于事实 vs. 基于共情）的组间实验设计。研究场景为针对残障人士社群的仇恨言论。 * 参与者：从预研究的第二个样本池中邀请，共285名中国参与者（74.04%女性，平均年龄29.25岁）。 * 材料与流程：材料生成流程与研究一类似，但特别生成了基于事实（如强调权利、提供事实证据）和基于共情（如表达理解、呼吁感同身受）两种策略的反驳言论。所有参与者均未被事先告知反驳言论的生成者身份，以纯粹评估内容本身的效果。实验流程与研究一基本相同，但在问卷中增加了一个注意力检查问题（要求识别发反驳言论的用户ID），以确保参与者关注了反驳内容。 * 数据分析：使用双因素方差分析（Two-way ANOVA）检验反驳策略和生成者类型的主效应及交互效应。
研究三：AI身份披露的调节与信任的中介作用 * 设计：2（生成者类型：AI vs. 人机协同） × 2（身份披露：披露 vs. 不披露）的组间实验设计。鉴于研究二已验证共情策略更有效，本研究均采用基于共情的反驳言论。研究场景为针对农民工社群的仇恨言论。 * 参与者：从预研究的第三个样本池中邀请，共277名中国参与者（74.73%女性，平均年龄29.81岁）。 * 材料与流程：仇恨言论与反驳言论材料的生成方式延续之前研究。身份披露的操控如下：在披露条件下，AI生成组会显示“此回复由AI自动生成”，人机协同生成组会显示“此回复在AI辅助下人工生成”；在不披露条件下，则不显示这些信息。实验流程与研究一、二类似。问卷中除了测量参与意愿，新增了感知信任的测量，包含三个条目：“我认为这条反驳言论是可信的”、“我认为这条反驳言论是可靠的”、“我认为这条反驳言论是有说服力的”（Cronbach’s α = 0.73）。 * 数据分析：使用双因素方差分析检验主效应和交互效应。随后，使用Hayes开发的PROCESS宏（模型7），通过Bootstrap方法（5000次抽样，95%置信区间）检验有调节的中介模型，其中感知信任为中介变量，生成者类型为自变量，身份披露为调节变量，参与意愿为因变量。
三、主要研究发现
研究一结果： 参与者对仇恨言论的严重性感知均很高（M = 4.53）。方差分析结果显示，不同组别在参与意愿上存在显著差异（F(3，243) = 13.07， p < 0.001）。事后检验表明，所有包含反驳言论的组别（无论由谁生成），其用户的参与意愿均显著高于仅看到仇恨言论的控制组。在三个反驳言论组内部，虽然AI生成组的参与意愿均值最高，人机协同组次之，人工生成组最低，但三者之间的差异未达到统计学显著水平。该结果验证了假设H1，即反驳言论的存在能够有效提升用户对抗仇恨言论的参与意愿，为AI生成反驳言论的有效性提供了初步证据。
研究二结果： 参与者对仇恨言论严重性的感知同样很高（M = 4.49）。双因素方差分析结果显示： 1. 反驳策略的主效应显著（F(1，279) = 124.61， p < 0.001）。基于共情的反驳言论引发的用户参与意愿（M = 4.03）显著高于基于事实的反驳言论（M = 3.75）。 这一模式在三种生成者类型中都独立存在且显著（人工组：p < 0.001；AI组：p < 0.001；人机协同组：p < 0.001）。 2. 生成者类型的主效应显著（F(2，279) = 447.63， p < 0.001）。整体上，AI生成的反驳言论引发的参与意愿最高，人机协同次之，人工生成最低。 3. 二者存在显著的交互效应（F(2，279) = 14.29， p < 0.001），但简单效应分析显示，在不同生成者类型下，共情策略始终优于事实策略。 这些结果全面支持了假设H2，即在鼓励用户参与对抗仇恨言论方面，基于共情的策略比基于事实的策略更有效；同时，AI生成的内容在此情境下表现出了不亚于甚至优于人工内容的潜力。
研究三结果： 双因素方差分析结果显示： 1. 身份披露的主效应显著（F(1，273) = 11.55， p < 0.001）。当不披露AI身份时，用户的参与意愿显著高于披露身份时。 2. 生成者类型的主效应显著（F(1，273) = 14.19， p < 0.001）。AI生成组的参与意愿整体高于人机协同组。 3. 二者存在显著的交互效应（F(1，273) = 9.95， p < 0.01）。简单效应分析显示，无论是纯AI生成还是人机协同生成，不披露AI身份条件下的用户参与意愿均显著高于披露身份条件（p值均 < 0.001）。 4. 有调节的中介效应检验：Bootstrap分析结果表明，感知信任中介了生成者类型与身份披露对用户参与意愿的交互影响（间接效应 = 0.10， SE = 0.02， 95% CI = [0.06， 0.15]）。具体而言，身份披露显著调节了生成者类型与感知信任的关系（交互系数 = 0.29， SE = 0.07， 95% CI = [0.16， 0.42]）。图5清晰显示，一旦披露了AI身份，用户对两种AI相关生成内容的信任度均出现下降。 这一发现支持了假设H3和H4，揭示了“AI身份披露 → 降低感知信任 → 削弱参与意愿”的作用路径。
四、结论与价值
本研究通过严谨的系列实验，系统性地得出以下结论： 1. AI生成的反驳言论在激发用户对抗网络仇恨言论的参与意愿方面是有效的，其效果与人工生成的反驳言论相当甚至更优。 2. 反驳策略的选择至关重要：基于共情的叙述方式比基于事实的理性论述更能激发用户的参与意愿。 3. AI身份的透明度是一个关键影响因素：披露内容由AI生成会降低用户对内容的信任感，从而削弱其参与意愿。感知信任在这一过程中扮演着核心的中介角色。
理论贡献： 1. 本研究拓展了关于AI在网络内容治理中作用的认识，超越了以往主要关注“仇恨言论检测”的范畴，首次通过实证研究深入探讨了AI在“生成干预性内容”（即反驳言论）以缓解仇恨言论负面影响方面的效能。 2. 揭示了AI生成内容在特定社会互动情境（对抗仇恨言论）中的有效性及其边界条件（策略与身份披露），丰富了关于人机交互和算法说服力的研究。 3. 阐明了反驳言论影响用户行为的内在机制，特别是明确了共情策略的优越性，以及身份披露通过信任中介影响行为意愿的路径，为相关理论模型提供了新的实证支持。
实践启示： 1. 对于社交媒体平台而言，AI生成的反驳言论是一种高效、可扩展且能保护人类免受心理伤害的治理工具，尤其适合资源有限的中小型平台。平台应考虑开发并部署此类系统，作为现有审核机制的有力补充。 2. 平台在利用AI生成反驳言论时，应优先采用基于共情的策略，以最大化地动员广大“旁观者”用户加入反对仇恨言论的行列。 3. 需要审慎权衡AI身份披露策略。虽然完全隐瞒AI身份在短期内可能提升干预效果，但从长期看，这可能加剧用户对算法“黑箱”的厌恶和不信任，甚至引发对平台操纵舆论的指控。平台应致力于设计透明的解释机制，在可能的情况下向用户说明AI生成内容的目的与方式，以建立负责任的、可信的AI治理生态。 4. 对政策制定者的启示在于，在推动平台利用AI进行内容治理的同时，应关注透明度、问责制以及算法偏见的规避，确保技术应用符合伦理规范，真正服务于构建健康的网络空间。
研究亮点与展望
本研究的亮点在于：首次通过控制实验的方法，系统性地、多角度地验证了AI生成反驳言论的实际效果及其心理机制；研究设计严谨，包含了预筛选、多场景（三个不同目标群体）和渐进式的假设检验；不仅比较了人机差异，还深入探讨了内容策略和身份披露等关键情境变量的影响。
当然，研究也存在一些局限，为未来方向指明了道路：首先，研究样本和情境均基于中国社交媒体，未来需在不同文化背景下检验结论的普适性，因为对特定群体的态度和对AI的信任存在文化差异。其次，本研究将“人机协同”视为一种整体模式，未来可细分不同协作模式（如AI主导人类润色 vs. 人类主导AI辅助）的效果差异。再者，研究排除了已有负面态度的参与者，未来可探索AI生成的反驳言论对潜在仇恨言论发布者或持有强烈偏见者的影响，尽管这可能更具挑战性且效果可能有限甚至适得其反。最后，在法律法规已强制要求披露AI生成内容的司法管辖区（如欧盟），研究“强制披露”情境下如何优化反驳策略（例如，在披露前提下，事实型策略是否比共情型策略更具可信度）将具有重要的现实意义。
这项由Chuanhui Wu， Yifan Wang， Yuchen Zhang， Houcai Wang和Yufei Pang完成的研究，为利用人工智能技术建设性应对网络仇恨这一全球性挑战提供了宝贵的实证洞见和切实可行的操作指南，标志着AI在社会计算与网络治理领域的应用迈出了坚实的一步。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问