在2025年的《Public Relations Review》期刊上,来自美国明尼苏达大学双城分校Hubbard新闻与大众传播学院的Jiacheng Huang和Alvin Zhou(通讯作者)发表了一项题为《生成式人工智能在社交媒体互动中胜过人类:来自GPT-4和FIIT模型的证据》的原创研究。这篇论文通过多阶段研究,系统性检验了以GPT-4为代表的大型语言模型在品牌社交媒体内容创作方面相对于人类的表现,并提出了一个解释其成功原因的理论模型。
这项研究的学术背景根植于战略传播与公共关系领域,尤其关注社交媒体时代品牌与公众互动的有效性。在当今高度竞争的数字环境中,点赞、评论和分享等社交媒体互动指标已成为衡量品牌传播成功与否的关键。尽管学界对提升互动率的因素已有诸多探讨,如对话性原则、媒体生动性、情感诉求等,但实证证据时常相互矛盾,且缺乏一个统一、可操作的框架。与此同时,生成式人工智能,特别是GPT-4等大型语言模型的爆发式发展,为优化传播内容提供了前所未有的潜力。业界普遍认为AI可以降低创意工作负荷、提升效率,但关于其在真实品牌传播场景中的实际表现、其对人类传播者角色的挑战,以及其背后可解释的运作逻辑,仍缺乏严谨、大规模的实证研究。本研究旨在填补这些关键空白,通过多方法研究设计,实证检验AI生成内容与人类创作内容的互动效果差异,探究其背后的语言学原理,并评估经过训练的公关专业人士能否匹敌AI的表现。研究采用了计算扎根理论(Computational Grounded Theory, CGT)的立场,利用计算工具从大规模数据中发现模式,再通过人类诠释和三角验证来构建理论。
该研究包含三个紧密衔接的子研究,构成了一个完整的工作流程。
研究一旨在识别并验证AI优化社交媒体内容的语言学原则,即FIIT模型。 首先,研究者收集了2023年美国《财富》500强公司从2020年1月1日至2023年5月1日完整的Twitter发帖历史。经过筛选,最终数据集包含来自442家公司的13,260条原创推文。随后,他们通过OpenAI API调用GPT-4模型,使用一个最小化的提示词(“在不改变原意的前提下,改写这条帖子以获得更高的社交媒体互动,不要超过Twitter的字符限制”),为每一条原创推文生成一个AI优化版本,从而创建了包含同样数量帖子的AI生成数据集。为了探究AI修改的规律,研究者首先对随机5%的帖子对(共663对)进行了半开放式内容分析。两位编码员通过比较人类原创帖和AI改写帖,归纳总结关键差异,经过讨论合并,最终形成了包含四大类别、十二个具体因素的FIIT模型。之后,为了在大规模数据上验证这十二个因素,研究者运用了复杂的计算语言学技术对全部13,260对帖子进行分析。例如,他们使用LIWC-22词典测量分析写作流畅度(Analytical Writing Fluency)和词汇流畅度(Lexical Fluency),使用Flesch阅读易度评分测量结构流畅度(Structural Fluency);使用Python的Stanza包进行词性标注以测量行动导向性(Action Orientation);利用基于BART-large-mnli模型训练的分类器来识别祈使句(Call to Action)和疑问句(Ask Questions);使用Twitter官方字符计数工具计算帖子长度和平均句子长度;采用基于Twitter数据训练的RoBERTa模型进行情感强度分析,并使用专门的正式性分类器评估非正式程度(Informality)。所有比较均采用配对t检验进行。
研究二通过消费者实验,直接测试AI生成内容在驱动互动意愿上是否优于人类原创内容。 研究者通过Prolific平台招募了450名在性别、年龄和种族上具有美国全国代表性的参与者。实验材料是将研究一中收集的推文制作成的截图,参与者会看到20对帖子,每对包含一条人类原创帖和其对应的AI生成帖,它们在视觉格式上完全相同,仅内容有异。实验采用联合实验设计思路:首先,参与者被强制要求选择他们更愿意与哪一条帖子互动(点赞、分享或评论);随后,他们需分别对两条帖子用5点李克特量表评价自己的互动意愿。帖子的左右位置、以及呈现给参与者的帖子对都经过了随机化处理。此外,研究还测量了参与者对帖子来源公司的熟悉度作为控制变量。为了验证这种自我报告的互动意愿能否预测真实世界的行为,研究者将参与者的评分与这些原创帖子在Twitter上获得的实际互动数据(点赞、转发、评论总数)进行了回归分析,结果证实了二者间的显著正相关关系,从而支持了使用互动意愿作为效标的有效性。
研究三则进一步探究,即便经过专门训练,人类专业人士能否达到AI的互动生成水平。 研究者从Prolific平台招募了110名自称从事公关或社交媒体内容创作的专业人士。经过严格的资格筛选,最终有97名参与者完成了全部任务。这些参与者首先观看了一段9分钟关于FIIT模型的培训视频,并且在改写任务中始终可以看到FIIT模型的要点总结。他们的任务是使用FIIT原则,改写随机抽取的10条研究一中的原始人类推文。研究者为参与者提供了高于平均水平的报酬,并设置了绩效奖金以激励其认真参与。最终,研究者获得了970条由受过培训的专业人士改写的帖子。随后,他们采用与研究二相同的招募和调查程序,邀请了另一组68名美国成年参与者,对这970条专业改写帖与对应的AI生成帖进行配对比较,测量其互动意愿偏好。
研究的主要结果在各个阶段均呈现出高度一致性。研究一的结果成功地归纳并验证了FIIT模型,这是一个由AI实践所揭示的、旨在提升数字互动效果的内容原则框架。该模型包含四个维度:流畅性、互动性、信息性和语调。 1. 流畅性:AI生成的内容在分析写作流畅度(更复杂的句式)和结构流畅度(更高的阅读易度)上显著更高,但在词汇流畅度(更少使用日常高频词)上更低,表明AI在保持语言复杂性的同时提升了可读性。 2. 互动性:AI内容表现出更强的行动导向(更多以动词开头的句子)、包含更多的行动召唤(更多祈使句)、更多地提问(更多疑问句),并且使用的标签数量几乎是人类帖子的两倍。 3. 信息性:AI生成的帖子整体字符长度显著更长(更接近280字符上限),但其平均句子长度却显著更短,表明信息更密集但表述更简洁。 4. 语调:AI内容的情感强度显著更强,使用的表情符号数量是人类的近五倍,并且整体语言风格更加非正式、口语化。计算语言学分析对所有十二个因素的配对t检验结果均高度显著(p < .001),有力地支持了内容分析的发现。
研究二的结果直接证实了AI生成内容在吸引消费者互动方面的优势。在强制选择任务中,参与者选择AI生成帖子的比例达到59.78%,显著高于随机水平(50%)。在5点量表的互动意愿评分上,AI帖子的平均得分也显著高于人类原创帖子。随机效应模型分析在控制了品牌熟悉度后,再次确认了AI生成内容对互动意愿的正面预测作用。此外,研究还发现了一个重要的边界条件:随着参与者在实验中不断接触AI生成内容,他们对这类内容的互动意愿出现了显著的下降趋势,这被研究者称为“AI疲劳”效应,表明同质化的AI风格内容可能因重复曝光而效力衰减。
研究三的结果更是带来了深刻启示。即使专业人士接受了FIIT模型的专门培训并受到经济激励,他们改写的内容在与AI生成内容的直接竞争中仍然落败。在强制选择中,AI帖子以53.01%的比例被偏好;在互动意愿评分上,AI帖子也获得了更高的均值,虽然差异幅度较研究二有所缩小,但优势依然存在。更重要的是,对三个数据集(原创、AI生成、专业改写)在FIIT各因素上的ANOVA比较显示,专业人士在多数因素上(如分析写作流畅度、行动导向、情感强度、表情符号使用、非正式性等)的表现介于原创内容和AI内容之间,但在结构流畅度、帖子长度等少数因素上甚至超过了AI。这表明,专业人士可以学习并应用FIIT原则来改进内容,但要像AI那样同时、均衡且高效地优化所有十二个维度,是一项极具挑战性的任务。
基于以上结果,该研究得出了明确的结论:在可量化的社交媒体互动结果上,生成式AI能够系统性地超越人类传播者。这一结论并非基于简单的工具替代逻辑,而是通过揭示AI所遵循的一套可解释、可验证的互动优化原则(FIIT模型),并在消费者偏好和专业人士对标测试中得到了坚实支持。AI的优势体现在其能够大规模、一致性地应用复杂的多维度语言学策略,而这对于人类,即使是受过训练的专业人士,也难于完全复现。
研究的价值和意义体现在理论、实践与教育三个层面。在理论层面,本研究是计算扎根理论在战略传播领域的一次成功实践,利用AI作为发现工具,归纳出了FIIT模型,这不仅回应了学界长期关于“何种内容能有效互动”的疑问,还将对话性原则、媒体生动性、对话式人声等传统理论元素整合并精细化,特别是强调了“流畅性”这一在公关文献中未受足够重视的关键维度,并提出了“AI模拟的真实性”这一挑战传统真实性观念的深刻理论问题。在实践层面,FIIT模型为内容创作者提供了可直接操作的检查清单和优化方向。同时,研究建议从业者以AI生成内容为“基准线”或“创意助手”,采用人机协同的工作流,将人力资源更多地投入到战略规划、伦理审查、关系管理和处理非常规情境中,而非纯粹的战术性内容生产。在教育层面,研究发出了明确的信号:公关教育必须进行根本性改革,从侧重内容制作技能转向培养“AI策展人”或“传播工程师”,核心课程应包括AI素养、提示工程、人机协作伦理、数据分析和战略思维,以使学生未来能够驾驭而非被替代于AI驱动的传播环境。
本研究的亮点突出。首先,其研究发现具有颠覆性,通过严谨的多阶段设计,提供了AI在品牌传播核心任务上超越人类的大规模、多方法证据。其次,其方法论创新显著,巧妙地将生成式AI既作为研究对象,又作为理论发现工具(CGT),并综合运用了内容分析、计算语言学、大规模在线实验和专业人士对标测试等多种方法,研究设计环环相扣,逻辑严密。第三,提出的FIIT模型兼具解释力与实用性,不仅阐明了AI成功的机制,也为行业提供了清晰的优化框架。第四,研究揭示了重要的边界条件,如“AI疲劳”效应,避免了技术决定论的片面观点,强调了人机协同与内容多样性的长期重要性。最后,研究讨论部分极具深度和前瞻性,超越了对现象的描述,深入探讨了AI时代公关行业的身份危机、真实性悖论、伦理挑战及教育转型等根本性问题,为后续研究开辟了多个富有价值的探索方向。当然,研究也存在一些局限性,如在线招募的专业人士样本异质性、使用的基础提示词较为简单、未探讨AI内容披露声明的影响等,这些也都为未来研究提供了明确的切入点。