这篇文档属于类型a,即报告了一项原创研究。以下是根据要求生成的学术报告:
GPT-4在对话中的说服力研究
作者:Francesco Salvi(1,2)、Manoel Horta Ribeiro(3)、Riccardo Gallotti(2)、Robert West(1)
机构:1. 瑞士洛桑联邦理工学院(EPFL);2. 意大利特伦托布鲁诺·凯斯勒基金会;3. 美国普林斯顿大学
期刊:Nature Human Behaviour
发表时间:2025年3月28日
本研究属于人工智能(AI)和心理学交叉领域,旨在探讨大型语言模型(LLMs,Large Language Models)在对话中的说服力。随着GPT-4等LLMs的快速发展,其在生成内容方面的能力已被广泛认可,但其是否能够根据个体特征个性化地生成说服性内容仍缺乏系统性研究。这种能力对于评估LLMs的潜在滥用至关重要,尤其是在信息传播、政治宣传和市场营销等领域。因此,本研究通过控制实验,比较了GPT-4与人类在辩论任务中的表现,并探讨了个性化信息对LLMs说服力的影响。
研究分为以下几个步骤:
实验设计
研究采用2×2×3因子设计,参与者被随机分配到12种实验条件中:
辩论平台与流程
研究开发了一个基于empirica.ly的实时交互平台,辩论分为四个阶段:
数据收集与分析
辩论前后,参与者分别填写问卷,记录其对辩论主题的同意程度变化。研究使用部分比例优势模型(Partial Proportional Odds Model)分析数据,比较不同实验条件下参与者的意见变化。
GPT-4的说服力
GPT-4在辩论任务中表现优于或至少与人类相当。在获得个性化信息的条件下,GPT-4的说服力显著高于人类(相对优势增加81.2%,95%置信区间[+26.0%, +160.7%],p < 0.01)。具体而言,64.4%的情况下,个性化GPT-4比人类更具说服力。
主题争议强度的影响
对于低和中争议强度的主题,GPT-4的个性化辩论效果显著;但对于高争议强度主题,效果不显著(p = 0.14)。
文本分析
GPT-4生成的文本更注重逻辑和分析性思维,而人类辩论者更倾向于使用第一人称和第二人称代词,并生成更易读的文本。
参与者对对手的感知
约75%的参与者能正确识别GPT-4对手,但识别人类对手的成功率仅为52%。当参与者认为对手是AI时,其意见更倾向于与对手一致。
本研究表明,GPT-4在辩论任务中表现出强大的说服力,尤其是在获得个性化信息的条件下。这不仅验证了LLMs在个性化内容生成方面的潜力,也揭示了其在信息传播和政治宣传中的潜在风险。研究结果为LLMs的治理和在线平台的设计提供了重要参考,建议采取有效措施应对AI驱动的说服性内容传播。
研究还探讨了辩论文本的语言特征,发现GPT-4更注重逻辑性,而人类更倾向于情感表达和故事叙述。这些发现为未来LLMs的优化提供了方向,例如通过调整提示词(prompt)使其更接近人类的表达风格。
这篇报告详细介绍了研究的背景、流程、结果和意义,为读者提供了全面的理解。