关于使用ChatGPT生成心理学研究实验文本刺激材料的报告
本研究由来自德克萨斯农工大学圣安东尼奥分校健康与行为科学系的Jacqueline Lechuga,以及来自霍华德大学NOAA大气科学与气象学合作科学中心的Nakul N. Karle合作完成。该研究论文题为《利用ChatGPT生成心理学研究实验文本刺激材料》(“Generating Experimental Text Stimuli for Psychological Research Using ChatGPT”),发表于《心理科学方法与进展》(Advances in Methods and Practices in Psychological Science)期刊2026年1-3月(第9卷第1期)上。
学术背景与研究目的
随着人工智能,特别是大语言模型的快速发展,科研工作的范式正在发生深刻变革。心理学研究,尤其是涉及社会认知、人际关系等领域的研究,常常需要创建特定的文本材料作为实验刺激物,例如用于描述场景或人物特征的故事片段、用于操纵心理构念的描述性文本。传统上,这类材料的创建是一个耗时且认知负荷较高的过程,需要研究者精心设计、反复修改和预测试。
在此背景下,本研究旨在探索利用先进的大语言模型ChatGPT(特别是GPT-4模型)来辅助生成心理学研究所需的实验文本刺激材料的可行性、有效性与伦理规范。研究者认为,ChatGPT能够理解并生成高度拟人化的文本,且使用门槛较低,这使得其有望成为减轻研究者负担、提升研究效率的有力工具。然而,其生成的材料在心理学实验中的有效性、与人工创建材料的对比表现,以及相关的使用伦理,均是亟待实证检验和探讨的问题。因此,本研究的目标是:通过两个具体的心理学研究实例,提供ChatGPT生成材料的实证有效性证据;并基于研究实践,提出关于如何在心理学研究中使用AI生成文本材料的伦理指南和建议。
详细研究流程
研究分为两个主要部分:第一部分是两个实证研究,用于检验和比较由GPT-4生成的材料与由研究者(人类)手工创建的材料的有效性;第二部分是伦理考量与使用建议的探讨。
第一部分:GPT-4生成材料的有效性验证 研究者使用GPT-4生成了用于两个不同心理学实验的文本材料,并与已通过先前研究验证的人类研究者创建的材料进行对比。所有研究均获得机构审查委员会批准,并在开放科学框架上进行了预注册,以确保研究的透明度和可重复性。研究采用了提示词调优技术,通过提供渐进式指令、明确要求、展示示例、指定角色和格式等策略,引导GPT-4生成符合特定要求的文本。
示例1:在线约会资料与“他人融入自我”水平的操纵
该研究旨在检验一种操纵“他人融入自我”水平的方法是否有效,并比较人工与AI生成材料的操纵强度。研究者要求GPT-4扮演一名大学生,创建一份在线约会资料,回答一套用于产生人际亲密感的标准化问题提示。通过控制对这些提示的自我表露程度(高/低)来操纵“他人融入自我”的水平。研究者在提示中提供了人工创建的高/低自我表露水平的示例,并要求GPT-4生成不同于示例、但同样满足自我表露水平要求的新资料。
研究流程:最终样本包括来自一所西班牙裔服务机构的60名本科生。参与者首先自己填写了一份在线约会资料,然后随机审阅并评估了四份资料。这四份资料由两个来源(人类生成 vs. AI生成)和两种自我表露水平(高 vs. 低)交叉组合而成。参与者对每份资料进行多项评估:1) 感知到的自我表露水平;2) 预期的“他人融入自我”水平(使用经典的“重叠圆圈”量表);3) 该资料由人类创建的可能性(1-7分评分)。研究最后,参与者评估了自己区分人类与AI生成内容的总体信心。
数据分析计划:首先,分别检验人类生成和AI生成材料内部,高自我表露组是否比低自我表露组引发了更高的“他人融入自我”水平。其次,使用双单侧检验程序来检验人类生成与AI生成材料在效应量上的等效性。等效性边界设定为Cohen‘s d = ±0.15(由社会心理学元分析得出的小效应量均值)。统计显著性水平经过Bonferroni校正以控制多重比较。
示例2:自发特质推理句子
该研究旨在比较人工与AI生成的用于“自发特质推理”研究的句子的有效性。这些句子需要描述一个行为以暗示某种特质,但不能明确提及该特质本身。研究者为12个积极特质和12个消极特质创建句子。他们向GPT-4提供任务指令和两个示例,要求其为给定的24个特质各生成一个行为描述句。
研究流程:最终样本包括来自同一所西班牙裔服务机构的67名本科生。参与者随机评估了48个句子(每个特质对应两个句子:一个人工生成,一个AI生成)。参与者对每个句子进行多项评估:1) 该行为的效价(好/坏程度);2) 给定的特质描述该行为的合适程度;3) 该句子由人类创建的可能性。研究最后,参与者同样评估了自己区分人类与AI生成内容的总体信心。
数据分析计划与示例1类似,重点是检验句子的有效性(是否成功地暗示了特质),并比较人类与AI生成句子在特质一致性评分和效价评分上的表现,以及测试两者在这些指标上的等效性。
主要研究结果
示例1结果:
示例2结果:
综合两个示例的结果,ChatGPT生成的材料在实现其基本心理学功能(操纵构念或暗示特质)上是有效的。然而,在一些情况下,人类生成的材料表现更优(尤其是在产生强烈的负面效价或高强度心理操纵时)。研究数据常常不足以明确判断两种材料是完全等效还是存在微小但有意义的差异。此外,参与者普遍缺乏自信且实际能力上也难以可靠地区分材料的来源。
结论与意义
本研究的核心结论是:ChatGPT(GPT-4)能够有效生成用于心理学研究的实验文本刺激材料,可以减轻研究者的认知负荷和时间投入,并在多数情况下产生近似甚至等效于人工创建材料的效果。同时,研究者意识到并强调了其中的伦理挑战,特别是关于知识产权和剽窃的潜在风险。
研究提出的使用建议包括:1) 引用与署名:应将ChatGPT引用为使用的工具,同时引用任何启发了材料生成的已有工作;2) 限定使用范围:建议将AI工具用于低复杂性、低创造性的任务(如生成基于通用场景的描述),避免用于生成具有版权或需要高度专业创造性的内容;3) 透明度与可及性:必须在研究方法和/或数据可用性部分清晰披露使用了AI生成材料,提供所使用的AI工具版本、具体提示词,并将生成的材料公开在GitHub、OSF等平台,选择允许共享的许可证(如CC-BY);4) 做出智力贡献:研究者的贡献应体现在设计提示框架、编辑AI生成内容、以及通过预测试验证材料有效性等方面,这些都应明确报告。
这项工作的科学价值在于,它是首批提供实证证据表明大语言模型生成的文本可用于心理学研究的文献之一,拓展了AI在心理学实验设计中的应用场景(超越了之前的语言刺激或心理测量项目生成研究)。其实践价值在于,为心理学研究者提供了一套具体的、基于实证的操作指南和伦理考量框架,有助于规范并推广AI在研究中的合理使用,从而提高研究效率,促进刺激材料的多样化,并可能减少研究者因预设立场而引入的偏差。它直面了AI辅助研究中的伦理模糊地带,推动了该领域的标准化讨论。
研究亮点
其他有价值的观点
研究还讨论了当前工作的局限性与未来方向,体现了学术严谨性。主要局限包括:1) 仅关注文本材料,未来可拓展至AI生成视觉刺激的研究与伦理;2) 人类生成的对比材料虽经验证,但非领域内“金标准”;3) AI工具生成内容的质量高度依赖研究者的“提问”能力,人机协作的模式需要进一步探索;4) 付费的专有AI工具可能造成资源获取不平等,并存在技术迭代导致的材料可重复性风险。因此,未来需要:培养研究者的AI素养、发展更精细的提示工程策略、探索在多模态刺激生成中的应用,并持续关注和更新相应的伦理规范。