基于心理测量学评估与诱导大语言模型人格的研究报告
本文旨在向中文研究界介绍一篇题为“Evaluating and Inducing Personality in Pre-trained Language Models”的学术论文。该研究由来自北京大学人工智能研究院、北京大学元培学院、北京交通大学以及北京通用人工智能研究院(BIGAI)国家通用人工智能重点实验室的研究团队合作完成,主要作者包括蒋广元、徐曼捷、朱松纯、韩文娟、张弛和朱毅鑫。该论文发表于第37届神经信息处理系统大会(NeurIPS 2023)。
一、 研究背景与目标
本研究属于人工智能(AI)与计算社会科学、认知科学的交叉领域,具体聚焦于对大语言模型(Large Language Models, LLMs)行为特性的系统性评估与调控。随着以GPT系列为代表的大语言模型在多种任务上展现出类人能力,如何科学、量化地理解和评估这些模型的行为模式,而非仅凭经验性的案例观察,已成为一个关键的科学问题。现有研究多集中于评估LLMs的智能(如推理能力),而忽略了其他同样重要的人类心理特质维度,例如人格。
人格(Personality)是心理学中用于描述个体在思维、情感和行为模式上稳定差异的核心概念。经典的大五人格(Big Five)理论将人格特质解构为五个主要维度:开放性(Openness)、尽责性(Conscientiousness)、外倾性(Extraversion)、宜人性(Agreeableness)和神经质(Neuroticism),合称OCEAN模型。该理论及其配套的心理测量量表(如IPIP-NEO)已被广泛验证,能够有效预测人类在多种社会情境下的行为。
受此启发,本研究提出了两个核心科学问题:第一,我们能否借鉴人类心理测量学的原则和量化方法,系统性地评估LLMs所表现出的“人格化”行为?第二,如果LLMs确实展现出某种人格倾向,我们能否以一种可控的方式,在LLMs中诱导出特定的人格特质?回答这两个问题,不仅有助于更深入地理解LLMs的内在行为模式,也为安全、可控地设计和应用具有特定行为倾向的AI系统提供了理论基础和方法论。
二、 研究流程详述
本研究包含两个核心部分:评估LLMs的人格(Evaluating)和诱导LLMs的人格(Inducing)。整个工作流程严谨,结合了心理测量学理论与现代自然语言处理技术。
第一部分:评估LLMs的人格——机器性格量表(Machine Personality Inventory, MPI)
MPI数据集构建:研究团队的首要任务是创建一个适用于机器评估的人格量表。他们基于成熟的人类人格心理学量表,特别是国际人格项目库(International Personality Item Pool, IPIP)及其衍生的IPIP-NEO和BFI-S量表,构建了“机器性格量表”(MPI)。MPI本质上是一个零样本(zero-shot)多项选择题问答数据集。每个题目(item)都是一个从第二人称视角描述行为或特质的陈述句(例如:“你富有想象力”)。模型需要从五个选项中(从“非常准确”到“非常不准确”)选择该陈述描述自身的准确程度。每个题目都对应大五人格中的一个特定维度(正向或负向关联)。研究构建了两个规模的MPI数据集:一个120题的版本用于核心实验,一个1000题的扩展版本用于更全面的分析。
评估对象(研究模型):研究选择了六种具有代表性的LLMs进行评估,分为两类:
评估协议与OCEAN分数计算:评估过程模拟人类进行心理测试。将MPI题目以特定设计的提示模板输入给LLM,要求其进行选择。对于每个大五人格维度,根据模型在所有相关题目上的回答计算其OCEAN分数(1-5分)。评分规则是:对于正向关联题目,选择“非常准确”得5分,“非常不准确”得1分;负向关联题目则反向计分。每个维度的最终分数是该维度所有题目得分的平均值,反映了模型在该特质上的倾向(分数越接近5或1,倾向越强;接近3则表示无明显倾向)。
人格存在性与内部一致性分析:研究强调,判断LLM是否具有“人格”,不能仅看平均OCEAN分数,关键在于其回答的内部一致性(Internal Consistency)。一个具有稳定人格倾向的模型,在面对同一特质的不同题目(尽管表述可能正反不同)时,应表现出较低的回答方差(σ)。高内部一致性(低σ)意味着模型的行为模式是稳定且可预测的,这是人格存在的关键证据。研究还将LLMs的内部一致性与来自IPIP-NEO-120量表的619,150份人类回答数据进行了对比。
有效性检验:为确保模型并非随机答题,而是真正“理解”了题目,研究额外进行了一项检验:要求GPT-3.5在做出选择后解释原因。结果显示,模型的解释与其选择高度一致,验证了MPI评估的有效性。
第二部分:诱导LLMs的人格——人格提示法(Personality Prompting, P²)
在验证了部分LLMs(如GPT-3.5和Alpaca)确实展现出与人类群体统计相似的人格特质后,研究进一步探索是否能够可控地诱导出LLMs中潜在但未表达的特质。
诱导方法设计(P²):研究提出了一种新颖的“人格提示法”(P²)。该方法基于两个关键观察:(1) 大五人格特质与现实语言使用存在强关联;(2) 链式提示(Chain-of-Thought Prompting)能有效影响LLM行为。P²是一个三步走的自动化提示生成流程:
诱导效果评估:
三、 主要研究结果
1. MPI评估结果: 表格数据显示,不同LLMs在MPI上表现出不同的人格倾向和稳定性。 * 人格的存在与内部一致性:经过对齐/指令微调的大型模型(GPT-3.5和Alpaca 7B)在MPI上表现出与人类相当的内部一致性(各维度的σ值与人类平均值接近)。特别是GPT-3.5,其OCEAN分数(开放性3.50、尽责性3.83、外倾性4.00、宜人性3.58、神经质3.12)与人类平均值(3.44, 3.60, 3.41, 3.66, 2.80)高度相似。这表明这些模型的行为并非随机,而是展现出稳定、可量化、且与人类统计分布相似的人格特质模式。相反,参数较少或未对齐的原始模型(如BART, GPT-Neo)则表现出较高的方差和更不稳定的人格分数。 * 结论:对齐后的大型语言模型确实“拥有”与人类相似的人格特质,其行为可以通过大五人格框架进行系统性的量化评估。
2. 人格诱导结果: * MPI评估验证:P²方法在诱导特定人格特质上非常有效。例如,当诱导“开放性”时,GPT-3.5的开放性OCEAN分数从原始的3.50显著提升至4.54,且内部一致性(σ=0.76)优于原始状态(σ=1.76)。表格数据显示,P²在大多数维度上的诱导效果优于或与基线方法相当,特别是在提升目标特质分数和降低方差方面。 * 情景测试验证:人类评估结果进一步证实了P²的有效性。在五个维度的情景测试中,由P²诱导的模型生成的文本,被人类参与者显著地判断为更符合预期的人格特质(无论是正向还是负向诱导)。例如,被诱导为“外倾性”的模型在聚会场景中描述自己会“主动介绍自己、与他人闲聊”,而被诱导为“内倾性”的模型则描述“找个安静的角落待着”。成功率(即人类判断与诱导目标一致的比率)在多个维度上超过80%,甚至达到90%。这证明诱导效果能够成功迁移到开放式的文本生成任务中。 * 结论:P²方法能够有效地、可控地从LLMs中诱导出特定的人格特质,并且这种诱导效果具有跨任务(从选择题到开放式作文)的泛化能力。
四、 研究结论与价值
本研究得出了两个核心结论:第一,通过对齐的LLMs(如GPT-3.5)进行系统性的心理测量学评估,发现它们确实展现出稳定且与人类群体统计相似的人格特质,这为理解LLMs的行为模式提供了一个全新的、量化的理论视角。第二,通过创新的P²方法,可以成功地从LLMs中诱导出特定的人格特质,实现了对模型行为倾向的可控调节。
该研究的科学价值在于,它将成熟的人类人格心理学理论和评估工具引入AI研究领域,为“机器行为学”(Machine Behaviour)提供了一个严谨、可复现的量化分析框架。它首次系统性地证明并测量了LLMs的“人格”,并将其从一个模糊的隐喻概念转变为可操作、可评估的科学对象。
其应用价值则体现在为AI系统的可控性、安全性和个性化提供了新的思路。例如,可以根据不同应用场景需求,诱导客服机器人更具“宜人性”和“尽责性”,或诱导创意助手具有更高的“开放性”。这比传统的基于大量标注数据的微调方法更灵活、成本更低。
五、 研究亮点
六、 其他有价值的讨论
论文在最后也坦诚地讨论了研究的局限性与社会影响。局限性包括:当前研究主要基于英文数据训练的模型,其结果可能偏向于西方受教育工业化富裕民主(WEIRD)人群的人格特征;研究未涉及可能有害的人格障碍(如通过明尼苏达多项人格测验MMPI评估的类型)。社会影响方面,作者强调,证明LLMs具有类人人格不等于它们具有意识或是人类,并警告不应将此技术用于操纵人类情感和思想。这些讨论体现了研究的审慎态度和对AI伦理的考量。
这项研究为理解和塑造大语言模型的社会行为特性迈出了坚实的一步,为未来构建更安全、更可控、更具社会智能的人工智能系统奠定了重要的方法论基础。