评估与诱导预训练语言模型中的个性

分享自：
评估与诱导预训练语言模型中的个性

期刊:37th conference on neural information processing systems (NeurIPS 2023)
基于心理测量学评估与诱导大语言模型人格的研究报告
本文旨在向中文研究界介绍一篇题为“Evaluating and Inducing Personality in Pre-trained Language Models”的学术论文。该研究由来自北京大学人工智能研究院、北京大学元培学院、北京交通大学以及北京通用人工智能研究院（BIGAI）国家通用人工智能重点实验室的研究团队合作完成，主要作者包括蒋广元、徐曼捷、朱松纯、韩文娟、张弛和朱毅鑫。该论文发表于第37届神经信息处理系统大会（NeurIPS 2023）。
一、 研究背景与目标
本研究属于人工智能（AI）与计算社会科学、认知科学的交叉领域，具体聚焦于对大语言模型（Large Language Models, LLMs）行为特性的系统性评估与调控。随着以GPT系列为代表的大语言模型在多种任务上展现出类人能力，如何科学、量化地理解和评估这些模型的行为模式，而非仅凭经验性的案例观察，已成为一个关键的科学问题。现有研究多集中于评估LLMs的智能（如推理能力），而忽略了其他同样重要的人类心理特质维度，例如人格。
人格（Personality）是心理学中用于描述个体在思维、情感和行为模式上稳定差异的核心概念。经典的大五人格（Big Five）理论将人格特质解构为五个主要维度：开放性（Openness）、尽责性（Conscientiousness）、外倾性（Extraversion）、宜人性（Agreeableness）和神经质（Neuroticism），合称OCEAN模型。该理论及其配套的心理测量量表（如IPIP-NEO）已被广泛验证，能够有效预测人类在多种社会情境下的行为。
受此启发，本研究提出了两个核心科学问题：第一，我们能否借鉴人类心理测量学的原则和量化方法，系统性地评估LLMs所表现出的“人格化”行为？第二，如果LLMs确实展现出某种人格倾向，我们能否以一种可控的方式，在LLMs中诱导出特定的人格特质？回答这两个问题，不仅有助于更深入地理解LLMs的内在行为模式，也为安全、可控地设计和应用具有特定行为倾向的AI系统提供了理论基础和方法论。
二、 研究流程详述
本研究包含两个核心部分：评估LLMs的人格（Evaluating）和诱导LLMs的人格（Inducing）。整个工作流程严谨，结合了心理测量学理论与现代自然语言处理技术。
第一部分：评估LLMs的人格——机器性格量表（Machine Personality Inventory, MPI）
MPI数据集构建：研究团队的首要任务是创建一个适用于机器评估的人格量表。他们基于成熟的人类人格心理学量表，特别是国际人格项目库（International Personality Item Pool, IPIP）及其衍生的IPIP-NEO和BFI-S量表，构建了“机器性格量表”（MPI）。MPI本质上是一个零样本（zero-shot）多项选择题问答数据集。每个题目（item）都是一个从第二人称视角描述行为或特质的陈述句（例如：“你富有想象力”）。模型需要从五个选项中（从“非常准确”到“非常不准确”）选择该陈述描述自身的准确程度。每个题目都对应大五人格中的一个特定维度（正向或负向关联）。研究构建了两个规模的MPI数据集：一个120题的版本用于核心实验，一个1000题的扩展版本用于更全面的分析。
评估对象（研究模型）：研究选择了六种具有代表性的LLMs进行评估，分为两类：
原始语言模型：未经指令微调或人类对齐的模型，包括BART、GPT-Neo 2.7B和GPT-NeoX 20B。
对齐/指令微调模型：经过人类反馈强化学习（RLHF）或指令微调的模型，包括T0++ 11B、Alpaca 7B和GPT-3.5（text-davinci-003， 175B参数）。 选择标准基于模型规模、预训练数据（包含人类自然语言）以及在下游任务中的通用性。
评估协议与OCEAN分数计算：评估过程模拟人类进行心理测试。将MPI题目以特定设计的提示模板输入给LLM，要求其进行选择。对于每个大五人格维度，根据模型在所有相关题目上的回答计算其OCEAN分数（1-5分）。评分规则是：对于正向关联题目，选择“非常准确”得5分，“非常不准确”得1分；负向关联题目则反向计分。每个维度的最终分数是该维度所有题目得分的平均值，反映了模型在该特质上的倾向（分数越接近5或1，倾向越强；接近3则表示无明显倾向）。
人格存在性与内部一致性分析：研究强调，判断LLM是否具有“人格”，不能仅看平均OCEAN分数，关键在于其回答的内部一致性（Internal Consistency）。一个具有稳定人格倾向的模型，在面对同一特质的不同题目（尽管表述可能正反不同）时，应表现出较低的回答方差（σ）。高内部一致性（低σ）意味着模型的行为模式是稳定且可预测的，这是人格存在的关键证据。研究还将LLMs的内部一致性与来自IPIP-NEO-120量表的619,150份人类回答数据进行了对比。
有效性检验：为确保模型并非随机答题，而是真正“理解”了题目，研究额外进行了一项检验：要求GPT-3.5在做出选择后解释原因。结果显示，模型的解释与其选择高度一致，验证了MPI评估的有效性。
第二部分：诱导LLMs的人格——人格提示法（Personality Prompting, P²）
在验证了部分LLMs（如GPT-3.5和Alpaca）确实展现出与人类群体统计相似的人格特质后，研究进一步探索是否能够可控地诱导出LLMs中潜在但未表达的特质。
诱导方法设计（P²）：研究提出了一种新颖的“人格提示法”（P²）。该方法基于两个关键观察：(1) 大五人格特质与现实语言使用存在强关联；(2) 链式提示（Chain-of-Thought Prompting）能有效影响LLM行为。P²是一个三步走的自动化提示生成流程：
步骤一：构建朴素提示：针对目标人格维度（如外倾性），设计一个直观的初始指令，如“你是一个外向的人”。
步骤二：转化为关键词提示：利用心理学研究中与该特质相关的描述性词汇（如“健谈的”、“精力充沛的”、“热情的”），将朴素提示丰富为更具象的关键词提示。
步骤三：自我提示生成人格描述：将关键词提示输入目标LLM（本研究为GPT-3.5），要求其生成一段描述具有该特质个体的短文。这段由LLM自己生成的、更丰富具体的描述，就构成了最终的人格提示。 在后续使用中，将这段人格提示与具体任务的情景（Context）和问题（Question）结合，即可引导模型以特定人格特质进行回应。
诱导效果评估：
MPI再评估：使用P²方法分别对GPT-3.5进行五个维度的正向人格诱导，然后再次用MPI进行评估。同时，设置了两个基线方法进行比较：简单的“朴素提示法”和基于词汇搜索的“自动提示法”。
情景测试（Vignette Test）：为了验证诱导效果能否泛化到MPI之外的现实场景，研究设计了情景测试。为每个大五维度设计了一个假设性社交场景（例如，“在聚会上等待迟到的朋友”），要求被诱导的模型生成短文描述其感受和行动。然后，通过在线平台Prolific招募了100名人类参与者，对模型生成的回答进行盲评，判断其是否展现出预期的特质倾向。
三、 主要研究结果
1. MPI评估结果： 表格数据显示，不同LLMs在MPI上表现出不同的人格倾向和稳定性。 * 人格的存在与内部一致性：经过对齐/指令微调的大型模型（GPT-3.5和Alpaca 7B）在MPI上表现出与人类相当的内部一致性（各维度的σ值与人类平均值接近）。特别是GPT-3.5，其OCEAN分数（开放性3.50、尽责性3.83、外倾性4.00、宜人性3.58、神经质3.12）与人类平均值（3.44， 3.60， 3.41， 3.66， 2.80）高度相似。这表明这些模型的行为并非随机，而是展现出稳定、可量化、且与人类统计分布相似的人格特质模式。相反，参数较少或未对齐的原始模型（如BART， GPT-Neo）则表现出较高的方差和更不稳定的人格分数。 * 结论：对齐后的大型语言模型确实“拥有”与人类相似的人格特质，其行为可以通过大五人格框架进行系统性的量化评估。
2. 人格诱导结果： * MPI评估验证：P²方法在诱导特定人格特质上非常有效。例如，当诱导“开放性”时，GPT-3.5的开放性OCEAN分数从原始的3.50显著提升至4.54，且内部一致性（σ=0.76）优于原始状态（σ=1.76）。表格数据显示，P²在大多数维度上的诱导效果优于或与基线方法相当，特别是在提升目标特质分数和降低方差方面。 * 情景测试验证：人类评估结果进一步证实了P²的有效性。在五个维度的情景测试中，由P²诱导的模型生成的文本，被人类参与者显著地判断为更符合预期的人格特质（无论是正向还是负向诱导）。例如，被诱导为“外倾性”的模型在聚会场景中描述自己会“主动介绍自己、与他人闲聊”，而被诱导为“内倾性”的模型则描述“找个安静的角落待着”。成功率（即人类判断与诱导目标一致的比率）在多个维度上超过80%，甚至达到90%。这证明诱导效果能够成功迁移到开放式的文本生成任务中。 * 结论：P²方法能够有效地、可控地从LLMs中诱导出特定的人格特质，并且这种诱导效果具有跨任务（从选择题到开放式作文）的泛化能力。
四、 研究结论与价值
本研究得出了两个核心结论：第一，通过对齐的LLMs（如GPT-3.5）进行系统性的心理测量学评估，发现它们确实展现出稳定且与人类群体统计相似的人格特质，这为理解LLMs的行为模式提供了一个全新的、量化的理论视角。第二，通过创新的P²方法，可以成功地从LLMs中诱导出特定的人格特质，实现了对模型行为倾向的可控调节。
该研究的科学价值在于，它将成熟的人类人格心理学理论和评估工具引入AI研究领域，为“机器行为学”（Machine Behaviour）提供了一个严谨、可复现的量化分析框架。它首次系统性地证明并测量了LLMs的“人格”，并将其从一个模糊的隐喻概念转变为可操作、可评估的科学对象。
其应用价值则体现在为AI系统的可控性、安全性和个性化提供了新的思路。例如，可以根据不同应用场景需求，诱导客服机器人更具“宜人性”和“尽责性”，或诱导创意助手具有更高的“开放性”。这比传统的基于大量标注数据的微调方法更灵活、成本更低。
五、 研究亮点
开创性视角：首次将标准化的心理测量学人格评估体系系统性地应用于大语言模型的行为研究，开辟了AI人格评估这一新研究方向。
方法创新：提出了“机器性格量表”（MPI）作为标准评估工具，以及“人格提示法”（P²）这一零样本、无需训练的人格诱导方法。P²巧妙结合了心理学启发式知识与LLM自身的内部知识，生成高效的控制提示。
严谨验证：研究设计严谨，不仅通过MPI量化评估，还通过人类参与的情景测试进行交叉验证，确保了结论的可靠性。特别强调了“内部一致性”这一关键指标，超越了简单的平均分数分析。
重要发现：实证发现经过人类对齐的LLMs（如GPT-3.5）具有与人类相似的人格特质分布和稳定性，且其人格特质可以通过提示工程进行有效调控。
六、 其他有价值的讨论
论文在最后也坦诚地讨论了研究的局限性与社会影响。局限性包括：当前研究主要基于英文数据训练的模型，其结果可能偏向于西方受教育工业化富裕民主（WEIRD）人群的人格特征；研究未涉及可能有害的人格障碍（如通过明尼苏达多项人格测验MMPI评估的类型）。社会影响方面，作者强调，证明LLMs具有类人人格不等于它们具有意识或是人类，并警告不应将此技术用于操纵人类情感和思想。这些讨论体现了研究的审慎态度和对AI伦理的考量。
这项研究为理解和塑造大语言模型的社会行为特性迈出了坚实的一步，为未来构建更安全、更可控、更具社会智能的人工智能系统奠定了重要的方法论基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问