基于神经元的大语言模型人格特质诱导方法

分享自：
基于神经元的大语言模型人格特质诱导方法

期刊:ICLR
基于神经元的大语言模型人格特质诱导研究
一、 主要作者、机构与发表信息 本研究的主要作者来自中国人民大学高瓴人工智能学院（Jia Deng, Yanbin Yin, Wayne Xin Zhao, Ji-Rong Wen）、中国人民大学统计与大数据研究院（Wenhao Yang）以及通义实验室（Tianyi Tang）。该研究以会议论文形式发表于ICLR 2025（International Conference on Learning Representations）。
二、 学术背景 本研究的科学领域属于人工智能，具体聚焦于大语言模型（Large Language Models， LLMs）的行为控制与人格模拟。随着LLMs在生成类人文本方面能力日益强大，其在角色扮演、游戏、心理咨询等需要模拟特定人格的应用场景中的潜力受到广泛关注。目前，诱导LLMs展现特定人格特质的方法主要分为两类：基于提示的方法和基于训练的方法。前者（如通过指令提示）虽然高效，但效果不稳定且严重依赖提示设计；后者（如微调）虽然稳定，但需要大量的时间、计算资源和高质量数据，成本高昂。此外，现有方法要么缺乏心理学理论指导，要么无法对细微的人格特质进行精细、精确的控制。
为了解决这些问题，本研究旨在开发一种新颖、高效且精细的人格特质诱导方法。其理论基础建立在心理学中经典的大五人格模型（Big Five Personality Traits）之上，该模型将人格划分为五个核心特质：开放性（Openness）、尽责性（Conscientiousness）、外倾性（Extraversion）、宜人性（Agreeableness）和神经质（Neuroticism）。本研究的目标是：1）构建一个基于大五人格理论的大规模生成式评估数据集；2）提出一种基于神经元激活差异的人格相关神经元识别方法；3）设计一种简单有效的神经元操控方法，在不修改模型参数、无需训练的情况下，实现对LLMs人格特质的细粒度诱导与控制。
三、 详细研究流程 本研究包含三个主要的技术环节：构建人格基准数据集、识别人格相关神经元、以及操控神经元以诱导人格。整体工作流程如原文图1所示。
第一环节：构建PersonalityBench数据集 为了克服现有基于多项选择题的人格评估数据集可能存在的评估偏差问题，并更真实地评估LLMs在开放场景下生成体现特定人格的连贯回答的能力，本研究构建了一个名为PersonalityBench的大规模生成式评估数据集。 1. 数据构成：数据集中的每个实例由一个人格描述和一个情境问题组成。人格描述基于大五人格特质及其细分维度（Facets）生成。例如，针对“外倾性”的积极面（外向）和消极面（内向），会生成对应的描述语句（如“你是一个外向的人，在社交场合中如鱼得水…” vs “你是一个内向的人，喜欢独处…”）。 2. 问题生成：情境问题的设计旨在能够引发不同人格特质的差异化回答。研究团队结合了IPIP-NEO-300人格问卷中的行为描述和UltraChat数据集中的常见现实世界话题（如技术、环境、艺术），通过精心设计的提示词，利用ChatGPT生成涉及两难困境、冲突优先级或挑战性选择的复杂场景问题。随后，再次使用ChatGPT对生成的问题进行审查和优化，以减少潜在的道德或情感偏见，确保问题的客观性和区分度。 3. 数据集规模与用途：最终构建的PersonalityBench包含约18万个实例，平均每个大五人格特质约3.6万个实例，用于后续的神经元识别。此外，基于SocialIQA数据集构建了约450个实例（每个特质约90个问题）用于模型人格诱导效果的评估。人工评估验证了数据集的高质量。
第二环节：识别人格相关神经元 此环节旨在定位LLMs中控制特定人格特质的神经元。其核心创新在于利用人格特质对立面的激活差异进行识别。 1. 神经元定义：本研究聚焦于Transformer架构中前馈神经网络（FFN）模块内的神经元。具体而言，将FFN中经过权重矩阵W1线性变换并经非线性激活函数（如SiLU）激活后的每个维度视为一个“神经元”。 2. 激活差异计算：对于目标人格特质t（如外倾性），利用PersonalityBench中该特质对应的实例子集Pt，分别使用描述其积极面（t+，如外向）和消极面（t-，如内向）的提示词引导LLMs生成回答。在生成过程中，记录每个神经元在生成每个token时的激活概率（即其输出值大于0的频率）。 3. 神经元筛选：计算每个神经元在积极面和消极面响应下的平均激活概率之差δ。如果δ > 10%，则该神经元被识别为控制该特质积极面（P_t+）；如果δ < -10%，则被识别为控制该特质消极面（P_t-）。通过设定此阈值，可以筛选出与特定人格维度显著相关的神经元集合。
第三环节：操控神经元以诱导人格 在识别出人格相关神经元后，通过修改这些神经元在前向传播过程中的激活值，即可诱导LLMs表现出目标人格。 1. 操控策略：设计了一个加权修改公式。对于希望诱导的积极人格特质，采取的策略是：增强属于P_t+的神经元的激活值，同时抑制（设置为0）属于P_t-的神经元的激活值。对于中性神经元，则保持原值不变。修改公式为：n = nori + γ · a_95 · f(δ)，其中nori是原始值，γ是控制修改幅度的超参数，a_95是该神经元原始激活值的95%分位数（用于设定修改上限），f(δ)是基于Sigmoid函数的加权函数，用于根据δ的绝对值大小赋予不同权重（δ越大，权重越高，表明该神经元对人格的影响越大）。 2. 诱导相反特质：若要诱导消极人格特质（如内向），则执行相反的操作：抑制P_t+的神经元，增强P_t-的神经元。 3. 方法优势：该方法无需训练，不改变模型原始参数，因此保持了模型原有的通用能力，同时实现了对人格特质的灵活、精细控制。实验表明，仅需修改约2万个神经元（以Llama-3-8B-Instruct为例），即可有效改变模型的人格表现。
四、 主要实验结果 研究进行了广泛的实验，以验证所提出的神经元识别与诱导方法（命名为NPTI）的有效性、通用性和优越性。 1. 自动评估结果：在Llama-3-8B-Instruct模型上，使用PersonalityBench进行评估，由ChatGPT对模型回答的人格特质表现程度和流畅度进行打分（1-5分）。结果表明，NPTI方法在尽责性、外倾性和神经质三个人格特质上取得了所有基线方法（包括简单提示诱导、P²诱导、PAS、ActAdd）中最高的平均分和最低的方差，表明其诱导的人格更稳定、更显著。在宜人性和开放性上表现也极具竞争力。NPTI的平均性能与需要大量数据训练的监督微调（SFT）基线模型相当，但NPTI无需训练，保留了模型原有参数和能力。 2. 人工评估结果：招募了5名评估者对5种方法（NPTI、简单提示、P²、PAS、SFT）在200个问题上的回答进行排名。结果显示，NPTI在神经质和外倾性上平均排名最高，总体平均排名（2.27，越低越好）也最优，与SFT（2.37）非常接近，且显著优于其他提示方法。评估者间的一致性较高，证明了评估的可靠性。 3. 跨模型兼容性：在Qwen2.5-7B-Instruct、Mistral-7B-Instruct和Gemma-2-9B-IT等其他LLMs上进行的实验表明，NPTI方法在不同模型家族和规模上均表现良好，尤其是在Qwen模型上，在所有五个特质上均超越了提示方法，证明了其良好的泛化能力。 4. 通用能力影响评估：为了检验操控人格神经元是否会影响模型的通用能力，研究在GSM8K（数学推理）、IFEval（指令跟随）和CommonsenseQA（常识问答）基准上进行了测试。结果显示，在激活大多数人格神经元后，模型的性能仅有轻微下降。一个有趣的发现是，激活与“尽责性”积极面相关的神经元后，模型在所有任务上的表现反而略有提升，分析发现这是因为模型在回答中提供了更详细、有条理的解释。而激活“神经质”积极面（焦虑）相关的神经元则导致性能下降最明显，因为模型回答中表现出更多的不确定性和焦虑，影响了答案的正确性。这反过来也印证了NPTI方法的有效性。 5. 消融实验与分析： * 加权函数f(δ)的作用：移除加权函数会导致回答流畅度显著下降，说明根据神经元激活差异δ赋予不同权重的设计是必要的，能避免对低δ值（可能与其他方面如流畅度相关）神经元的过度修改。 * 超参数γ的影响：增大γ（增强修改幅度）会提高人格得分，但会降低流畅度得分。研究选择在流畅度不低于提示方法水平的前提下，取人格得分最高的γ值，以平衡效果与质量。 * 神经元选择阈值的影响：降低激活概率差阈值（选择更多神经元）会使人格得分上升，但流畅度下降。最终选择10%作为阈值，因为此时流畅度趋于稳定而人格得分仍保持较高水平。 * 神经元分布分析：对识别人格神经元的分析发现，控制人格的神经元主要集中在模型的深层。这与先前关于概念知识主要存储于深层FFN的研究发现一致。同时，案例显示，对于控制特定人格特质（如宜人性）的单个神经元，在诱导积极特质时其激活值多为正，诱导消极特质时多为负，这与早期研究中发现的“情感神经元”现象类似。
五、 结论与价值 本研究提出了一种名为NPTI的、基于神经元的大语言模型人格特质诱导新方法。通过构建基于大五人格理论的PersonalityBench数据集，利用人格特质对立面的激活差异来识别关键神经元，并通过直接操控这些神经元的激活值来实现对LLMs人格的精细、稳定控制，且无需训练。实验证明，NPTI方法在多种LLM上均能有效诱导稳定的人格特质，其性能可与监督微调相媲美，同时提供了更高的效率和灵活性。
科学价值：1）为理解和操控LLMs的内部表征机制提供了新视角，将抽象的人格特质与模型中具体的神经元活动联系起来。2）提出了一种基于心理学理论（大五人格）和神经元激活差异的、可解释性更强的神经元识别方法。3）展示了通过干预模型内部激活而非修改参数或依赖外部提示来改变模型行为的可行性。
应用价值：1）为需要高度定制化人格的AI应用（如个性化虚拟角色、具有特定性格的NPC、适应性对话系统、心理治疗辅助工具）提供了一种高效、可控的技术方案。2）方法无需训练，计算成本低，易于部署和调整，允许动态、灵活地组合不同人格特质（如同时表现出外向和焦虑），创造出更复杂、真实的人物性格。
六、 研究亮点 1. 方法创新性：首次提出并系统性地实现了一种基于神经元识别与操控的大语言模型人格诱导框架，避免了传统训练方法的高成本和提示方法的不稳定性。 2. 数据集贡献：构建了首个面向生成式评估的大规模、基于大五人格理论的人格基准数据集PersonalityBench，为后续相关研究提供了重要资源。 3. 理论指导与实践结合：紧密依托心理学的大五人格理论构建数据集和评估体系，使研究具有扎实的理论基础。 4. 精细控制与组合能力：能够实现对单一特质的精细控制，并可通过同时操控多组神经元来组合不同人格特质，展现了强大的灵活性和实用性。 5. 可解释性探索：通过对神经元分布和激活模式的分析，初步揭示了LLMs内部表征人格知识的机制，增强了方法的可解释性。
七、 其他有价值内容 研究还展示了NPTI在创造复杂人格组合方面的潜力。例如，通过同时激活与外倾性和神经质相关的神经元，可以使模型在回答中同时表现出“外向”和“焦虑”的特征，而简单的提示组合（如“你是一个外向且神经质的人”）往往难以有效捕捉这种复合特征。这为构建具有丰富、立体人格特征的AI角色开辟了新的可能性。所有相关资源（代码、数据等）已在GitHub上开源。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问