分享自:

自适应变色龙或固执树懒:揭示大型语言模型在知识冲突中的行为

期刊:ICLR

大型语言模型在知识冲突中的行为研究:自适应“变色龙”还是固执“树懒”?

一、 研究基本信息

本研究由复旦大学计算机科学学院的谢健、陈江杰,俄亥俄州立大学的张凯、苏宇,以及宾夕法尼亚州立大学的楼仁泽共同完成。该研究以会议论文形式发表于2024年的国际表征学习大会(ICLR 2024)。论文标题为《自适应变色龙还是固执树懒:揭示大型语言模型在知识冲突中的行为》。

二、 学术背景与研究目标

本研究属于自然语言处理(NLP)和人工智能领域,聚焦于大型语言模型(LLM)的行为分析与评估。随着ChatGPT等工具增强型(tool-augmented)或检索增强型(retrieval-augmented)LLM的兴起,通过外部信息(如搜索、插件)来弥补模型静态参数化记忆(parametric memory)的局限已成为主流范式。然而,一个核心但未被充分探索的问题是:当外部证据与模型自身记忆中的知识发生冲突时,LLM会作何反应?它们会像“变色龙”一样灵活适应新证据,还是像“树懒”一样固执己见?

理解这一问题至关重要,它不仅关系到LLM能否有效利用工具克服知识过时或错误的问题,更涉及到模型的安全性——例如,如果第三方工具返回恶意虚假信息,LLM是否会被欺骗?

此前的研究通常使用启发式方法(如否定注入、实体替换)来构造冲突知识(counter-memory),并发现LLM倾向于固执地坚持其参数化记忆。但这些方法构造的冲突知识往往不连贯、不自然,可能让模型轻易识别并忽略,其结论在更真实、连贯的冲突场景下的适用性存疑。

因此,本研究旨在对LLM在知识冲突中的行为进行首次全面且受控的调查研究。其核心目标是:1)开发一个系统框架,以引出高质量的LLM参数化记忆并构建相应的高质量冲突知识;2)利用该框架,在多种受控实验场景下,深入探究LLM面对知识冲突时的行为模式与偏好。

三、 详细研究流程与方法

本研究设计了一个系统性的五步框架来模拟和分析知识冲突,具体流程如下:

第一步:参数化记忆引出(Parametric Memory Elicitation) * 研究对象与样本量:研究选取了八个LLM作为研究对象,包括三个闭源模型(ChatGPT, GPT-4, PaLM2)和五个开源模型(Qwen-7B, Llama2-7B/70B, Vicuna-7B/33B)。使用的基准数据集包括实体问答数据集PopQA(约1.4万问题)和多步推理数据集StrategyQA(约2290问题)。 * 处理与实验方法:在“闭卷问答”模式下,直接向LLM提问(例如,“谷歌DeepMind的首席科学家是谁?”),并要求模型在提供答案的同时,给出支持该答案的背景解释或推理过程。这个生成的背景解释被视为模型的“参数化记忆”。此步骤旨在获取模型内部存储的、与问题相关的知识信念。研究记录了模型回答的正确、错误或“未知”的情况,并保留了所有回答(包括错误答案)用于后续分析,因为错误的答案及其关联记忆同样存储在模型参数中。

第二步:冲突知识构建(Counter-Memory Construction) * 处理与实验方法:基于第一步得到的“记忆答案”(memory answer),研究者构造一个与之矛盾的“冲突答案”(counter-answer)。对于PopQA,将答案实体替换为同类型的另一个实体;对于StrategyQA,则直接翻转答案(真/假)。随后,指令ChatGPT根据这个“冲突答案”,凭空生成一段连贯、有说服力的支持性证据文本,即“冲突知识”。这种方法旨在生成比传统词级编辑方法更自然、更可信的冲突信息。

第三步:答案-证据蕴含检查(Answer-Evidence Entailment Checking) * 处理与实验方法:为确保生成的证据(无论是参数化记忆还是冲突知识)都能强有力地支持其对应的答案,研究使用了最先进的自然语言推理(NLI)模型DeBERTa-v2,来判断证据是否在逻辑上“蕴含”答案。只有那些参数化记忆蕴含记忆答案、且冲突知识蕴含冲突答案的样本对才会被保留。人工评估验证了该NLI模型在此任务上高达99%的准确率,确保了数据质量。

第四步:记忆答案一致性检查(Memory Answer Consistency) * 处理与实验方法:为进一步确认引出的参数化记忆确实是模型坚信的内部信念,研究者进行了一项一致性检验。他们将第三步中保留下来的参数化记忆作为唯一证据,再次呈现给LLM,并要求其基于此证据回答问题。如果模型给出的答案与第一步中的“记忆答案”不一致,则表明模型对该记忆的信念并不牢固,此类样本将被过滤掉。经过第三、四步的严格筛选,最终为每个LLM构建了高质量、高置信度的参数化记忆与冲突知识配对数据集(例如,ChatGPT在PopQA上最终有7947个有效样本)。

第五步:知识冲突实验与评估(Knowledge Conflict Experiments & Evaluation) * 实验设置:研究设计了多种实验场景来探究LLM的行为: 1. 单源证据(Single-source Evidence):仅向LLM提供冲突知识作为外部证据,观察其是否采纳。 2. 多源证据(Multi-source Evidence):同时向LLM提供支持其记忆的参数化记忆和与之冲突的冲突知识,观察其偏好。 3. 变量控制实验:在多源证据设置下,进一步控制证据的流行度(根据实体维基百科页面浏览量划分)、呈现顺序(记忆证据在前 vs. 冲突证据在前)和数量比例(例如,支持记忆的证据 vs. 支持冲突的证据为1:2, 2:2, 3:1等)。 4. 无关证据干扰:在证据中加入与问题无关的文本,测试LLM的过滤能力。 * 评估方法:为避免开放生成答案的歧义,研究将任务转化为多项选择问答形式。对于每个问题,LLM需从“记忆答案”、“冲突答案”和“不确定”中选择一项。核心评估指标是记忆化比率(Memorization Ratio, MR),计算公式为 MR = Fm / (Fm + Fc),其中Fm和Fc分别是选择记忆答案和冲突答案的频率。MR越高,表明LLM越依赖自身参数化记忆;MR越低,则表明越倾向于采纳外部冲突知识。

四、 主要研究结果

  1. 单源证据场景:LLM是高度接纳的“变色龙”

    • 结果:当使用传统实体替换法构造的、不连贯的冲突知识时,LLM(尤其是闭源大模型)表现出固执性,MR值很高,与先前研究结论一致。
    • 结果:然而,当使用本研究框架生成的连贯、可信的冲突知识作为唯一证据时,所有LLM的记忆化比率(MR)均大幅下降,变得高度倾向于采纳外部冲突证据,甚至因此给出错误答案。例如,ChatGPT和GPT-4等模型选择冲突答案的比例显著提升。
    • 解释与逻辑:这一结果颠覆了此前“LLM在知识冲突中总是固执”的认知。它表明,LLM对外部证据的接受度高度依赖于证据的质量。高质量、连贯的冲突知识足以说服LLM覆盖其内部记忆。这也揭示了严重的安全风险:LLM可以被恶意工具提供的、精心编造的虚假信息轻易误导。
  2. 多源证据场景:LLM表现出强烈的“确认偏误”(Confirmation Bias),成为固执的“树懒”

    • 结果:当同时提供支持记忆和反对记忆的证据时,LLM的记忆化比率(MR)相比单源冲突证据场景显著回升。例如,GPT-4在面对多源冲突时,MR值远高于仅看到冲突证据时。
    • 解释与逻辑:这表明LLM存在确认偏误——当外部信息中存在与其内部信念一致的部分时,它们会倾向于坚持原有信念,即使同时看到了同等甚至更多的反面证据。这对于需要无偏见整合多方信息的工具增强型LLM(如生成式搜索引擎)是一个潜在挑战。
  3. 影响证据偏好的因素

    • 知识流行度:对于涉及高流行度实体(如知名人物、地点)的知识,LLM的确认偏误更强,MR值更高。这可能是因为这些知识在预训练数据中出现频率更高,模型信念更牢固。
    • 证据顺序:多数LLM对证据的呈现顺序表现出敏感性(顺序效应)。例如,PaLM2和Llama2-7b的偏好会随证据顺序不同而发生超过30%的波动,这不是工具增强应用的理想特性。
    • 证据数量:LLM表现出“从众效应”,倾向于支持证据数量更多的一方。随着支持参数化记忆的证据比例增加,MR值单调上升。即使支持冲突答案的证据数量占优(如1:2),GPT-4和Vicuna-33b等模型仍会明显坚持自身记忆。
    • 无关证据干扰:当提供无关证据且无相关证据时,LLM(尤其是Llama2-7b)容易被干扰,输出无关答案。但当相关证据(记忆与冲突证据)也存在时,LLM具备一定的能力过滤无关信息,但随着无关证据增多,此能力会下降。
  4. 其他重要发现(补充实验)

    • 证据长度影响:LLM对短小且与自身记忆一致的证据接受度很高,但对于短小的冲突证据则非常怀疑。这进一步印证了其确认偏误。
    • 信息整合能力不足:当将完整的证据拆分为多个片段提供时,ChatGPT改变其答案偏好的比例高达38.2%,表明LLM整合碎片化信息的能力有限。
    • 生成虚假信息的能力:本框架的成功本身证明,LLM能够生成极具说服力的虚假信息(冲突知识),这构成了潜在的伦理风险。

五、 研究结论与价值

本研究得出结论:LLM在知识冲突中的行为具有双重性,既是“自适应变色龙”,也是“固执树懒”。其行为高度依赖于上下文:当外部证据是唯一且高质量的信息源时,LLM表现出惊人的高接纳度,这有利于知识更新,但也带来了被恶意信息欺骗的风险;当存在混合证据(支持与矛盾并存)时,LLM则表现出强烈的确认偏误,倾向于坚守参数化记忆,这不利于其在复杂信息环境中的无偏见决策。

科学价值:本研究首次系统、受控地揭示了LLM在知识冲突中的复杂行为模式,挑战了先前简单化的结论,为理解LLM的推理机制、信念形成与更新提供了新的实证依据。提出的系统性评估框架为未来相关研究提供了高质量的数据构建方法和可靠的测试平台。

应用价值与重要观点: 1. 安全警示:研究凸显了工具增强型LLM面临的新型安全威胁——对高质量虚假信息的脆弱性。开发针对第三方工具信息的验证与监控系统至关重要。 2. 模型改进方向:LLM表现出的确认偏误和顺序敏感性是需要通过微调、人类反馈强化学习(RLHF)等技术进行对齐和改善的缺陷。 3. 系统设计启示:对于生成式搜索引擎等应用,让模型为其答案引用来源,将判断权部分交还给用户,是更可靠的部署方式。 4. 伦理风险:研究证明了LLM生成高欺骗性虚假信息的能力,呼吁社区关注并制定防范措施。

六、 研究亮点

  1. 重要发现:揭示了LLM在知识冲突中“高接纳度”与“强确认偏误”并存的矛盾行为,深化了对其认知特性的理解。
  2. 方法新颖性:创新性地提出了一个系统框架,通过LLM自身生成高质量、连贯的冲突知识,克服了传统启发式方法构造证据质量低下的问题,使得实验更贴近真实场景。
  3. 研究全面性:不仅进行了单/多源证据的基础实验,还深入探究了流行度、顺序、数量、无关信息干扰等多个维度对LLM行为的影响,分析全面而深入。
  4. 高实用性:构建的数据集和评估框架具有很高的可复用性,为社区提供了宝贵的资源,其结论对LLM的安全部署、能力评估和后续研究具有直接的指导意义。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com