自适应变色龙还是顽固树懒：揭示大型语言模型在知识冲突中的行为

分享自：
自适应变色龙还是顽固树懒：揭示大型语言模型在知识冲突中的行为

期刊:ICLR 2024
关于大型语言模型在知识冲突中行为研究的学术报告
一、 研究概述 本研究由 Jian Xie（复旦大学计算机科学学院）、Kai Zhang（俄亥俄州立大学）、Jiangjie Chen（复旦大学计算机科学学院）、Renze Lou（宾夕法尼亚州立大学）和 Yu Su（俄亥俄州立大学）共同完成。该研究成果以会议论文形式发表于 2024 年的国际表征学习大会 (International Conference on Learning Representations, ICLR 2024)。论文标题为《自适应变色龙还是顽固树懒：揭示大型语言模型在知识冲突中的行为》。
二、 学术背景 本研究的核心科学领域是人工智能中的自然语言处理，具体聚焦于大型语言模型 (Large Language Models, LLMs) 的行为分析及其与外部知识工具的集成应用。
随着以 OpenAI 的 ChatGPT、GPT-4 等为代表的 LLMs 在预训练海量语料库后展现出强大的“参数化记忆”能力——即存储了大量常识和事实知识，研究人员也认识到这种记忆存在固有局限：它可能是错误的、过时的，并且是模型产生“幻觉”（即生成不准确或无根据信息）的主要原因之一。为了弥补这一缺陷，工具增强（包括检索增强）成为一个极具前景的解决方案，通过为 LLMs 提供外部信息作为新证据，以动态更新和扩展其知识边界，这在实际应用中已体现于 ChatGPT 插件和新 Bing 等产品中。
然而，一个关键且尚未被充分探究的问题是：当外部证据与 LLM 内部固有的参数化记忆发生冲突时，LLM 对这些外部证据的接纳程度如何？这种“知识冲突”情境不仅关乎能否有效利用外部工具克服静态记忆的局限，更直接关联到 LLM 应用的安全性：如果一个第三方工具（无论是开发者有意为之还是被攻击者劫持）返回了虚假信息，LLM 是否会被欺骗？尽管前人研究通过启发式方法（如否定注入、实体替换）构建冲突记忆进行实验，发现语言模型倾向于顽固地坚持其参数化记忆，但这些方法产生的对抗性记忆往往缺乏连贯性和说服力，使得结论在现实场景中的适用性存疑。因此，本研究旨在首次对 LLMs 在遭遇知识冲突时的行为进行一次全面且受控的调查研究，揭示其在真实、连贯的对抗性证据面前的真实反应。
三、 详细研究流程 本研究设计了一个系统性的框架来模拟和探究知识冲突，主要包含三个核心环节：参数化记忆的提取、对抗性记忆的构建以及一系列质量控制检查。整个研究在两个 QA 数据集上展开：以实体为中心、基于事实的 PopQA 数据集（包含约 1.4 万个问题）和需要多步推理的 StrategyQA 数据集（答案为真/假）。研究涵盖了八种 LLMs，包括三种闭源模型（ChatGPT, GPT-4, PaLM2）和五种开源模型（Qwen-7B, Llama2-7B, Llama2-70B, Vicuna-7B, Vicuna-33B）。
1. 参数化记忆提取（步骤1） 为了获取 LLM 对特定问题真实持有的内部记忆，研究采用“闭卷问答”方式。对于给定的问题（例如，“谁是 Google DeepMind 的首席科学家？”），研究者提示 LLM 生成答案（例如，“Demis Hassabis”）并为该答案提供详细的背景信息或解释原因。这段生成的详细背景信息被视为模型的参数化记忆。研究记录了所有答案（包括正确、错误和回答“未知”的）。回答“未知”的样本被剔除，因为这意味着模型无法回忆起相关信息。值得指出的是，研究者不仅保留了回答正确的样本，也保留了回答错误的样本，因为这些错误答案及其关联的记忆同样存储在模型参数中，是研究其行为的重要组成部分。
2. 对抗性记忆构建（步骤2） 为创造与参数化记忆相冲突的“对抗性记忆”，研究者首先根据原始记忆答案生成一个“对抗性答案”。对于 PopQA，使用相同类型的实体进行替换（例如，将“Demis Hassabis”替换为“Jeff Dean”）；对于 StrategyQA，则直接翻转答案（如将“真”变为“假”）。随后，研究者不再像前人工作那样简单地编辑原始参数化记忆的文本（这可能导致文本不连贯），而是指令强大的生成式 LLM（使用 ChatGPT）根据对抗性答案“凭空捏造”一段连贯、有说服力的支持性证据。例如，指令 ChatGPT 生成一段文字，说明 Jeff Dean 如何担任 DeepMind 的首席科学家。这种方法确保了对抗性记忆在文本质量上更接近真实世界可能遇到的、具有迷惑性的错误信息。
3. 数据质量控制（步骤3与步骤4） 为了确保后续实验的可靠性和有效性，研究者引入了两项严格的检查来筛选数据对（参数化记忆-对抗性记忆）。 * 蕴涵关系检查（步骤3）：使用先进的自然语言推理模型 DeBERTa-v2 来判断，是否一段生成的证据（无论是参数化记忆还是对抗性记忆）在逻辑上严格支持其对应的答案。只有那些两个答案都分别得到各自证据明确支持的样本才会被保留。手动评估验证了该 NLI 模型在此任务上高达 99% 的准确率。 * 记忆答案一致性检查（步骤4）：这项检查旨在确认第一步提取的“参数化记忆”确实是模型内部稳固的信念。研究者将第一步生成的参数化记忆作为唯一的外部证据再次呈现给同一 LLM，并要求其回答相同的问题。如果 LLM 此时给出的答案与第一步（闭卷时）的答案不一致，则表明模型对该记忆的信念可能不坚定（例如，其内部存在多个竞争性答案）。此类样本被过滤掉，以确保保留的样本确实代表了 LLM 坚定的参数化记忆。
经过上述两个步骤的筛选后，最终形成了一个高质量的数据集，其中每个问题都对应着一对坚定的参数化记忆和高度连贯、有说服力的对抗性记忆。这使得后续的知识冲突实验能够在可控且贴近现实的条件下进行。实验均采用零样本设置，以避免演示示例带来的偏差。
4. 实验设计与评估指标 研究者设计了多种实验场景来探究 LLMs 的行为： * 单源证据：仅向 LLM 提供对抗性记忆作为外部证据。 * 多源证据：同时向 LLM 提供支持其参数化记忆的证据（参数化记忆）和与之冲突的证据（对抗性记忆），并进一步考察证据流行度（基于问题实体的维基百科页面浏览量）、呈现顺序和数量比例对 LLM 决策的影响。 * 引入无关证据：在提供相关证据的同时，混入与问题无关的文本，考察 LLM 过滤无关信息和处理复杂信息环境的能力。
为了精确评估模型的选择，研究者将开放式的问答转换为多项选择题格式，选项包括“记忆答案”、“对抗性答案”和“不确定”。并引入“记忆化比率”作为量化指标：MR = f_m / (f_m + f_c)，其中 f_m 和 f_c 分别是选择记忆答案和对抗性答案的频率。MR 越高，表明 LLM 越依赖其参数化记忆；反之，则表明越倾向于采纳对抗性记忆。
四、 主要研究结果 本研究揭示了 LLMs 在知识冲突中看似矛盾但深刻的行为模式。
1. 单源证据场景下的高度可塑性 当仅呈现高质量的、由生成方法构建的对抗性记忆作为证据时，LLMs 表现出高度的接纳性。如图2所示，与使用生硬的实体替换方法构建的、不连贯的对抗性记忆相比（此时 LLMs 确实表现出顽固性，尤其是更大、能力更强的模型），面对由 ChatGPT 生成的连贯、有说服力的对抗性记忆，所有测试的 LLMs 选择“对抗性答案”的比例都显著提高，甚至经常超过“记忆答案”的比例。这一发现与之前基于低质量对抗性记忆的研究结论相矛盾。 * 结果解释与贡献：这一结果强有力地证明，LLMs 并非天生顽固。当外部证据质量高、逻辑自洽时，即使与内部记忆冲突，LLMs 也愿意“相信”外部证据。这为有效利用检索增强等技术更新和修正模型知识提供了乐观的实证基础。但硬币的另一面是，这也意味着 LLMs 在面对精心编造的虚假信息时极易被欺骗和误导，这对依赖于第三方工具的安全性构成了严峻挑战。
2. 多源证据场景下的强烈确认偏误 当 LLMs 同时看到支持其参数化记忆的证据和与之冲突的对抗性记忆时，行为发生了戏剧性逆转。如图3和表6所示，LLMs 表现出强烈的确认偏误。记忆化比率相较于单源对抗性证据场景显著飙升，特别是在 GPT-4 等强大模型上。这表明，只要存在哪怕一点支持其内部信念的证据，LLMs 就会倾向于“抓住”这些证据，而忽视或贬低同时呈现的、同样有力的冲突证据。 * 结果的深化分析： * 流行度效应：对于涉及更流行实体的问题（模型在预训练中见过更多次），LLMs 的确认偏误更强（图3）。这说明更强烈的内部记忆导致了更强烈的认知偏见。 * 顺序敏感性：证据的呈现顺序对大多数模型（除 GPT-4 外）的选择有显著影响，波动幅度可达 30% 以上（表5）。例如，PaLM2 倾向于相信最后出现的证据，而 ChatGPT 则对首先出现的证据更敏感。这种对顺序的非理性依赖是工具增强 LLMs 的一个不良特性。 * 从众效应：当证据数量不均时，LLMs 倾向于选择被多数证据支持的一方（表6）。然而，即使对抗性证据在数量上占优（例如1份支持记忆 vs 3份支持对抗），GPT-4 和 Vicuna-33B 等模型仍会明显坚持其参数化记忆，再次凸显了确认偏误的强度。 * 无关证据干扰：当环境中混入大量无关证据时，LLMs（尤其是小模型如 Llama2-7B）会被严重分散注意力，甚至在不提供相关证据时给出无关答案。虽然 LLMs 具备一定能力过滤无关信息，但随着无关证据数量增加，这种能力会下降（表7）。
五、 结论与意义 本研究通过构建一个系统化的高质量知识冲突模拟框架，首次全面、受控地揭示了 LLMs 在遭遇参数化记忆与外部证据冲突时的复杂行为。核心结论是：LLMs 的行为表现出双重性——它们既是高度可塑的“自适应变色龙”，能够在面对优质、连贯的单源外部证据时更新信念；同时也是具有强烈确认偏误的“顽固树懒”，当存在支持其内部记忆的证据时，会倾向于固守己见，忽视矛盾信息。此外，模型的决策还受到证据流行度、呈现顺序、数量比例和无关信息干扰等非理性因素的影响。
本研究的科学价值与应用价值在于： 1. 提供了新的评估基准与深刻洞察：为理解和评估工具增强型 LLMs 在现实复杂信息环境下的表现提供了扎实的实验框架和关键发现。 2. 揭示了安全风险：明确指出 LLMs 易受高质量虚假信息误导的风险，以及其确认偏误可能在信息整合（如生成式搜索引擎、多文档摘要）中导致偏见，这对 LLMs 的安全部署和可信应用敲响了警钟。 3. 指明了改进方向：研究结果提示，未来的工作需要在提升 LLMs 对高质量证据的利用效率、降低其确认偏误和顺序敏感性、增强其无关信息过滤与多源矛盾信息无偏整合能力等方面进行探索。例如，可以通过基于人类反馈的强化学习进行针对性对齐，或在生成式搜索引擎中提供来源引用以供用户判断。 4. 揭示了潜在的伦理风险：研究本身也证明，LLMs 有能力生成足以欺骗自身的高度逼真的虚假信息，这凸显了对其生成内容进行监督和验证的重要性。
六、 研究亮点 1. 方法创新性：摒弃了前人粗糙的文本编辑方法，首创了“指令 LLM 生成高质量对抗性记忆”的框架，确保了实验的生态效度，使得研究结论更贴近现实场景。 2. 发现的前沿性与矛盾性：首次系统性地发现了 LLMs 在知识冲突中“高度可塑性”与“强烈确认偏误”并存的双重行为，修正了此前普遍认为 LLMs 顽固的片面观点，并深入挖掘了这种行为背后的影响因素。 3. 研究的系统性与全面性：从数据构建、质量把控到多场景（单源、多源、无关干扰）、多维度（质量、流行度、顺序、数量）的实验设计，构成了一个完整、严谨的研究体系。 4. 强烈的现实关联性：研究问题直接源于当前 LLMs 与工具集成的热点应用（如插件、联网搜索），其结果对技术发展、产品设计和安全治理具有即时且重要的参考价值。
七、 其他有价值的发现 在附录的讨论中，研究者还进行了补充实验，发现了一些有价值的细节： * 证据长度的影响：LLMs 倾向于采纳更长的证据。特别有趣的是，将对抗性记忆缩短为仅剩答案会使其说服力骤降，但将参数化记忆缩短为答案却对其被采纳的程度影响不大。这表明，说服 LLMs 接受相反观点需要提供充分、翔实的信息，而支持其固有观点的证据则无需过多解释，这进一步证实了确认偏误的存在。 * 信息整合能力的缺陷：当将完整的证据拆分为多个分散的事实片段呈现时，LLMs（以 ChatGPT 为例）整合信息的能力有限，在相当大比例的案例中放弃了原本采纳的完整证据，转而考虑另一方的完整证据。这提示外部工具在向 LLMs 提供证据时，信息的组织形式可能影响最终效果。 * 模型自信度：即使是在采纳外部对抗性证据（单源）或坚持内部记忆（多源）时，模型（以 Llama2-7B 为例）在 token 概率层面都表现出很高的置信度，说明这些行为并非犹豫不决的结果，而是模型基于其推理做出的“坚定”选择。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问