思维链提示激发大语言模型的推理能力

分享自：
思维链提示激发大语言模型的推理能力

期刊:Neural Information Processing Systems
关于“思维链提示激发大语言模型推理能力”研究的学术报告
一、 研究团队与发表信息 本研究由Google Research, Brain Team的Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、Brian Ichter、Fei Xia、Ed H. Chi、Quoc V. Le、Denny Zhou共同完成。该研究成果以题为《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的论文形式，于2022年在第36届神经信息处理系统大会（NeurIPS 2022）上发表。
二、 学术背景与研究目标 本研究属于人工智能领域的自然语言处理（NLP）与大型语言模型（Large Language Models， LLMs）研究范畴。近年来，随着模型规模的扩大，语言模型在诸多任务上展现出卓越的性能，但在需要多步推理的复杂任务（如算术、常识和符号推理）上，其表现仍不尽如人意。传统的微调（finetuning）方法虽然能提升性能，但需要为每个任务收集大量高质量的训练数据（包括输入-输出对及其推理过程），成本高昂。而标准的少样本提示（few-shot prompting）方法，尽管无需微调，但在需要推理的任务上表现不佳，且性能提升并不随模型规模扩大而显著。
在此背景下，本研究旨在探索一种简单、通用且无需额外训练的方法，以激发大型语言模型潜在的复杂推理能力。其核心思想源于人类解决复杂问题的过程：我们通常会分解问题，生成一系列中间推理步骤（即“思维链”），最终得出答案。研究的目标是验证：是否可以通过在提示（prompt）中提供少量包含思维链的示例，引导大型语言模型也生成类似的推理步骤，从而显著提升其在复杂推理任务上的表现。
三、 研究流程与方法详述 本研究采用实证评估方法，系统地检验了“思维链提示”（Chain-of-Thought Prompting）在多种推理任务上的有效性，并与标准提示方法进行对比。整个研究流程包含以下几个核心环节：
1. 核心方法定义与示例构建： - 思维链提示：研究者提出了一种新的提示方法。与标准提示仅提供“问题-答案”对示例不同，思维链提示的每个示例是一个三元组：〈输入问题， 思维链（一系列自然语言中间推理步骤）， 最终答案〉。 - 示例创建：对于算术推理任务，研究者手动编写了8个涵盖不同问题类型的思维链示例（如图1右侧所示）。这些示例没有经过复杂的“提示工程”，以检验方法的鲁棒性。对于其他任务（如常识推理、符号推理），则从相应数据集的训练集中选取或手动构建了包含思维链的少样本示例。
2. 实验对象（模型与任务）： - 语言模型：研究评估了多个大规模语言模型，包括GPT-3系列（参数规模从3.5亿到1750亿）、LaMDA系列（4.22亿到1370亿参数）、PaLM系列（80亿、620亿、5400亿参数）、UL2 200亿以及Codex。这确保了结论在不同模型架构和规模上的可验证性。 - 评估任务与基准：研究在三大类任务上进行了系统评估： - 算术推理：使用GSM8K（数学应用题）、SVAMP、ASDiv、AQuA和MAWPS五个基准数据集。这些数据集需要模型理解文本并执行多步计算。 - 常识推理：使用CSQA（常识问答）、StrategyQA（策略推理）、Big-Bench中的日期理解和体育理解任务，以及SayCan（机器人指令理解）数据集。这些任务需要模型基于世界知识进行逻辑推断。 - 符号推理：设计了两个玩具任务以检验泛化能力：“末字母连接”（连接单词最后一个字母）和“硬币翻转”（追踪硬币状态）。特别地，研究者测试了模型在“分布外”（Out-of-Domain， OOD）场景下的表现，即测试样例的推理步骤长度超过提示示例中的长度。
3. 实验设计与数据处理流程： - 对比基线：标准提示，即仅提供“问题-答案”对的少样本示例（如图1左侧所示）。 - 实验组：思维链提示，提供包含完整思维链的三元组示例。 - 评估过程：对于每个任务和每个模型，研究者构建相应的提示（标准或思维链），输入给模型，并让模型生成答案。对于算术任务，答案通常是自由生成的数字；对于选择题任务，模型生成选项字母。评估指标是模型在测试集上的准确率（Solve Rate）。 - 数据分析：除了比较准确率，研究者还进行了深入的定性分析，例如手动检查模型生成的思维链的正确性，分析错误类型（如计算错误、语义理解错误），并探究模型规模对思维链质量的影响。
4. 消融研究与鲁棒性测试： 为了深入理解思维链提示为何有效，研究者设计了三个变体进行消融实验： - 仅公式（Equation Only）：提示模型在给出答案前先输出数学公式，而非自然语言推理步骤。结果显示，对于复杂问题（如GSM8K），此方法帮助有限，说明自然语言步骤对于理解问题语义至关重要。 - 变量计算（Variable Compute Only）：提示模型输出与解题公式字符数相同的一串“…”，以隔离“增加计算量（更多中间标记）”这一因素的影响。结果与基线相近，表明单纯增加计算量并非关键，通过自然语言表达中间步骤本身具有效用。 - 答案后思维链（Chain of Thought after Answer）：将思维链放在答案之后提供。结果与基线相近，说明思维链必须作为推导答案的“过程”而非“事后解释”才有用，其顺序性很重要。 - 鲁棒性测试：研究者测试了不同标注者编写的思维链、更简洁的写作风格、以及直接从GSM8K训练集采样的示例。结果显示，尽管不同提示之间存在性能波动（这是少样本提示的固有特性），但所有思维链提示变体均大幅优于标准提示基线，证明了该方法对提示具体措辞的鲁棒性。
四、 主要研究结果 研究结果全面且有力地支持了思维链提示的有效性，并揭示了其关键特性：
1. 显著提升推理性能： - 在算术推理任务上，思维链提示带来了巨大的性能飞跃。例如，在最具挑战性的GSM8K基准上，使用思维链提示的PaLM 540B模型准确率达到了新的最先进水平（SOTA），甚至超过了经过微调并带有验证器的GPT-3 175B模型（如图2所示）。在其他算术数据集上，PaLM 540B也达到或接近了SOTA水平。 - 在常识推理任务上，思维链提示同样带来了普遍提升。例如，在StrategyQA上，PaLM 540B超越了之前的单模型最佳性能；在体育理解任务上，其表现甚至超过了未经辅助的人类爱好者。 - 在符号推理任务上，思维链提示不仅使大型模型（如PaLM 540B）在领域内测试上达到接近完美的准确率，更重要的是，它使得模型能够进行长度泛化。对于推理步骤比示例更长的OOD测试样例，标准提示完全失败，而思维链提示则使模型表现出了上升的缩放曲线（如图8所示），表明模型学会了遵循推理模式，而不仅仅是模仿示例长度。
2. 思维链推理是模型规模的“涌现能力”（Emergent Ability）： 这是本研究最关键的发现之一。研究显示，思维链提示带来的性能增益并非在所有模型规模上都存在。对于较小的模型（如参数少于100亿），思维链提示要么没有帮助，甚至可能因生成不合逻辑的步骤而损害性能。然而，当模型规模达到约1000亿参数量级时，思维链提示开始产生显著的、有时是巨大的性能提升（如图4所示）。这表明，遵循复杂多步推理指令的能力，是大型语言模型在达到一定规模后“涌现”出来的新属性。对于许多标准提示表现平平的任务，思维链提示开启了陡峭的模型性能缩放曲线。
3. 思维链提示的优势特性： - 问题分解：允许模型将多步问题分解为中间步骤，从而将更多计算资源分配给需要更多推理的问题。 - 可解释性：为模型行为提供了一个可解释的窗口，有助于理解其得出答案的（可能错误的）路径，便于调试。 - 通用性：基于自然语言的特性使其可广泛应用于数学、常识、符号推理等任何人类可通过语言解决的任务。 - 便捷性：无需对预训练模型进行微调，只需在提示中包含少量思维链示例即可激发这种能力，实现了“即插即用”的推理增强。
4. 错误分析揭示规模效益来源： 通过对模型生成思维链的手动分析发现：当模型给出正确答案时，其思维链几乎总是逻辑正确的。当模型答案错误时，错误可分为次要错误（如计算失误、符号映射错误、缺失一步推理）和主要错误（如语义理解错误、逻辑不连贯）。进一步分析发现，将模型从PaLM 62B扩展到540B，修复了大量“缺失一步推理”和“语义理解错误”，这从侧面解释了为何思维链能力在大模型中涌现——更大规模的模型具有更强的语义理解和步骤遵循能力。
五、 研究结论与价值 本研究得出结论：思维链提示是一种简单、广泛适用且有效的方法，能够显著激发大型语言模型执行复杂多步推理的能力。这种方法通过提供模仿人类推理过程的少样本示例，使模型能够生成中间推理步骤，从而在算术、常识和符号推理任务上实现性能的质的飞跃。
其科学价值在于： 1. 揭示了模型规模与推理能力的非线性关系：明确将“思维链推理”识别为大型语言模型的一种“涌现能力”，深化了我们对模型缩放规律的理解。 2. 提供了一种新的模型能力激发范式：证明了无需昂贵的数据收集和模型微调，仅通过巧妙的提示设计，就能解锁预训练模型中潜在的高级能力。 3. 架起了人类认知与机器计算之间的桥梁：通过让模型生成类人的、可读的推理过程，增强了人工智能系统的可解释性和与人类的交互性。
其应用价值在于： 1. 降低应用门槛：使研究者、开发者能够利用同一个大型语言模型 checkpoint，通过设计不同的提示，快速应对多种复杂的推理任务，提高了模型的通用性和实用性。 2. 为后续研究开辟道路：这项工作启发了大量后续研究，例如通过自洽性（Self-Consistency） 采样多条思维链并投票选择最佳答案，以及探索零样本（Zero-Shot）思维链提示等，持续推动着推理能力的前沿。
六、 研究亮点 1. 核心创新简单而强大：研究提出的“思维链提示”概念极其简洁——仅在标准提示的答案前加入自然语言推理步骤——但其带来的性能提升是革命性的。 2. 系统性的实证验证：研究不仅在单一任务或模型上验证想法，而是横跨算术、常识、符号三大类任务，在GPT-3、LaMDA、PaLM等多个主流大型模型系列上进行了全面测试，结论坚实可靠。 3. 发现并定义了“涌现能力”：研究清晰展示了思维链推理能力随模型规模涌现的现象，这是对大型语言模型能力认知的一个重要贡献。 4. 深入的机制探究：通过精心设计的消融实验和错误分析，研究不仅证明了方法有效，还深入探讨了其为何有效（如自然语言步骤的必要性、顺序的重要性），并排除了其他潜在解释（如单纯增加计算量）。 5. 证明长度泛化潜力：在符号推理任务中，首次展示了思维链提示能够帮助模型泛化到比示例更长的推理序列，这为处理更复杂、步骤更多的问题提供了希望。
七、 其他有价值内容 论文还简要讨论了研究的局限性：例如，虽然模型生成了类似人类推理的文本，但这并不等同于模型真正在进行“推理”，其内部机制仍是黑箱；模型生成的思维链可能包含事实性或逻辑性错误；以及由于该能力仅在大模型中涌现，导致实际应用成本较高等。这些为未来研究指明了方向，例如如何让更小的模型获得推理能力，以及如何提高生成推理路径的可靠性。论文的相关工作部分也系统地梳理了使用中间步骤解决推理问题的历史工作（如Ling et al., 2017; Cobbe et al., 2021）以及与提示学习相关的研究，为读者提供了清晰的学术脉络。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问