本研究报告由Xuezhi Wang†‡、Jason Wei†、Dale Schuurmans†、Quoc Le†、Ed H. Chi†、Sharan Narang†、Aakanksha Chowdhery†和Denny Zhou†§共同完成,作者团队主要来自Google Research的Brain Team。该研究以《Self-Consistency Improves Chain of Thought Reasoning in Language Models》为题,作为会议论文发表于ICLR 2023。
本研究属于自然语言处理(NLP)与人工智能领域,聚焦于提升大型语言模型在复杂推理任务中的表现。近年来,尽管预训练语言模型在各类NLP任务中取得了显著成功,但其推理能力仍被视为主要瓶颈。Wei等人(2022)提出的思维链(Chain-of-Thought,CoT)提示方法通过让语言模型生成类似人类推理过程的中间步骤,显著提升了多步推理任务的性能。然而,传统的贪婪解码(greedy decoding)策略限制了模型潜力的充分发挥。
本研究的核心目标是开发一种新的解码策略——自洽性(Self-Consistency),以取代CoT提示中使用的贪婪解码。研究基于一个关键直觉:复杂的推理问题通常允许多种不同的思考路径通向唯一正确答案。通过利用这一特性,研究团队希望进一步提升语言模型在算术和常识推理任务中的表现。
自洽性方法包含三个主要步骤: 1) 使用CoT提示语言模型 2) 通过从语言模型解码器中采样生成多样化的推理路径集合,取代单一贪婪解码 3) 通过边缘化(marginalizing out)采样的推理路径,从最终答案集合中选择最一致的答案
该方法的核心创新在于”采样-边缘化”解码过程。研究假设正确的推理过程即使多样化,其最终答案的一致性也会高于错误过程。具体而言,给定提示和问题,研究引入了一个潜在变量ri表示第i个输出中的推理路径,将(ri,ai)的生成耦合起来,其中ri→ai。
研究在多个推理基准上进行了广泛实验评估:
任务与数据集: - 算术推理:GSM8K、SVAMP、AQUA、MultiArith等数学应用题数据集 - 常识推理:CommonsenseQA、StrategyQA、ARC挑战赛 - 符号推理:字母连接、硬币翻转等任务
语言模型: 研究评估了四种不同规模的基于Transformer的语言模型: 1) 公开模型UL2-20B(200亿参数) 2) GPT-3-175B(1750亿参数) 3) LaMDA-137B(1370亿参数) 4) PaLM-540B(5400亿参数)
实验设置: - 采用少样本(few-shot)设置,不对语言模型进行训练或微调 - 使用与Wei等人(2022)相同的提示模板 - 采样策略:对UL2-20B和LaMDA-137B使用温度采样(t=0.5)和top-k截断(k=40);对PaLM-540B使用t=0.7,k=40;对GPT-3使用t=0.7无top-k截断
研究将自洽性与多种现有方法进行比较: 1) 样本排序(Sample-and-Rank) 2) 束搜索(Beam Search) 3) 基于集成的方法: - 提示顺序排列集成 - 多组提示集成 4) 贪婪解码的CoT提示(基线方法)
自洽性在所有四个语言模型上均显著提升了CoT提示的性能: - 算术推理任务:在GSM8K上绝对准确率提升达+17.9%,SVAMP +11.0%,AQUA +12.2% - 常识推理任务:StrategyQA +6.4%,ARC挑战赛 +3.9% - 当与PaLM-540B或GPT-3结合使用时,自洽性在算术推理任务上达到了新的最先进水平
表1展示了不同答案聚合策略在PaLM-540B上的准确性比较。研究发现: - 直接对ai进行多数投票(”未加权求和”)与使用”归一化加权求和”聚合的结果非常相似 - “归一化”加权求和比非归一化版本准确率高得多 - “加权平均”方法表现最差
本研究提出了一种简单而有效的自洽性方法,通过利用多样化推理路径的一致性来显著提升语言模型在复杂推理任务中的表现。该方法具有以下重要价值:
研究还发现了一些有价值的额外发现: 1. 自洽性能够修复CoT提示可能损害性能的情况(表5) 2. 语言模型生成的规范化条件概率p(ri,ai|prompt,question)彼此接近,说明模型认为这些生成为”相似可能” 3. 语言模型的校准性不佳,难以区分正确解和错误解 4. 自洽性可用于收集语言模型执行推理任务时的理论依据 5. 低一致性可作为模型对其生成解决方案低置信度的指标
研究者也指出了该方法的局限性: 1. 计算成本增加(实践中可使用较少路径如5或10条来平衡) 2. 仅适用于最终答案来自固定集合的问题 3. 语言模型有时会生成不正确或无意义的推理路径
未来工作可探索: 1. 使用自洽性生成更好的监督数据来微调模型 2. 将方法扩展到开放文本生成问题 3. 改进模型理论依据生成的真实性 4. 开发更好的指标来衡量多代之间的一致性